UiPath Documentation
activities
latest
false

Actividades de Document Understanding

Última actualización 5 de may. de 2026

Digitalizar documento

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Descripción

Digitaliza un documento, extrayendo su modelo de objeto del documento (DOM, por sus siglas en inglés) y su texto, y almacenándolos en sus correspondientes tipos de variables.

Nota:

Debes asignar un motor OCR a esta actividad arrastrándolo al cuerpo de la actividad. El motor OCR elegido se utilizará solo si los documentos entrantes requieren procesamiento OCR. Consulta Motores OCR para comprobar los motores OCR disponibles. Los parámetros de entrada y salida del motor OCR seleccionado se establecen automáticamente por la actividad Digitalizar documento .

Compatibilidad de proyectos

Windows-Legacy | Windows

Configuración

Panel de propiedades

Común

  • Nombre para mostrar: el nombre para mostrar de la actividad.

Entrada

  • AplicarOcrEnPdf : establece si el proceso OCR debe aplicarse o no a los documentos PDF. Si se establece en , el OCR se aplica a todas las páginas PDF del documento. Si se establece en No, solo se extrae el texto escrito digitalmente. El valor predeterminado es Automático, que determina si el documento requiere aplicar el algoritmo OCR en función del documento de entrada.

  • GradoDeParalelismo : especifica cuántas páginas, si las hay, se analizarán en paralelo. El valor -1 utiliza el "Número de núcleos en la máquina: 1". Esto significa que la actividad intenta procesar tantas páginas en paralelo como el número de núcleos - 1 valor, mientras que especificar un valor positivo utiliza ese número específico de procesadores lógicos. De forma predeterminada, esta propiedad está establecida en -1.

    Esta propiedad acepta cualquier valor que no sea mayor que LogicalProcessorCount - 1.

  • DetectarCasillasDeVerificación : detecta las casillas de verificación disponibles del documento mientras lo digitaliza. El valor predeterminado es Verdadero.

  • RutaDelDocumento : la ruta del archivo del documento que quieres digitalizar. Este campo solo admite cadenas y variables String .

    Nota:
    • Establece la propiedad ApplyOcrOnPdf en para los documentos PDF nativos que contienen logotipos, imágenes ocultas u otros elementos que corrompen la salida de digitalización y pueden dar lugar a extracciones y/o clasificaciones subóptimas.
    • La extracción de texto a partir de archivos PDF se ha actualizado. Esto da como resultado un proceso de extracción optimizado, donde tanto el texto nativo como el escaneado se recuperan al mismo tiempo. El proceso aplica OCR solo en las imágenes identificadas en el archivo PDF. Esta mejora solo está disponible cuando la opción AplicarOcrEnPdf se establece en Auto.
    Nota:

    Los tipos de archivo compatibles para este campo de propiedad son .png, .jpe, .jpg, .jpeg, .tiff, .tif y .pdf.

Otros

  • Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.

Salida

  • DocumentObjectModel - The Document Object Model (DOM) of the file, stored in a Document variable. This field supports only Document variables.
  • TextoDeDocumento : el texto extraído del documento especificado. Esta variable puede utilizarse posteriormente en la actividad Estación de validación presente . Este campo solo admite variables String .
    Nota:

    A partir del paquete UiPath.IntelligentOCR.Activities v6.3.0-preview, la actividad Digitalizar documento viene con un motor OCR preseleccionado por defecto, el motor UiPath® Document OCR .

Ambas variables de salida, emparejadas porque son dependientes, pueden utilizarse aún más en el procesamiento de documentos en todo el marco de procesamiento de documentos (clasificación, extracción de datos, validación humana, etc.).

Importante

Si el paquete UiPath.IntelligentOCR.Activities se ha actualizado a v5.1.0, el parámetro ForceApplyOCR se ha reemplazado por el ApplyOcrOnPDF. Aquí está la compatibilidad entre los parámetros antiguos y nuevos:

  • ForceApplyOCR = True se reemplaza por ApplyOcrOnPDF = Yes;
  • ForceApplyOCR = False se reemplaza por ApplyOcrOnPDF = Auto;
  • ForceApplyOCR = Vacío se reemplaza por ApplyOcrOnPDF = Auto;
  • ForceApplyOCR = Su variable definida se reemplaza por ApplyOcrOnPDF = Auto.
Nota:

La actividad Digitalizar documento extrae el texto de un archivo PDF y, para documentos complejos, aplica algoritmos de preprocesamiento y posprocesamiento. Esta actividad se puede utilizar junto con otras actividades de Document Understanding.

Modelo de objeto de documento

El modelo de objeto de documento se captura en un objeto propietario. Consulta Clase de documento para obtener más información.

Consejo:

Para digitalizar y procesar tus documentos con éxito, ten en cuenta los siguientes consejos:

  • Para que una imagen se digitalice/procese correctamente, sus dimensiones de ancho y altura deben estar entre 50 y 10 000 píxeles. Cualquier imagen por debajo o por encima de este rango se rechaza, con un mensaje de excepción. Una imagen validada con las dimensiones mencionadas anteriormente y con un tamaño total mayor que 14 MP, se escala a 14 MP, mientras se mantiene la relación de aspecto (relación de ancho o altura).
  • Los mejores resultados se obtienen manteniendo el ángulo de oblicuidad entre +/- 20 grados.

Ejemplo de uso de la actividad Digitalizar documento

Consulta Validación manual para digitalizar documentos para comprobar cómo se utiliza la actividad Digitalizar documento en un ejemplo que incorpora varias actividades.

¿Te ha resultado útil esta página?

Conectar

¿Necesita ayuda? Soporte

¿Quiere aprender? UiPath Academy

¿Tiene alguna pregunta? Foro de UiPath

Manténgase actualizado