activities

latest

false

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Actividades de Document Understanding

Última actualización 5 de dic. de 2024

Digitalizar documento

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Descripción

Digitaliza un documento, extrayendo su modelo de objeto del documento (DOM, por sus siglas en inglés) y su texto, y almacenándolos en sus correspondientes tipos de variables.

Nota: debes asignar un motor OCR a esta actividad arrastrándolo al cuerpo de la actividad. El motor OCR elegido solo se utilizará si los documentos entrantes requieren el procesamiento OCR. Consulta Motores OCR para comprobar los motores OCR disponibles. Los parámetros de entrada y salida del motor OCR seleccionado se establecen automáticamente por la actividad Digitalizar documento.

Compatibilidad de proyectos

Windows-Legacy | Windows

Configuración

Panel de propiedades

Común

NombreParaMostrar: el nombre de la actividad para ser mostrado.

Entrada

ApplyOcrOnPdf: establece si el proceso de OCR debe aplicarse o no a los documentos PDF. Si se establece en Sí, el OCR se aplica a todas las páginas PDF del documento. Si se establece en No, solo se extrae el texto escrito digitalmente. El valor predeterminado es Automático, y determina si el documento requiere aplicar el algoritmo OCR en función del documento de entrada.
GradoDeParalelismo: especifica cuántas, si las hay, páginas se analizarán en paralelo. El valor -1 utiliza el "Número de núcleos en la máquina: 1". Esto significa que la actividad intenta procesar tantas páginas en paralelo como el número de núcleos: valor 1, mientras que la especificación de un valor positivo utiliza ese número específico de procesadores lógicos. De forma predeterminada, esta propiedad está establecida en -1.
Esta propiedad acepta cualquier valor que no sea mayor que LogicalProcessorCount - 1.
DetectarCasillasDeVerificación: detecta las casillas de verificación disponibles del documento al digitalizarlo. El valor predeterminado es Verdadero.
RutaDelDocumento: la ruta del archivo del documento que deseas digitalizar. Este campo solo admite cadenas y variables String.
Nota:
- En caso de no poder clasificar un documento que tiene suficientes datos, en la actividad Digitalizar documento, establece la propiedad ApplyOcrOnPdf como Sí.
- La extracción de texto a partir de archivos PDF se ha actualizado. Esto da como resultado un proceso de extracción optimizado, donde tanto el texto nativo como el escaneado se recuperan al mismo tiempo. El proceso aplica OCR solo en las imágenes identificadas en el archivo PDF. Esta mejora solo está disponible cuando la opción AplicarOcrEnPdf se establece en Auto.
Nota: los tipos de archivo admitidos para este campo de propiedad son .png, .jpe, .jpg, .jpeg, .tiff, .tif y .pdf.

Otros

Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.

Salida

ModeloDeObjetoDeDocumento: el modelo de objeto dedocumento (DOM) del archivo, almacenado en una variable Document . Este campo solo admite variables Document .
TextoDeDocumento: el texto extraído del documento especificado. Esta variable puede utilizarse posteriormente en la actividad Estación de validación presente. Este campo solo admite variables de String.
Nota: a partir de UiPath.IntelligentOCR.Activities v6.3.0-vista previa, la actividad Digitalizar documento viene con un motor OCR preseleccionado predeterminado, el motor UiPath® Document OCR.

Ambas variables de salida, emparejadas porque son dependientes, pueden utilizarse aún más en el procesamiento de documentos en todo el marco de procesamiento de documentos (clasificación, extracción de datos, validación humana, etc.).

Importante

Si el paquete UiPath.IntelligentOCR.Activities se ha actualizado a v5.1.0, el parámetro ForceApplyOCR se ha reemplazado por el ApplyOcrOnPDF. Aquí está la compatibilidad entre los parámetros antiguos y nuevos:

ForceApplyOCR = Verdadero se reemplaza por ApplyOcrOnPDF = Sí;
ForceApplyOCR = Falso se reemplaza por ApplyOcrOnPDF = Auto;
ForceApplyOCR = Vacío se reemplaza por ApplyOcrOnPDF = Auto;
ForceApplyOCR = tu variable definida se reemplaza por ApplyOcrOnPDF = Auto.

Nota: la actividad Digitalizar documento extrae el texto de un archivo PDF y, para documentos complejos, aplica algoritmos de preprocesamiento y postprocesamiento. Esta actividad puede utilizarse junto con otras actividades de Document Understanding.

Modelo de objeto de documento

El modelo de objeto de documento se captura en un objeto propietario. Consulta Clase de documento para obtener más información.

Consejo: para digitalizar y procesar tus documentos correctamente, considera el siguiente consejo:

Para que una imagen se digitalice/procese correctamente, sus dimensiones de ancho y altura deben estar entre 50 y 10 000 píxeles. Cualquier imagen por debajo o por encima de este rango se rechaza, con un mensaje de excepción. Una imagen validada con las dimensiones mencionadas anteriormente y con un tamaño total mayor que 14 MP, se escala a 14 MP, mientras se mantiene la relación de aspecto (relación de ancho o altura).
Los mejores resultados se obtienen manteniendo el ángulo de oblicuidad entre +/- 20 grados.

Ejemplo de uso de la actividad Digitalizar documento

Consulta Validación manual para digitalizar documentos para comprobar cómo se utiliza la actividad Digitalizar documento en un ejemplo que incorpora varias actividades.

En esta página