Actividades
Más reciente
False
Imagen de fondo del banner
Actividades de Document Understanding
Última actualización 29 de abr. de 2024

Digitalizar documento

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Digitaliza un documento, extrayendo su modelo de objeto del documento (DOM, por sus siglas en inglés) y su texto, y almacenándolos en sus correspondientes tipos de variables.

Nota: debes asignar un motor OCR a esta actividad arrastrándolo al cuerpo de la actividad. El motor OCR elegido solo se utilizará si los documentos entrantes requieren el procesamiento OCR. Los motores OCR disponibles se pueden encontrar aquí. Los parámetros de entrada y salida del motor OCR seleccionado se establecen automáticamente por la actividad Digitalizar documento.

Propiedades

Común
  • NombreParaMostrar: el nombre de la actividad para ser mostrado.
Entrada
  • ApplyOcrOnPdf: establece si el proceso de OCR debe aplicarse o no a los documentos PDF. Si se establece en , el OCR se aplica a todas las páginas PDF del documento. Si se establece en No, solo se extrae el texto escrito digitalmente. El valor predeterminado es Automático, y determina si el documento requiere aplicar el algoritmo OCR en función del documento de entrada.
  • GradoDeParalelismo : especifica cuántas páginas, si las hay, que se analizarán en paralelo. El valor -1 utiliza el "Número de núcleos en la máquina - 1" (lo que significa que intenta procesar tantas páginas en paralelo como el número de núcleos - 1 valor), mientras que al especificar un valor positivo se utiliza ese número específico de procesadores lógicos . De forma predeterminada, esta propiedad está establecida en -1.
  • Detectar casillas de verificación: detecta las casillas de verificación disponibles en el documento mientras lo digitaliza. El valor predeterminado es Verdadero.
  • Ruta deldocumento : la ruta del archivo del documento que quieres digitalizar. Este campo solo admite cadenas y variables de cadena.

    Nota:
    • En caso de que no se clasifique un documento que tiene suficientes datos, establece la propiedad ApplyOcrOnPdf como Sí en la actividad Digitalizar documento.
    • La extracción de texto de archivos PDF se ha actualizado, lo que ha permitido un proceso de extracción optimizado, en el que tanto el texto nativo como el escaneado se recuperan al mismo tiempo, y el OCR se aplica solo a las imágenes identificadas en el archivo PDF. Esta mejora solo está disponible cuando la opción AplicarOCROnPDF está establecida en Automático.
    Nota: los tipos de archivo admitidos para este campo de propiedad son .png, .jpe, .jpg, .jpeg, .tiff, .tif y .pdf.
Otros
  • Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
Salida
  • ModeloDeObjetoDeDocumento: el modelo de objeto dedocumento (DOM) del archivo, almacenado en una variable Document . Este campo solo admite variables Document .
  • TextoDeDocumento : el texto extraído del documento especificado. Esta variable se puede utilizar posteriormente en la actividad Presentar estación de validación . Este campo solo admite variables de cadena.

    Note: Starting with UiPath.IntelligentOCR.Activities package v6.3.0-preview, the Digitize Document activity comes with a default preselected OCR engine, the UiPath® Document OCR engine.

Ambas variables de salida, tanto emparejadas como dependientes, se pueden utilizar en el procesamiento de documentos en todo el marco de procesamiento de documentos (clasificación, extracción de datos, validación humana, etc.)

Importante

Si el paquete UiPath.IntelligentOCR.Activities se ha actualizado a la versión 5.0 entonces el parámetro ForzarAplicaciónOCR se ha reemplazado por el ApplyOcrOnPDF. Aquí está la compatibilidad entre los parámetros antiguos y los nuevos:

  • ForzarAplicación = Verdadero se reemplaza por ApplicarOcrEnPDF = Sí

  • ForzarAplicaciónOCR = Falso se está reemplazando por ApplyOcrOnPDF = Automático • ForzarAplicaciónOCR = Vacío se reemplaza por ApplyOcrOnPDF = Automático

  • ForzarApplyOCR = <variable definida por el usuario> está siendo reemplazado por ApplyOcrOnPDF = Auto

Nota: La actividad Digitalizar documento extrae el texto de un archivo PDF y, para documentos complejos, aplica algoritmos de preprocesamiento y posprocesamiento. Esta actividad se puede utilizar junto con otras actividades de Document Understanding.

Modelo de objeto de documento

El modelo de objeto de documento se captura en un objeto propietario documentado aquí.

Nota:

Para que una imagen se digitalice / procese con éxito, sus dimensiones de ancho y alto deben estar entre 50 y 10 000 píxeles. Cualquier imagen por debajo o por encima de este rango debe ser rechazada, con un mensaje de excepción. Una imagen validada con las dimensiones mencionadas anteriormente y con un tamaño total superior a 14 MP, se reducirá a 14 MP, manteniendo la relación de aspecto (relación ancho / alto).

Los resultados de OCR en documentos escaneados se han mejorado y ahora se obtienen los mejores resultados manteniendo el ángulo de inclinación entre +/- 20 grados.

Ejemplo de uso de la actividad Digitalizar documento

Puedes ver cómo se utiliza la actividad Digitalizar documento en un ejemplo que incorpora múltiples actividades.

Puedes consultar y descargar el ejemplo desde aquí.

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.