document-understanding
2022.4
true
UiPath logo, featuring letters U and I in white

Guía del usuario de Document Understanding

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Última actualización 24 de oct. de 2024

Visión general de digitalización

Qué es digitalización

La digitalización es el proceso de obtener un texto legible por la máquina a partir de un archivo entrante determinado, de modo que un UiPath Robot pueda comprender su contenido y actuar sobre él. Es el primer paso que se aplica a los archivos que deben ser procesados a través del marco de Document Understanding.

El paso de digitalización tiene dos salidas:

  • el texto del archivo procesado, almacenado en una variable de string, y
  • el modelo de objeto de documento de ese archivo: objeto JSON que contiene información básica como el nombre, el tipo de contenido, la longitud del texto, el número de páginas, así como información detallada como la rotación de la página, el idioma detectado, el contenido y las coordenadas de cada palabra identificada en el archivo.

En el marco de procesamiento de documentos, la digitalización se realiza mediante la actividad Digitalizar documento.

Qué no es digitalización

Aunque esté relacionado, el paso de digitalización no es OCR.

A menudo, los archivos que deben procesarse son archivos PDF nativos (no escaneados) que el UiPath Robot puede leer mediante programación sin aplicar OCR.

Cuándo se usa el OCR en la digitalización

La actividad Digitalizar documento requiere, como parte de su configuración, la selección de un motor de OCR para que, en caso de necesidad, se pueda utilizar; pero solo ejecute el OCR en

  • archivos que sean imágenes

    • Los formatos de imagen compatibles son: .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
    • en los archivos TIFF de varias páginas, el OCR se aplica a cada página
  • páginas en PDF que

    • no exponga ningún contenido legible por máquina
    • contienen imágenes que cubren un área significativa de la página.

El OCR también se aplica, siempre, si la actividad Digitalizar documento está configurada con el indicador ForzarAplicaciónOCR establecido como Verdadero. Esta opción suele recomendarse para casos de uso en los que un porcentaje significativo de archivos parece tener contenido nativo, pero el contenido leído de forma nativa no se corresponde con lo que un usuario puede ver en esos archivos.

Cómo elegir el motor de OCR

Como cada caso de uso tiene sus propias particularidades, se recomienda encarecidamente probar todos los motores OCR disponibles con diferentes configuraciones para determinar cuál funciona mejor con tu proyecto. Otra recomendación es prestar especial atención a los argumentos del motor de OCR, como Perfil, Escala, Idioma, etc. (pueden variar de un motor a otro), de modo que se identifique la mejor configuración para cada caso de uso.

  • Qué es digitalización
  • Qué no es digitalización
  • Cuándo se usa el OCR en la digitalización
  • Cómo elegir el motor de OCR

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.