Document Understanding: descripción general de la digitalización

document-understanding

2024.10

false

Guía del usuario de Document Understanding

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Visión general de digitalización

Descripción general del componente de digitalización en el marco de Document Understanding, que explica cómo se extrae el texto legible por máquina de los archivos entrantes como primer paso de procesamiento.

Qué es digitalización

La digitalización es el proceso de obtener texto legible por máquina a partir de un archivo entrante determinado, de modo que un robot pueda comprender su contenido y actuar en consecuencia. Es el primer paso que se aplica a los archivos que deben procesarse a través del marco Document Understanding^TM .

El paso de digitalización tiene dos salidas:

el texto del archivo procesado, almacenado en una variable de string, y
el modelo de objeto de documento de ese archivo: objeto JSON que contiene información básica como el nombre, el tipo de contenido, la longitud del texto, el número de páginas, así como información detallada como la rotación de la página, el idioma detectado, el contenido y las coordenadas de cada palabra identificada en el archivo.

En el marco de procesamiento de documentos, la digitalización se realiza utilizando la actividad Digitalizar documento .

Qué no es digitalización

Aunque esté relacionado, el paso de digitalización no es OCR.

En muchos casos, los archivos que hay que procesar son archivos PDF nativos (no escaneados), que el robot puede leer de forma programada sin aplicar el OCR.

Cuándo se usa el OCR en la digitalización

La actividad Digitalizar documento requiere, como parte de su configuración, la selección de un motor de OCR para que, en caso de necesidad, se pueda utilizar; pero solo ejecuta el OCR en:

archivos que sean imágenes
- los formatos de imágenes admitidos son .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
- en los archivos TIFF de varias páginas, el OCR se aplica a cada página
páginas en PDF que
- no exponen ningún contenido legible por máquina
- contienen imágenes que cubren un área significativa de la página.

Nota:

Se aplican las siguientes limitaciones de digitalización:

Hay un límite de tamaño de archivo de 160 MB.
Hay un límite máximo de 500 páginas por documento.

El OCR también se aplica, siempre, si la actividad Digitalizar documento está configurada con el indicador ForzarAplicaciónOCR establecido como Verdadero. Esta opción generalmente se recomienda para los casos de uso en los que un porcentaje significativo de archivos parece contener contenido nativo, pero el contenido leído de forma nativa no se corresponde con lo que un usuario puede observar en esos archivos.

Cómo elegir el motor de OCR

Como cada caso de uso tiene sus propias particularidades, se recomienda encarecidamente probar todos los motores OCR disponibles con diferentes configuraciones, para determinar cuál funciona mejor para tu proyecto. Otra recomendación es prestar especial atención a los argumentos del motor OCR, como Perfil, Escala, Idioma , etc. (pueden variar de un motor a otro), de modo que identifiques la mejor configuración para cada caso de uso.

En esta página

Qué es digitalización
Qué no es digitalización
Cuándo se usa el OCR en la digitalización
Cómo elegir el motor de OCR

¿Te ha resultado útil esta página?

AnteriorDigitalización

Sig.Actividades relacionadas con la digitalización

Qué es digitalización​

Qué no es digitalización​

Cuándo se usa el OCR en la digitalización​

Cómo elegir el motor de OCR​

¿Te ha resultado útil esta página?

Qué es digitalización

Qué no es digitalización

Cuándo se usa el OCR en la digitalización

Cómo elegir el motor de OCR