- Primeros pasos
- Componentes de marco
- Document Understanding en AI Center
- Procesos
- Paquetes ML
- Gestor de datos
- Servicios de OCR
- Licencia
- Referencias
Extractor de forma
El Extractor de formularios es un método de extracción que se adapta mejor a los casos de uso en los que hay que procesar documentos de formato no variable y extraer datos de ellos. Dicho de otro modo, si tus documentos tienen poca o ninguna variación en su diseño, el Extractor de formularios es una buena opción.
El Extractor de formularios se basa en plantillas definidas de antemano, en la etapa de diseño, y aplica un conjunto complejo de reglas para aplicar las plantillas configuradas a los documentos entrantes que se procesarán, identificando y reportando la información prevista.
La actividad incluye un asistente de configuración que te ayuda a definir las plantillas de los tipos de documentos y los campos a los que deseas destinar la extracción de datos de esta manera.
La actividad admite tanto la extracción de campos simples como la de campos de tabla.
Se recomienda buscar otros métodos de extracción si:
- hay que manejar muchos diseños;
- los documentos no solo están torcidos, girados o llegan en distintos tamaños, sino que también muestran "deformaciones" (están combados en ciertas zonas).
Nota:
En el caso de extracción de formularios fijos, para evaluar si los diseños de dos archivos son los mismos, prueba a superponerlos en una herramienta, con cierta transparencia, para ver si todo el contenido no variable se superpone (después de desrotar, desestructurar y poner las dos imágenes a la misma escala).
Si observas variabilidad (el contenido no variable aparece más a la izquierda/derecha/arriba/abajo en determinadas zonas del documento), entonces los diseños no se consideran iguales.
El Extractor de formularios permite definir varias plantillas para el mismo tipo de documento y en tiempo de ejecución:
- identifica la mejor plantilla para el documento entrante y el tipo de documento;
- aplica la plantilla que coincide con el algoritmo, basado en los anclajes de la página, para cada página de la que hay que extraer datos (no se admiten páginas no encontradas o repetidas)
- notifica la información identificada de las áreas de valores de destino.
También admite el ajuste del procesamiento de casillas de verificación/campos booleanos, permitiendo la configuración de "sinónimos" para valores "Sí" o "No", según tu caso de uso.
Este extractor no tiene capacidad de aprendizaje (entrenamiento) y requiere una configuración de antemano.
Para utilizar este extractor, debes utilizar tu clave API de Automation Cloud Document Understanding o alojar tu propia instancia del Extractor de formularios en AI Center local.
El Extractor de formularios tiene dos configuraciones principales a tener en cuenta:
- El asistente del Gestor de plantillas, que permite definir las plantillas que se aplicarán a los documentos entrantes. Este asistente también pone a tu disposición el asistente del Editor de plantillas, junto con los ajustes de interpretación de campos booleanos.
- la configuración PorcentajeMínimoDeSuperposición, que te permite controlar lo estricta que debe ser la correspondencia del área de valor. Acepta un valor entre 0 y 100, y controla qué palabras se aceptan o rechazan para formar parte de un valor determinado, en función de lo bien que se ajuste su ubicación al área definida en la plantilla.
Este asistente permite crear, editar, gestionar y exportar/importar plantillas para los tipos de documentos definidos en la taxonomía.
Crear una plantilla
- Añade una actividad de Extractor de formularios a tu flujo de trabajo, dentro de un Ámbito de extracción de datos.
- Configura el extractor haciendo clic en el botón Gestionar plantillas.
- Se abre la ventana Gestor de plantillas.
- Se abre la ventana Gestor de plantillas.
- Haz clic en el botón Crear plantilla para crear una nueva plantilla.
- Selecciona el tipo de documento para el que quieres definir la plantilla en la lista desplegable Tipo de documento.
Nota: todos los Tipos de documento se basan en la Taxonomía. Asegúrate de añadir o crear una Taxonomía dentro de la carpeta del proyecto.
- Añade el nombre de la plantilla en el campo Nombre de plantilla. Asegúrate de que sea un nombre relevante que represente la versión del documento, o el diseño, que estás capturando y configurando a través de él.
- Añade la ruta del documento en el campo Documento de plantilla.
- Ve a la ruta del archivo utilizando el botón Examinar.
- Selecciona un OCR de la lista desplegable Motor OCR, y configúralo en función de sus necesidades.
- Haz clic en el botón Configurar para activar la edición de plantillas.
El motor OCR se aplica solo si es necesario. Si el documento seleccionado para crear una plantilla es un PDF nativo, entonces no se ejecuta ningún motor OCR.
Cada motor OCR incorpora su propio conjunto de opciones de personalización. Aquí encontrarás más información sobre todas las opciones disponibles para cada motor OCR.
Si ya has creado una plantilla, esta puede editarse, exportarse o eliminarse.
Los botones Eliminar y Exportar solo están disponibles cuando se selecciona al menos una plantilla. Las opciones Editar y Eliminar para una plantilla individual están siempre disponibles.
Configurar el procesamiento de campos booleanos
Yes
o No
.
Exportar e importar plantillas
Puedes importar plantillas creadas y exportadas de otros flujos de trabajo. Utiliza estas funciones para compartir plantillas entre proyectos, de modo que una vez configurado un tipo de documento mediante el Extractor de formularios, no tengas que volver a configurar las plantillas en una nueva implementación.
Procedimiento de exportación
Estos son los pasos que debes seguir para exportar una plantilla:
- Crea una o varias plantillas siguiendo los pasos explicados al principio de esta página.
- Selecciona las plantillas que quieres exportar.
- Selecciona una opción Exportar (con o sin los archivos originales) como se muestra en la siguiente captura de pantalla. La exportación con archivos originales los adjunta a la exportación.La segunda opción no adjunta los archivos utilizados para la creación de plantillas.
- Guarda el archivo de la plantilla con el nombre deseado.
- Una vez guardada la plantilla, aparece un mensaje. Selecciona el botón Aceptar.
Nota:Si no puedes compartir el contenido de los documentos en los que has creado tus plantillas, utiliza la opción "Sin archivos originales". Seguirás pudiendo compartir e importar el archivo de plantillas en otros proyectos, pero ya no podrás ni editarlos ni verlos.
Si deseas poder editar las plantillas una vez importadas en un proyecto diferente, asegúrate de usar la opción "Con archivos originales" al exportarlas y luego importarlas.
Procedimiento de importación
Estos son los pasos que debes seguir para importar una plantilla:
- Selecciona el botón Importar.
- Selecciona un archivo. Aparece el asistente de importación y muestra todos los tipos de documentos y todas las plantillas disponibles en el archivo de exportación seleccionado. Selecciona las plantillas que deseas importar y elige la opción Importar adecuada (con o sin los archivos originales).
Nota:- Cuando se importan plantillas, los tipos de documento se crean automáticamente en la taxonomía del proyecto. Si un ya existe un tipo de documento con el mismo nombre, se creará otro añadiendo un número al nombre del tipo de documento.
- Si estás importando plantillas que han sido exportadas sin los archivos originales, o si eliges importar plantillas sin los archivos originales, entonces no dispondrás de opciones de visualización o edición para esas plantillas.
Situaciones especiales al importar una plantilla
Cuando se importa una plantilla, pueden ocurrir varias situaciones especiales. En la tabla siguiente se explica cada situación y sus particularidades:
Tipo de importación |
Comportamiento de la actividad |
---|---|
Tipo del nuevo documento |
Si se importa un nuevo tipo de documento, se añade un nuevo campo en el configurador del asistente, que informará de que se va a crear una nueva plantilla. |
Tipo de documento duplicado |
Si se importa un tipo de documento idéntico, aparece el siguiente mensaje de advertencia:
|
Plantilla ampliada |
Si se importa una plantilla de tipo de documento que incluye campos adicionales a la ya existente, aparece el siguiente mensaje de advertencia:
|
Tipo de documento ampliado |
Si el usuario importa un tipo de documento que incluye campos adicionales al ya existente, aparece el siguiente mensaje de advertencia:
|
Tipo de documento con nombre idéntico pero distinto contenido |
Si el usuario importa un tipo de documento que tiene el mismo nombre que el existente pero campos diferentes, aparece el siguiente mensaje de advertencia:
|
Tipo de documento sin tabla |
Si el usuario importa un tipo de documento que no incluye una tabla, aparece el siguiente mensaje de advertencia:
|
Tipo de documento con tabla extendida |
Si el usuario importa un tipo de documento que incluye una tabla con columnas adicionales, aparece el siguiente mensaje de advertencia:
|
Tipo de documento con tabla reducida |
Si el usuario importa un tipo de documento que incluye una tabla a la que faltan columnas, aparece el siguiente mensaje de advertencia:
|
Plantilla de tabla con diferentes tipos de documento |
Si el usuario importa una plantilla de tipo de documento que incluye una tabla con diferentes tipos de documento, se creará una nueva plantilla. Si tu taxonomía incluye una tabla que tiene un campo con un tipo de documento diferente, aparece el siguiente mensaje:
|
Consideraciones generales
El Editor de plantillas está creado basándose en la funcionalidad presente en la Estación de validación.
Para saber más sobre el uso básico de la Estación de validación, lee esto.
Configurar anclajes en el nivel de página
Cuando se define o edita una plantilla, lo primero que se debe realizar es la selección de la Información coincidente de la página 1, para la definición de plantillas de formularios fijos.
Este campo, que aparece a la izquierda de la pantalla como primer campo, debe ser configurado con palabras (solo se aceptan tokens) de la primera página de la plantilla, que estén siempre en la misma posición dentro del diseño específico de esa plantilla, y que formen un gráfico de palabras exclusivo (que tenga en cuenta las distancias relativas y los ángulos entre palabras) en todas las plantillas definidas para un tipo de documento concreto. En otras palabras, la información coincidente de la Página 1 (y el resto de campos de información coincidente de la página) son "huellas digitales" de una página en particular y se utilizan ampliamente para identificar la plantilla que coincida correcta en el tiempo de ejecución.
Por este motivo, en el campo Información coincidente de la página 1, se recomienda especialmente seleccionar entre 10 y 20 palabras, preferiblemente más largas, repartidas por toda el área de la página, que formarían un patrón único en todas las plantillas definidas para ese tipo de documento.
Los otros campos de Información coincidente de la página (uno por cada página de la plantilla) deben rellenarse solo si estás intentando extraer datos de esa página en particular, y ya no requieren de singularidad entre plantillas. Si no es necesario extraer ningún campo de una página concreta, no es obligatorio definir la información de coincidencia de esa página.
Configurar campos simples
En el caso de los campos que no sean Tablas, la configuración de la plantilla consiste en seleccionar un Área personalizada y asignarla a un campo concreto.
En las configuraciones de formulario fijo, los campos de datos solo pueden configurarse mediante selecciones de Área personalizada.
En cualquier campo, se puede definir una o varias de estas Áreas personalizadas, utilizando el botón (+).Si defines dos o más áreas personalizadas en un solo campo, en tiempo de ejecución, si el campo está definido en la Taxonomía como Valor Único, todos los valores de todas las áreas personalizadas se concatenarán en un único valor notificado. Si, por el contrario, el campo está definido como Multivalor, los valores de cada área personalizada se notificarán individualmente.
La siguiente animación muestra la diferencia entre una selección de Tokens o de Área personalizada:
También se puede averiguar el tipo de selección aceptada para cada campo verificando el icono que aparece junto a cada campo, como se muestra en la siguiente animación:
Si se selecciona un área vacía, la selección se establece automáticamente como Área personalizada. Si se detecta texto dentro del área seleccionada, se te solicitará que elijas el tipo de selección entre Tokens o Área personalizada.
Utiliza la función "modo de selección" de la Estación de validación para bloquear tu selección entre Tokens y Áreas personalizadas.
Configurar tablas
Como ya se ha mencionado, hay campos en los que solo puede añadirse información mediante tokens (como los campos Información de coincidencia de páginas) o solo utilizando un área personalizada (como campos simples). Para los campos de Tabla, puedes
- define cada celda una a una, una vez expandido el Editor de tablas, añadiendo la selección de Área personalizada a cada celda de forma individual, o
- utiliza la funcionalidad de marcado de tablas que marca el área de la tabla, dibuja separadores de filas y columnas, y luego, asigna la tabla así marcada al campo.
En la animación siguiente se explica cómo utilizar la función de marcado de tablas: