- Primeros pasos
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Procesos
- Gestor de datos
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guía del usuario de Document Understanding
Extractor inteligente de formularios
El Extractor inteligente de formularios es una herramienta especializada en el procesamiento de documentos de diseño fijo para la extracción de datos, que se basa en el Extractor de formularios y añade capacidades adicionales, tales como:
- reconocimiento de la escritura manual y extracción de datos manuscritos,
- detección de firmas.
Las características adicionales del Extractor inteligente de formularios, en comparación con el Extractor de formularios, lo convierten en una herramienta muy adecuada para procesar todo tipo de formularios que:
- pueden estar impresos o escritos a mano,
- requerir comprobar si el formulario está firmado o no.
Estas dos características adicionales pueden configurarse desde el asistente del Gestor de plantillas de la actividad, además de las configuraciones ya presentes en el Extractor de formularios.
Este extractor no tiene capacidad de aprendizaje (entrenamiento) y requiere una configuración de antemano.
Más información relacionada con el Extractor inteligente de formularios:
- Página de la actividad Extractor inteligente de formularios
- Instrucciones de configuración del Gestor de taxonomía
- Instrucciones de configuración del asistente del Gestor de plantillas
- Ejemplo de flujo de trabajo Basado en anclajes
Para utilizar este extractor, debes utilizar tu clave API de Automation Cloud Document Understanding o alojar tu propia instancia del Extractor inteligente de formularios en AI Center local.
El Extractor inteligente de formularios tiene dos configuraciones principales a tener en cuenta:
- El asistente del Gestor de plantillas, que permite definir las plantillas que se aplicarán a los documentos entrantes. Este asistente también habilita el Editor de plantillas y la configuración de interpretación de campos booleanos.
- La configuración PorcentajeMínimoDeSuperposición te permite controlar lo estricto que debe ser el ajuste del área de valores. Acepta un valor entre
0
y100
, y controla qué palabras se aceptan o rechazan para formar parte de un valor determinado, en función de lo bien que se ajuste su ubicación al área definida en la plantilla.
Te permite crear, editar, gestionar y exportar/importar plantillas para los tipos de documento definidos en la taxonomía.
Crear una plantilla
- Añade una actividad Extractor de formularios inteligente a tu flujo de trabajo, dentro de un Ámbito de extracción de datos.
- Configura el extractor haciendo clic en el botón Gestionar plantillas.
- Se abre la ventana Gestor de plantillas.
- Se abre la ventana Gestor de plantillas.
- Haz clic en el botón Crear plantilla para crear una nueva plantilla.
- Selecciona el tipo de documento para tu plantilla en la lista desplegable Tipo de documento.
Nota: todos los Tipos de documento se basan en la Taxonomía. Asegúrate de añadir o crear una Taxonomía dentro de la carpeta del proyecto.
- Añade el nombre de la plantilla en el campo Nombre de plantilla. Elige un nombre relevante que refleje la versión o el diseño de tu documento.
- Añade la ruta del documento en el campo Plantilla de documento.
- Ve a la ruta del archivo utilizando el botón Examinar.
- Selecciona un motor OCR de la lista desplegable Motores OCR, y configúralo en función de sus necesidades.
- Haz clic en el botón Configurar para activar la edición de la plantilla.
El motor OCR se aplica solo si es necesario. Si el documento seleccionado para crear una plantilla es un PDF nativo, no se ejecuta ningún motor OCR, a menos que la opción Aplicar siempre OCR esté activada. Si está activada, el OCR se aplica incluso en un archivo PDF nativo.
Cada motor OCR incorpora su propio conjunto de opciones de personalización. Aquí encontrarás más información sobre todas las opciones disponibles para cada motor OCR.
Si ya has creado una plantilla, esta puede editarse, exportarse o eliminarse.
Los botones Eliminar y Exportar solo están disponibles cuando se selecciona al menos una plantilla. Las opciones Editar y Eliminar para una plantilla individual están siempre disponibles.
Configurar el procesamiento de campos booleanos
Para los documentos que incluyen casillas de verificación, puedes añadir sinónimos conocidos para las opciones Sí y No, o puedes partir de una lista recopilada por nosotros (consulta las sugerencias Añadir recomendados). Estos valores se utilizan para interpretar el contenido booleano, que consiste en asignar un valor capturado a un valor notificado Sí o No.
Exportar e importar plantillas
Puedes importar plantillas creadas y exportadas de otros flujos de trabajo. Utiliza estas características para compartir plantillas entre proyectos. Una vez configurado un tipo de documento con el Extractor inteligente de formularios no necesitas volver a configurar las plantillas en una nueva implementación.
Procedimiento de exportación
Estos son los pasos que debes seguir para exportar una plantilla:
- Crea una o varias plantillas siguiendo los pasos explicados al principio de esta página.
- Selecciona las plantillas que quieres exportar.
- Selecciona una opción Exportar (con o sin los archivos originales) como se muestra en la siguiente captura de pantalla. La exportación con archivos originales los adjunta a la exportación.
- Guarda el archivo de la plantilla con el nombre deseado.
- Una vez guardada la plantilla, aparece un mensaje. Selecciona el botón Aceptar.
Nota:
Si no puedes compartir el contenido de los documentos con los que has creado tus plantillas, utiliza la opción "Sin archivos originales". Podrás seguir compartiendo e importando el archivo de plantilla en otros proyectos, pero ya no podrás editarlas ni verlas.
Si quieres editar las plantillas una vez importadas en un proyecto diferente, asegúrate de utilizar la opción "Con archivos originales" al exportarlas y luego importarlas.
Procedimiento de importación
Estos son los pasos que debes seguir para importar una plantilla:
- Selecciona el botón Importar.
- Selecciona un archivo. Aparece el asistente de importación y muestra todos los tipos de documentos y todas las plantillas disponibles en el archivo de exportación seleccionado. Selecciona las plantillas que deseas importar y elige la opción Importar adecuada (con o sin los archivos originales).
Nota:
- Cuando se importan plantillas, los tipos de documento se crean automáticamente en la taxonomía del proyecto. Si un ya existe un tipo de documento con el mismo nombre, se creará otro añadiendo un número al nombre del tipo de documento.
- Si estás importando plantillas que han sido exportadas sin los archivos originales, o si eliges importar plantillas sin los archivos originales, entonces no dispondrás de opciones de visualización o edición para esas plantillas.
Situaciones especiales al importar una plantilla
Cuando se importa una plantilla, pueden ocurrir varias situaciones especiales. En la tabla siguiente se explica cada situación y sus particularidades:
Tipo de importación |
Comportamiento de la actividad |
---|---|
Tipo del nuevo documento |
Si se importa un nuevo tipo de documento, se añade un nuevo campo en el configurador del asistente, que informará de que se va a crear una nueva plantilla. |
Tipo de documento duplicado |
Si se importa un tipo de documento idéntico, aparece el siguiente mensaje de advertencia:
|
Plantilla ampliada |
Si se importa un modelo de tipo de documento que incluye campos adicionales a los ya existentes, aparecerá el siguiente mensaje de advertencia:
|
Tipo de documento ampliado |
Si el usuario importa un tipo de documento que incluye campos adicionales al ya existente, aparece el siguiente mensaje de advertencia:
|
Tipo de documento con nombre idéntico pero distinto contenido |
Si el usuario importa un tipo de documento que tiene el mismo nombre que el existente pero campos diferentes, aparece el siguiente mensaje de advertencia:
|
Tipo de documento sin tabla |
Si el usuario importa un tipo de documento que no incluye una tabla, aparece el siguiente mensaje de advertencia:
|
Tipo de documento con tabla extendida |
Si el usuario importa un tipo de documento que incluye una tabla con columnas adicionales, aparece el siguiente mensaje de advertencia:
|
Tipo de documento con tabla reducida |
Si el usuario importa un tipo de documento que incluye una tabla a la que faltan columnas, aparece el siguiente mensaje de advertencia:
|
Plantilla de tabla con diferentes tipos de documento |
Si el usuario importa una plantilla de tipo de documento que incluye una tabla con diferentes tipos de documento, se creará una nueva plantilla. Si tu taxonomía incluye una tabla que tiene un campo con un tipo de documento diferente, aparece el siguiente mensaje:
|
Consideraciones generales
El Editor de plantillas se basa en la funcionalidad presente en la Estación de validación. Accede a ella haciendo clic en el botón de una plantilla.
Para obtener información sobre el uso básico de la Estación de validación, lee esta sección.
Además de las opciones disponibles en la parte derecha de la pantalla de la Estación de validación, hay dos opciones específicas del Editor de plantillas:
Opción |
Descripción |
---|---|
|
Establece el modo de selección de anclaje |
|
Borra toda la selección de anclaje |
Al crear una nueva plantilla, aparece un texto explicativo cuando se abre por primera vez el Editor de plantillas. Si quieres volver a acceder al texto, sigue los pasos que se indican a continuación:
Configurar anclajes
Los anclajes se pueden definir una vez abierto el Editor de plantillas desde el Gestor de plantillas y se encuentran entre las opciones del Modo de selección.
Al definir o editar una plantilla de nivel de página, aunque es opcional, lo primero que hay que realizar es la selección de Información de concordancia de la página 1.Este paso es obligatorio únicamente para las plantillas de formularios fijos.
Situada en la parte izquierda de la pantalla, la selección de Información de concordancia de la página 1 requiere una entrada de texto (solamente se aceptan tokens) de la primera página de la plantilla que siempre está en la misma posición en el diseño de esa plantilla en particular y forma un gráfico único de palabras (teniendo en cuenta las distancias relativas y los ángulos entre las palabras) en todas las plantillas definidas para un tipo de documento concreto.
En otras palabras, la Información coincidente de la página 1 (y el resto de campos de información coincidente de la página) son "huellas" de una página en particular y se utilizan ampliamente para identificar la plantilla de concordancia correcta en el tiempo de ejecución.
Por este motivo, para el campo Información coincidente de la página 1, se recomienda encarecidamente seleccionar entre 10 y 20 palabras, preferiblemente de mayor longitud, repartidas por toda el área de la página.
Los otros campos de Información coincidente de la página (uno por cada página de la plantilla) deben rellenarse solo si estás intentando extraer datos de esa página en particular, y ya no requieren de singularidad entre plantillas. Si no es necesario extraer ningún campo de una página concreta, no es obligatorio definir la información de coincidencia de esa página.
Configurar campos simples
En el caso de los campos que no sean Tablas, la configuración de la plantilla consiste en seleccionar un Área personalizada y asignarla a un campo concreto.
Para configuraciones de formularios fijos, los campos de datos solo pueden configurarse con selecciones de Área personalizada.
Para un campo se pueden definir una o varias Áreas personalizadas, mediante el botón (+). Si se definen dos o más Áreas personalizadas para un único campo, en tiempo de ejecución, si el campo se define en la Taxonomía como Valor único, todos los valores se concatenan en un único valor notificado. Si el campo está definido como Varios valores, cada valor se notificará de manera individual.
La siguiente animación muestra la diferencia entre una selección de Tokens y una de Área personalizada:
El icono que aparece junto a cada campo indica el tipo de selección admitida:
Si se selecciona un área vacía, la selección se establece automáticamente como Área personalizada. Si se detecta texto dentro del área seleccionada, se te solicitará que elijas el tipo de selección entre Tokens o Área personalizada.
Utiliza la característica de modo de selección de la Estación de validación para bloquear tu selección entre Tokens y Áreas Personalizadas.
Configurar tablas
Como ya se ha mencionado, hay campos en los que solo puede añadirse información mediante Tokens (como los campos Información de coincidencia de páginas) o solo utilizando un Área personalizada (como campos simples). Para los campos de Tabla, puedes:
- define cada celda una a una, una vez expandido el Editor de tablas, añadiendo la selección de Área personalizada a cada celda de forma individual, o
- utiliza la funcionalidad de marcado de tablas que marca el área de la tabla, dibuja separadores de filas y columnas, y luego, asigna la tabla así marcada al campo. Asegúrate de que el área extraída tiene el mismo número de columnas y filas que el área de la plantilla.
En la animación siguiente se explica cómo utilizar la función de marcado de tablas:
Un método distintivo para definir los límites de un área personalizada de la que se extraerán datos es utilizar anclajes de campo. Estos permiten orientar la extracción de datos en función de las configuraciones a nivel de campo, lo que permite una mayor flexibilidad a la hora de definir las reglas de extracción de formularios.
Por consiguiente, en tiempo de ejecución el Extractor inteligente de formularios sabe cómo:
- identificar si coincide una plantilla de nivel de página, y extraer información acorde con la mejor correspondencia de plantilla de nivel de página que reconozca;
- identificar si coincide alguna configuración basada en anclajes, y extraer información según su aplicación en el documento que se va a procesar;
- calcular las puntuaciones de confianza adecuadas para todas las coincidencias posibles, a fin de poder notificar el mejor resultado (coincidencia de mayor probabilidad) de todas las opciones disponibles.
Crear una nueva configuración de anclaje
- Asegúrate de que estás en el modo de Selección de anclaje.
- Dibuja un cuadro alrededor del área de valor.
- Selecciona una etiqueta (anclaje principal) para tu área de valor haciendo clic en la primera palabra y después, Ctrl+Clic en la última palabra de la selección, o haz clic, arrastra y suelta para capturar un rango de palabras.
Nota: Una etiqueta únicamente puede contener palabras consecutivas de la misma línea visual.
- Selecciona los anclajes adicionales que identificarían de forma exclusiva tu etiqueta. Se aplica el mismo principio de selección.
- Asigna tu formación de anclaje al campo apropiado seleccionando Extraer valor para ese campo en concreto.
Nota: También puedes utilizar este ejemplo para aprender a crear una plantilla y definir áreas de extracción y anclajes.
Editar una configuración de anclaje existente
- Selecciona la configuración de anclaje.
- Realiza cambios en ella (borra cualquier anclaje, la etiqueta, incluso el área de valor si lo deseas, añade nuevos elementos, etc.).
- Utiliza la opción Cambiar valor extraído para actualizar la asociación de campos.
Nota:- Si eliminas el área de destino, se borrarán todos los anclajes y tendrás que empezar de nuevo.
- Si eliminas la Etiqueta (anclaje principal), el primer anclaje creado se convierte en la nueva Etiqueta.
Eliminar una configuración de anclaje existente
Para eliminar una configuración de anclaje, puedes:
- utilizar las opciones Marcar como ausente para un valor guardado;
- utilizar la opción Quitar valor en el caso de una lista de anclajes definida para un campo determinado.
Mezclar y combinar configuraciones
Puedes definir tantas plantillas como quieras para el mismo tipo de documento. Puedes tener múltiples plantillas a nivel de página, múltiples anclajes para el mismo campo, incluso plantillas que contengan tanto anclajes a nivel de página como a nivel de campo.
- A la hora de definir anclajes a nivel de campo, asegúrate de que tu etiqueta está próxima a tu área de valor y de que cuenta con anclajes adicionales si la misma construcción de texto puede encontrarse en varios lugares dentro del mismo documento.
- Cuanto más largas sean tus etiquetas y anclajes, mayor precisión obtendrás.
- El área de valor siempre se calcula en función de su posición relativa respecto a su etiqueta (anclaje principal).Así pues, elige tus anclajes principales en consecuencia.
- Disponer de anclajes a nivel de campo permite a los campos moverse dentro de la plantilla y seguir siendo captados, lo que ofrece mayor flexibilidad en los cambios de diseño del documento.