- Primeros pasos
- Componentes de marco
- Document Understanding en AI Center
- Procesos
- Paquetes ML
- Gestor de datos
- Servicios de OCR
- Licencia
- Referencias
Guía del usuario de Document Understanding
Resumen de la extracción de datos
Extracción de datos es un componente del marco Document Understanding que ayuda a identificar información muy específica de interés, a partir de los tipos de documentos.
La información a la que se puede dirigir la extracción de datos se define en la Taxonomía del proyecto como la lista de campos de un tipo de documento específico definido en ella. Un campo que no aparece en la taxonomía del proyecto no puede configurarse para la extracción automática de datos.
El paso de extracción de datos del marco Document Understanding garantiza que los extractores configurados se ejecuten en el orden correcto, para la lista correcta de campos y en el rango de páginas correcto del archivo que se está procesando. Esto significa que si en el mismo archivo hay dos o más tipos de documentos identificados (para diferentes rangos de páginas), se recomienda que el paso de extracción de datos se ejecute varias veces, una para cada resultado de la clasificación. Ejecutar la extracción de datos para un resultado de clasificación con un determinado rango de páginas garantizará que los datos se extraigan únicamente de esas páginas y solo para ese tipo de documento.
La extracción de datos se realiza a través de la actividad Ámbito de extracción de datos. Para extraer datos de los documentos, puedes utilizar uno o varios extractores, ya que la actividad de ámbito tiene la función de configurar y ejecutar uno o varios algoritmos para la extracción de datos y ofrecer una opción de configuración fácil y unitaria para todas tus necesidades.
En resumen, el Ámbito de extracción de datos:
- Proporciona todos los extractores (algoritmos de extracción) con las configuraciones y entradas necesarias para que puedan ejecutarse.
- Acepta uno o varios extractores.
- Permite la activación de campos, la asignación de la taxonomía y la fijación del umbral mínimo de confianza en el extractor.
- Informa de los datos extraídos de forma unificada, independientemente del extractor que haya notificado esos datos concretos.
El Ámbito de extracción de datos permite configurarlo mediante el asistente para Configurar extractores. Es posible personalizar:
- qué campos se solicitan a cada extractor,
- cuál es el umbral de confianza mínimo para un extractor de puntos de datos dado por cada clasificador,
- cuál es la asignación de taxonomía, con respecto a los campos, entre la taxonomía del proyecto y la taxonomía interna del extractor (si la hay).
Se pueden mezclar y combinar extractores, en un esquema híbrido, en el que es posible solicitar que algunos campos los extraiga un determinado extractor, mientras que otros campos se extraigan con un extractor distinto.
Incluso pueden implementarse reglas "de último recurso" para la extracción de datos: si un determinado extractor no informa de un valor aceptable para un campo determinado, entonces se llama a un extractor de reserva.
Es conveniente señalar que el orden de los extractores es importante en el ámbito de extracción de datos:
- los extractores se ejecutan con prioridad, de izquierda a derecha;
- un valor extraído para un campo solo se acepta si su confianza es igual o superior al umbral mínimo de confianza fijado para ese extractor;
- un extractor se ejecuta solo para el rango de páginas de clasificación proporcionado, y solo para los campos que se le solicitan conforme a la configuración del Ámbito de extracción de datos y los campos que no han obtenido un resultado aceptable de extractores anteriores.
Importante:
No todos los extractores se ejecutan continuamente
Si el Ámbito de extracción de datos no solicita ningún campo de un determinado extractor, este no se ejecuta. Este puede ser el caso de un extractor no configurado para un determinado tipo de documento entrante, o el de un extractor que se utiliza como "último recurso" y los extractores anteriores ya han informado de todos los datos previstos.
Según los requisitos del caso de uso, puedes elegir entre varios algoritmos de extracción de datos denominados extractores.
Puedes utilizar cualquier extractor disponible en el paquete UiPath.IntelligentOCR.Activities, en otros paquetes de UiPath (UiPath.DocumentUnderstanding.ML.Activities) o de terceros (UiPath.Abbyy.Activities).
Los extractores disponibles son:
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Extractor con aprendizaje automático
- Extractor CapturaFlexible
Siempre puedes crear su propio extractor, utilizando los contratos públicos de Document Processing, pudiendo así implementar cualquier algoritmo que se ajuste a tu caso de uso.