- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Pasaportes: paquete ML
- Nóminas - - Paquete ML
- Órdenes de compra: paquete ML
- Recibos - paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Requisitos de hardware
- Procesos
- Administrador de documentos
- Servicios de OCR
- Idiomas admitidos
- Aprendizaje profundo
- Paneles de insights
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Licencia
- Actividades
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding user guide
Resumen de la extracción de datos
¿Qué es la extracción de datos?
Data Extraction is a component in the Document UnderstandingTM Framework that helps in identifying very specific information that you are interested in, from your document types.
La información a la que se puede dirigir la extracción de datos se define en la Taxonomía del proyecto como la lista de campos de un tipo de documento específico definido en ella. Un campo que no aparece en la taxonomía del proyecto no puede configurarse para la extracción automática de datos.
El paso de extracción de datos del marco Document Understanding garantiza que los extractores configurados se ejecuten en el orden correcto, para la lista correcta de campos y en el rango de páginas correcto del archivo que se está procesando. Esto significa que si, en el mismo archivo, hay dos o más tipos de documentos identificados (para diferentes rangos de páginas), se recomienda que el paso de extracción de datos se ejecute varias veces, una para cada resultado de la clasificación. Ejecutar la extracción de datos para un resultado de clasificación con un determinado rango de páginas garantizará que los datos se extraigan únicamente de esas páginas y solo para ese tipo de documento.
Cómo utilizar el componente de extracción de datos
Data Extraction is done through the Data Extraction Scope activity. To extract data from documents, you can use one or more extractors, as the scope activity has the role of configuring and executing one or more algorithms for data extraction and of offering an easy, unitary configuration option for all your needs.
En resumen, el Ámbito de extracción de datos:
- Proporciona a todos los extractores (algoritmos de extracción) las configuraciones y entradas necesarias para su ejecución.
- Acepta uno o varios extractores.
- Permite la activación de campos, la asignación de la taxonomía y la fijación del umbral mínimo de confianza en el extractor.
- Informa de los datos extraídos de forma unificada, independientemente del extractor que haya notificado esos datos concretos.
El Ámbito de extracción de datos permite configurarlo mediante el asistente para Configurar extractores. Puedes personalizar:
- qué campos se solicitan a cada extractor,
- cuál es el umbral de confianza mínimo para un extractor de puntos de datos dado por cada clasificador,
- cuál es la asignación de taxonomía, con respecto a los campos, entre la taxonomía del proyecto y la taxonomía interna del extractor (si la hay).
You can mix and match extractors, in a hybrid approach, in which you can request a few fields be extracted by a certain Extractor, while other fields are extracted by a different extractor.
Incluso pueden implementarse reglas "de último recurso" para la extracción de datos: si un determinado extractor no informa de un valor aceptable para un campo determinado, entonces se llama a un extractor de reserva.
Es conveniente señalar que el orden de los extractores es importante en el ámbito de extracción de datos:
- los extractores se ejecutan con prioridad, de izquierda a derecha;
- un valor extraído para un campo solo se acepta si su confianza es igual o superior al umbral mínimo de confianza fijado para ese extractor;
- un extractor se ejecuta solo para el rango de páginas de clasificación proporcionado, y solo para los campos que se le solicitan conforme a la configuración del Ámbito de extracción de datos y los campos que no han obtenido un resultado aceptable de extractores anteriores.
Importante:
If the Data Extraction Scope does not request any field from a given extractor, then that extractor is not executed. This may be the case of an extractor not configured for a certain incoming document type, or the case of an extractor being used as "fall-back" and the previous extractors reported all expected data already.
Extractores disponibles
Según los requisitos del caso de uso, puedes elegir entre varios algoritmos de extracción de datos denominados extractores.
You can use any extractor that is available in the UiPath.IntelligentOCR.Activities or UiPath.DocumentUnderstanding.ML.Activities package.
Los extractores disponibles son:
- Extractor basado en regex
- Extractor de forma
- Extractor con aprendizaje automático
- Extractor generativo
Siempre puedes crear su propio extractor, utilizando los contratos públicos de Document Processing, pudiendo así implementar cualquier algoritmo que se ajuste a tu caso de uso.