- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Extraer datos de recibos
- Facturas reordenadas con un campo adicional
- Extraer datos de formularios
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador de CapturaFlexible
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 4506T: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Pasaportes: paquete ML
- Nóminas - - Paquete ML
- Órdenes de compra: paquete ML
- Recibos - paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Requisitos de hardware
- Procesos
- Administrador de documentos
- Servicios de OCR
- Aprendizaje profundo
- Document Understanding implementado en Automation Suite
- Instalar y utilizar
- Primera experiencia de ejecución
- Implementar UiPathDocumentOCR
- Implementar un paquete ML listo para usar
- Paquetes sin conexión 2023.10.12+patch1
- Paquetes sin conexión 2023.10.12
- Paquetes sin conexión 2023.10.11
- Paquetes sin conexión 2023.10.10
- Paquetes sin conexión 2023.10.9
- Paquetes sin conexión 2023.10.8
- Paquetes sin conexión 2023.10.7+patch1
- Paquetes sin conexión 2023.10.7
- Paquetes sin conexión 2023.10.6
- Paquetes sin conexión 2023.10.5
- Paquetes sin conexión 2023.10.4
- Paquetes sin conexión 2023.10.3
- Paquetes sin conexión 2023.10.2
- Paquetes sin conexión 2023.10.1
- Paquetes sin conexión 2023.10.0
- Utiliza Document Manager
- Utilizar el marco
- Document Understanding implementado en AI Center independiente
- Licencia
- Actividades
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guía del usuario de Document Understanding
El objetivo de esta página es ayudar a los usuarios primerizos a familiarizarse con Document UnderstandingTM.
Para implementaciones de producción escalables, recomendamos encarecidamente utilizar el Proceso de Document Understanding disponible en UiPath® Studio en la sección Plantillas.
Esta guía rápida te muestra cómo reentrenar el modelo listo para usar ML de Facturas para extraer un campo más.
Utilicemos el mismo flujo de trabajo que usamos para los recibos en la anterior guía rápida y modifiquémoslo para que sea compatible con las facturas.
Para ello, debemos realizar los siguientes pasos en nuestro flujo de trabajo:
- Modificar taxonomía
- Añadir un clasificador
- Añadir un extractor con aprendizaje automático
- Etiquetar datos
- Reentrenar el modelo ML de facturas
1. Modificar taxonomía
En este paso, debemos modificar la taxonomía para añadir el tipo de documento de factura.
Para ello, abre el Gestor de taxonomía y crea un grupo llamado Documentos semiestructurados, una categoría llamada Finanzas y un tipo de documento llamado Facturas. Crea los campos enumerados con nombres fáciles de usar junto con los tipos de datos respectivos.
- nombre:
Text - dirección del proveedor:
Address - billing-name -
Text - billing-address -
Address - shipping-address -
Address - invoice-no -
Text - po-no -
Text - vendor-vat-no -
Text - fecha:
Date - tax -
Number - total:
Number - payment-terms -
Text - net-amount -
Number - due-date -
Date - discount -
Number - shipping-charges -
Number - payment-addr -
Address - descripción:
Text - elementos:
Table- descripción:
Text - cantidad:
Number - precio unitario:
Number - importe de línea:
Number - item-po-no -
Text - line-no -
Text - part-no -
Text - billing-vat-no -
Text
- descripción:
2. Añadir un clasificador
En este paso, tenemos que añadir un clasificador para poder procesar tanto los recibos como las facturas con nuestro flujo de trabajo.
Dado que nuestro flujo de trabajo ahora admite dos tipos de documentos, Recibos y Facturas, hemos de añadir el clasificador para diferenciar entre los diferentes tipos de documento que nos llega como entrada:
- Añade un ámbito de clasificación de documento después de la actividad Digitalizar documento y proporciona DocumentPath, DocumentText, DocumentObjectModel y Taxonomy como argumentos de entrada y captura los ClassificationResults en una nueva variable. Necesitamos esta variable para comprobar qué documento(s) estamos procesando.
- También necesitamos especificar uno o más clasificadores. En este ejemplo, utilizamos el Clasificador inteligente de palabras clave. Añádelo a la actividad Clasificar ámbito de documento . Esta página te ayuda a tomar una decisión informada sobre qué método de clasificación debes utilizar en diferentes escenarios.
- Entrena el clasificador como se describe aquí.
- Configura el clasificador habilitándolo para ambos tipos de documentos.
- Dependiendo de tu caso de uso, es posible que desees validar la clasificación. Puedes hacerlo utilizando las actividades Presentar estación de clasificación o Crear acción de clasificación de documentos y Esperar la acción de clasificación de documentos y reanudar .
3. Añadir un extractor con aprendizaje automático
En este paso, debemos añadir un Extractor de aprendizaje automático a la actividad Ámbito de extracción de datos y conectarlo al punto final público Facturas .
El procedimiento es exactamente el mismo que para el anterior extractor con aprendizaje automático de recibos que hemos añadido antes:
-
Añade una actividad Extractor con aprendizaje automático a la vez que Extractor de recibos con aprendizaje automático.
-
Proporciona el punto final público de Facturas , es decir,
https://du.uipath.com/ie/invoices, y una clave API para el extractor. -
Configura el extractor para que opere con facturas asignando los campos creados en el Gestor de taxonomía a los campos disponibles en el modelo ML:

-
No olvides utilizar la variable de resultados de la clasificación generada por Clasificar ámbito de documento como entrada al ámbito de extracción de datos, en lugar de especificar un ID de tipo de documento. Deberías terminar con algo como lo siguiente:

-
Ejecuta el flujo de trabajo para comprobar que funciona correctamente con las facturas.
4. Etiquetar datos
Necesitamos etiquetar los datos antes de reentrenar el modelo ML para Facturas que soporte el nuevo campo IBAN.
- Recopile los requisitos y los documentos de factura de muestra en un volumen suficiente para la complejidad del caso de uso que necesita resolver. Etiqueta 50 páginas, como se explica en esta página de documentación.
- Obtén acceso a una instancia del Administrador de documentos, ya sea localmente o en AI Center en la nube. Asegúrate de que cuentas con los permisos necesarios para utilizar Document Manager.
- Crea un proyecto de AI Center y ve a Etiquetado de datos > UiPath Document Understanding y crea una sesión de Etiquetado de datos.
- Configura un motor OCR como se describe aquí, intenta importar un conjunto diverso de tus documentos de producción y asegúrate de que el motor OCR lee el texto que necesitas extraer. Más sugerencias en esta sección. Continúa con el siguiente paso solo después de haber elegido un motor OCR.
- Crea una nueva sesión de Document Manager e importa un conjunto de entrenamiento y un conjunto de evaluación, asegurándote de marcar la casilla de verificación Hacer de este un conjunto de prueba al importar el conjunto de evaluación. Más detalles sobre las importaciones aquí.
- Crea y configura el campo IBAN como se describe aquí. En esta sección encontrarás directrices más avanzadas.
- Etiqueta un conjunto de datos de entrenamiento y un conjunto de datos de evaluación como se describe aquí. La característica de preetiquetado de Document Manager descrita aquí puede facilitar mucho el trabajo de etiquetado.
- Exporta primero el conjunto de evaluación y luego el conjunto de entrenamiento a AI Center seleccionándolos en el menú desplegable de filtros en la parte superior de la vista del Document Manager. Más detalles sobre las exportaciones aquí.
A continuación, vamos a crear nuestro modelo, reentrenarlo e implementarlo.
5. Reentrenar el modelo ML de facturas
Ahora que nuestro flujo de trabajo admite el procesamiento de facturas, necesitamos extraer el IBAN de nuestras facturas, ya que es un campo que no se obtiene de manera predeterminada por el modelo ML Facturas listo para usar. Eso significa que tenemos que volver a entrenar un nuevo modelo, partiendo del de base.
- Crea un paquete ML como se describe aquí. Si tu tipo de documento es diferente de los disponibles para usar, elige el paquete ML DocumentUnderstanding. En caso contrario, utiliza el paquete más cercano al tipo de documento que necesitas extraer.
- Crea un proceso de entrenamiento como se describe aquí utilizando el conjunto de datos de entrada que exportaste en la sección anterior desde el Administrador de documentos.
- Cuando finalice el entrenamiento y tengas la versión secundaria del paquete 1, ejecuta un proceso de evaluación en esta versión secundaria e inspecciona la comparación en paralelo de evaluation.xlsx. Utiliza las directrices detalladas aquí.
- Si los resultados de la evaluación son satisfactorios, ve a la vista de habilidades ML y crea una habilidad ML utilizando la nueva versión menor del paquete ML. Si quieres usarlo para hacer el preetiquetado en el Administrador de Documentos, debes seleccionar el botón Modificar implementación actual en la parte superior derecha de la vista Habilidad ML y activar Hacer pública la habilidad ML.
- Tras crear la habilidad ML, tenemos que consumirla en Studio. La forma más sencilla de hacerlo es hacer pública la habilidad ML como se describe aquí. Entonces, lo único que queda por hacer es simplemente reemplazar el punto de conexión público del modelo ML Facturas que hemos añadido inicialmente al extractor con aprendizaje automático en nuestro flujo de trabajo con el punto de conexión público de la habilidad ML.
- Si ejecutas el flujo de trabajo, deberías ver que el campo IBAN recién añadido se extrae junto con los campos de las facturas predeterminados.
Descargar ejemplo
Descarga este proyecto de ejemplo utilizando este enlace. Debes cambiar el Extractor de aprendizaje automático para facturas del modo Punto final a tu habilidad ML entrenada.