Guía del usuario de Document Understanding

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última actualización 18 de dic. de 2024

Facturas reordenadas con un campo adicional

Importante:

El objetivo de esta página es ayudar a los usuarios primerizos a familiarizarse con Document Understanding^TM.

For scalable production deployments, we strongly recommend using the Document Understanding Process available in UiPath® Studio under the Templates section.

Esta guía rápida te muestra cómo reentrenar el modelo listo para usar ML de Facturas para extraer un campo más.

Vamos a utilizar el mismo flujo de trabajo que usamos para los recibos en el anterior inicio rápido y vamos a modificarlo para que admita facturas.

Para ello, debemos realizar los siguientes pasos en nuestro flujo de trabajo:

Modificar taxonomía
Añadir un clasificador
Añadir un extractor con aprendizaje automático
Etiquetar datos
Reentrenar el modelo ML de facturas

Ahora, veamos cada paso con detalle.

1. Modificar taxonomía

En este paso, debemos modificar la taxonomía para añadir el tipo de documento de factura.

Para ello, abre el gestor de taxonomía y crea un grupo llamado Documentos semiestructurados, una categoría llamada Finanzas y un tipo de documento llamado Facturas. Crea los campos antes mencionados utilizando nombres fáciles de usar junto con sus respectivos tipos de datos.

nombre: Text
dirección del proveedor: Address
billing-name - Text
billing-address - Address
shipping-address - Address
invoice-no - Text
po-no - Text
vendor-vat-no - Text
fecha: Date
tax - Number
total: Number
payment-terms - Text
net-amount - Number
due-date - Date
discount - Number
shipping-charges - Number
payment-addr - Address
descripción: Text
elementos: Table
- descripción: Text
- cantidad: Number
- precio unitario: Number
- importe de línea: Number
- item-po-no - Text
- line-no - Text
- part-no - Text
- billing-vat-no - Text

2. Añadir un clasificador

En este paso, tenemos que añadir un clasificador para poder procesar tanto los recibos como las facturas con nuestro flujo de trabajo.

Dado que nuestro flujo de trabajo ahora admite dos tipos de documentos, Recibos y Facturas, hemos de añadir el clasificador para diferenciar entre los diferentes tipos de documento que nos llega como entrada:

Añade un ámbito de clasificación de documentos después de la actividad Digitalizar documentos y proporciona la ruta del documento, el texto del documento, el modelo del objeto del documento y la taxonomía como argumentos de entrada, y captura los resultados de la clasificación en una nueva variable. Necesitamos esta variable para comprobar qué documento(s) estamos procesando.
También tenemos que especificar uno o más clasificadores. En este ejemplo, utilizamos el Clasificador inteligente de palabra clave. Añádelo a la actividad Clasificar ámbito de documento.
Esta página te ayuda a tomar una decisión informada sobre el método de clasificación que debes utilizar en los distintos escenarios.
Entrena el clasificador tal y como se describe aquí.
Configura el clasificador habilitándolo para ambos tipos de documentos.
Dependiendo del caso de uso, es posible que desees validar la clasificación. Puedes hacerlo mediante las actividades Mostrar estación de clasificación o Crear acción de clasificación de documentos y Esperar la acción de clasificación de documentos y reanudar.

3. Añadir un extractor con aprendizaje automático

En este paso, debemos añadir un extractor con aprendizaje automático a la actividad ámbito de la extracción de datos y conectarlo al punto de conexión público Facturas.

El procedimiento es exactamente el mismo que para el anterior extractor con aprendizaje automático de recibos que hemos añadido antes:

Añade una actividad Extractor con aprendizaje automático a la vez que Extractor de recibos con aprendizaje automático.
Proporciona el punto final público de Facturas, es decir https://du.uipath.com/ie/invoices, y una clave API al extractor.
Configura el extractor para que opere con facturas asignando los campos creados en el Gestor de taxonomía a los campos disponibles en el modelo ML:
No olvides utilizar la variable de resultados de la clasificación generada por Clasificar ámbito de documento como entrada al ámbito de extracción de datos, en lugar de especificar un ID de tipo de documento.
Deberías terminar con algo como lo siguiente:
Ejecuta el flujo de trabajo para comprobar que funciona correctamente con las facturas.

4. Etiquetar datos

Necesitamos etiquetar los datos antes de reentrenar el modelo ML para Facturas que soporte el nuevo campo IBAN.

Recopila los requisitos y los documentos de facturas de muestra en un volumen suficiente para la complejidad del caso de uso que debes resolver. Etiqueta 50 páginas, tal y como se explica en esta página de documentación.
Obtén acceso a una instancia del Administrador de documentos, ya sea localmente o en AI Center en la nube. Asegúrate de que dispones de los permisos necesarios para utilizar el Administrador de documentos.
Crea un proyecto de AI Center y ve a Etiquetado de datos > UiPath Document Understanding y crea una sesión de Etiquetado de datos.
Configura un motor OCR como se describe aquí, intenta importar un conjunto diverso de tus documentos de producción y asegúrate de que el motor OCR lee el texto que necesitas extraer.
Puedes ver más sugerencias en esta sección. Ve al siguiente paso solo cuando hayas elegido un motor OCR.
Crea una nueva sesión de Document Manager e importa un conjunto de entrenamiento y un conjunto de evaluación, asegurándote de marcar la casilla Convertirlo en un conjunto de prueba al importar el conjunto de evaluación. Más detalles sobre importaciones aquí.
Crea y configura el campo IBAN tal y como se describe aquí. Accede a las directrices más avanzadas disponibles en esta sección.
Etiqueta un conjunto de datos de entrenamiento y un conjunto de datos de evaluación tal y como se describe aquí. La función de preetiquetado del Document Manager descrita aquí puede facilitar mucho la tarea de etiquetado.
Exporta primero el Conjunto de evaluación y luego el Conjunto de entrenamiento a AI Center seleccionándolos en el filtro desplegable de la parte superior de la vista del Document Manager. Más detalles sobre importaciones aquí.

A continuación, vamos a crear nuestro modelo, reentrenarlo e implementarlo.

5. Reentrenar el modelo ML de facturas

Ahora que nuestro flujo de trabajo admite el procesamiento de facturas, necesitamos extraer el IBAN de nuestras facturas, ya que es un campo que no se obtiene de manera predeterminada por el modelo ML Facturas listo para usar. Eso significa que tenemos que volver a entrenar un nuevo modelo, partiendo del de base.

Crea un Paquete ML tal y como se describe aquí. Si tu tipo de documento es diferente de los disponibles para usar, elige el paquete ML DocumentUnderstanding. En caso contrario, utiliza el paquete más cercano al tipo de documento que necesitas extraer.
Crea un proceso de entrenamiento tal y como se describe aquí, utilizando el conjunto de datos de entrada que exportaste en la sección anterior desde Document Manager.
Cuando el entrenamiento haya terminado y tengas la versión secundaria del paquete 1, ejecuta un Proceso de evaluación en esta versión secundaria e inspecciona la comparación en paralelo de evaluation.xlsx. Utiliza las directrices detalladas aquí.
Si los resultados de la evaluación son correctos, ve a la vista Habilidades ML y crea una utilizando la nueva versión secundaria del paquete ML. Si quieres usarlo para hacer el preetiquetado en el Administrador de Documentos, debes hacer clic en el botón Modificar implementación actual en la parte superior derecha de la vista Habilidad ML y activar Hacer pública la habilidad ML.
Tras crear la habilidad ML, tenemos que consumirla en Studio. La forma más sencilla de hacerlo es hacer pública la habilidad ML, tal y como se describe aquí. Entonces, lo único que queda por hacer es simplemente reemplazar el punto de conexión público del modelo ML Facturas que hemos añadido inicialmente al extractor con aprendizaje automático en nuestro flujo de trabajo con el punto de conexión público de la habilidad ML.
Si ejecutas el flujo de trabajo, deberías ver que el campo IBAN recién añadido se extrae junto con los campos de las facturas predeterminados.

Descargar ejemplo

Descarga el proyecto de muestra utilizando este enlace. Necesitas cambiar el extractor con aprendizaje automático para Facturas del modo punto de conexión a tu habilidad ML entrenada.

En esta página