document-understanding

2020.10

false

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Obsoleto

Guía del usuario de Document Understanding

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última actualización 4 de feb. de 2025

Procesos de entrenamiento y evaluación

Los paquetes ML de Document Understanding pueden ejecutar los tres tipos de procesos (Proceso completo, Entrenamiento y Evaluación).

Para la mayoría de casos de uso, no se necesitan especificaciones de parámetros; el modelo utiliza técnicas avanzadas para encontrar un modelo eficiente.

Se puede obtener información sobre un proceso en dos sitios: en la vista Detalles, a la que se accede desde el menú contextual desplegable situado a la derecha de la tabla de procesos, o en la pestaña Registros ML de la barra lateral izquierda. La vista Detalles contiene un panel Salidas y una página Registros. El panel Salidas siempre contendrá un archivo _results.json con un resumen de los detalles del proceso, como la versión del paquete, el conjunto de datos, el uso de la GPU y el tiempo de ejecución.

Procesos de entrenamiento y reentrenamiento

Existen dos tipos de procesos de entrenamiento:

En un paquete ML de tipo Document Understanding
En un paquete ML de otro tipo, como Facturas, Recibos, Órdenes de compra, Facturas de servicios públicos, Facturas India o Facturas Australia.

El entrenamiento que utiliza un paquete de "Document Understanding" simplemente entrena un modelo desde cero en el conjunto de datos proporcionado como entrada.

En casos de uso con documentos de baja diversidad (formularios), se pueden obtener buenos resultados con tan solo entre 30 y 50 muestras.

En casos de uso con documentos diversos en los que solo se necesitan campos regulares ("encabezado"), se necesitan al menos entre 20 y 50 muestras por campo, de modo que, si hay que extraer 10 campos regulares, se necesitarían al menos entre 200 y 500 muestras.

Cuando necesites extraer campos de columna (por ejemplo, elementos de línea), necesitarás entre 50 y 200 muestras por campo de columna, por lo que, para campos de 5 columnas, con diseños claros y sencillos, podrías obtener buenos resultados con entre 300 y 400 muestras, pero para diseños muy complejos y diversos, podrías necesitar hasta 1000.

Si además tienes que cubrir varios idiomas, entonces necesitas al menos entre 200 y 300 muestras por idioma. Estas cifras no tienen por qué coincidir, salvo en el caso de los idiomas. Así, para 10 campos de encabezado y 5 campos de columna, 500 muestras pueden ser suficientes, si bien en algunos casos pueden ser necesarias más de 1000.

El entrenamiento utilizando uno de los paquetes descritos en el paso 2 requiere una entrada adicional: un modelo base. También lo denominamos reentrenamiento porque no se parte de cero, sino de un modelo base. Este método utiliza una técnica llamada aprendizaje por transferencia, en la que el modelo aprovecha la información codificada en otro modelo preexistente. Si se entrena únicamente con los mismos campos para optimizar la precisión, puede obtener buenos resultados con tan solo entre 100 y 500 documentos adicionales. Si estás añadiendo nuevos campos al modelo, necesitarás entre 30 y 50 documentos por cada campo nuevo para obtener buenos resultados. A la hora de elegir qué versión del modelo base utilizar, te recomendamos encarecidamente que utilices siempre la 1.0, la versión preentrenada que proporciona UiPath lista para usar.

Nota:

Los campos de clasificación no se reentrenan, así que debes asegurarte, cuando vuelvas a entrenar un modelo, de que el conjunto de datos que etiquetes tiene un mínimo de entre 10 y 20 muestras de cada clase que quieras que el modelo sea capaz de reconocer, independientemente del rendimiento del modelo preentrenado que estés utilizando como modelo base.

Ajuste preciso utilizando datos de la estación de validación (vista previa)

La versión de septiembre de 2020 de AI Fabric incluye la posibilidad de afinar los modelos ML utilizando datos que han sido validados por una persona mediante la Estación de validación.

A medida que tu flujo de trabajo RPA procesa los documentos usando un modelo ML existente, algunos documentos pueden requerir de validación humana mediante la actividad Estación de validación (disponible en los robots attended o en el navegador que usa el Action Center de Orchestrator).

Los datos validados generados en la Estación de validación pueden exportarse mediante la actividad Entrenador del extractor con aprendizaje automático, y pueden utilizarse para afinar los modelos ML en AI Fabric.

No recomendamos entrenar modelos ML desde cero (por ejemplo, utilizando el paquete ML DocumentUnderstanding) con datos de la Estación de validación, sino solo para afinar los modelos ML existentes (incluidos los modelos ML listos para usar) utilizando datos de la Estación de validación.

Para obtener información detallada sobre los pasos necesarios para ajustar un modelo ML, consulta la sección Importación de conjuntos de datos de la estación de validación de la documentación de Data Manager.

Importante: Para ejecutar con éxito el entrenamiento o los procesos completos, recomendamos especialmente un mínimo de 25 documentos y al menos 10 muestras de cada campo etiquetado en tu conjunto de datos. De lo contrario, el proceso mostrará un error "Ha fallado la creación del conjunto de datos"

Importante: A medida que se etiquetan más datos, ya sea utilizando Data Manager o procedentes de la Estación de validación, los mejores resultados se obtienen manteniendo un único conjunto de datos y añadiendo más datos al mismo, y siempre reentrenando sobre el modelo base proporcionado por UiPath, con la versión menor 0. Se recomienda encarecidamente evitar reentrenar utilizando un modelo base entrenado previamente por uno mismo (versión menor 1 o superior).

Entrenamiento en GPU o en CPU

El uso de una GPU (AI Robot Pro) para el entrenamiento es como mínimo 10 veces más rápido que el uso de una CPU (AI Robot). Ten en cuenta que entrenar modelos Document Understanding en la GPU requiere una GPU con al menos 11 GB de RAM de vídeo para funcionar correctamente.

Los modelos de GPU deben ser compatibles con la versión 418.0+ Controladores NVIDIA y controladores CUDA versión 9.0+.

El entrenamiento en CPU solo es posible para conjuntos de datos de hasta 500 imágenes. Para conjuntos de datos más grandes deberás utilizar la GPU para realizar el entrenamiento.

Formato del conjunto de datos

Una carpeta que contenga el conjunto de datos exportados desde Data Manager. Esto incluye:

imágenes: una carpeta que contiene imágenes de todas las páginas etiquetadas;
más reciente: una carpeta que contenga .json archivos con los datos etiquetados de cada página;
schema.json: un archivo que contenga los campos a extraer y sus tipos;
split.csv: un archivo que contenga la división por cada documento que se usará para ENTRENAR o VALIDAR durante el proceso de entrenamiento

Variables de entorno

ml_model.epochs: personaliza el número de epochs para Entrenamiento o Proceso completo (el valor predeterminado es 150).

Artefactos

Cuando el proceso es completo o de evaluación, el panel Salidas también contiene una carpeta de "artefactos" que contiene dos archivos:

evaluation_metrics.txt contiene las puntuaciones F1 de los campos que se predijeron. Es importante tener en cuenta que, en el caso de las partidas individuales, solo se obtiene una puntuación global para todas las columnas tomadas en conjunto.
evaluation.xlsx es una hoja de cálculo de Excel con una comparación paralela de valores reales frente a valores predichos para cada campo predicho por el modelo, además de una métrica de precisión por documento, en orden creciente de precisión. Por lo tanto, los documentos más inexactos se presentan en la parte superior para facilitar el diagnóstico y la resolución de problemas.

En esta página