Document Understanding: bucle de ajuste automático (vista previa pública)

document-understanding

latest

false

Guía del usuario clásica de Document Understanding

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Bucle de ajuste preciso automático (vista previa pública)

A la hora de entrenar/reentrenar un modelo ML, lo primero que hay que tener en cuenta es que los mejores resultados se obtienen acumulando todos los datos en un único conjunto de datos grande e, idealmente, minuciosamente conservado. Entrenar en el conjunto de datos A y luego volver a entrenar el modelo resultante en el conjunto de datos B generará resultados claramente peores que entrenar en el conjunto de datos combinado A+B.

La segunda cosa a tener en cuenta es que no todos los datos son los mismos. Los datos etiquetados en una herramienta dedicada como Document Manager son, en general, de mejor calidad y darán como resultado un modelo de mejor rendimiento que los datos etiquetados en herramientas con un enfoque diferente, como la estación de validación. Los datos de la estación de validación pueden ser de alta calidad desde el punto de vista del proceso empresarial, pero menos desde el punto de vista del entrenamiento del modelo, porque un modelo de ML necesita datos en una forma muy específica, que casi siempre es diferente de la forma que necesitan los procesos empresariales. Por ejemplo, en una factura de 10 páginas, el número de factura puede aparecer en cada página, pero en la estación de validación es suficiente indicarlo en la primera página, mientras que en el Gestor de documentos lo etiquetarías en todas las páginas. En este caso, faltan el 90 % de las etiquetas correctas en los datos de la estación de validación. Por esta razón, los datos de la estación de validación tienen una utilidad limitada.

Para entrenar con eficacia un modelo ML, se necesita un conjunto de datos único, completo, de alta calidad y representativo. Por lo tanto, un enfoque acumulativo consiste en añadir más datos al conjunto de datos de entrada y, por lo tanto, entrenar el modelo ML con un conjunto de datos cada vez mayor. Una forma de hacerlo es utilizar el bucle de ajuste fino automático.

Ciclo de vida de un modelo ML

En el ciclo de vida de cualquier modelo de aprendizaje automático, hay dos fases principales:

la fase de creación, y
Fase de mantenimiento

Fase de construcción

En esta primera fase, se utiliza el Administrador de documentos para preparar el conjunto de datos de entrenamiento y el conjunto de datos de evaluación con el fin de obtener el mejor rendimiento posible.

Al mismo tiempo, se construye la automatización de RPA y la lógica empresarial en torno al modelo ML, que es al menos tan importante como el propio modelo para obtener el retorno de la inversión previsto.

Fase de mantenimiento

En esta segunda fase, se intenta mantener el nivel de alto rendimiento alcanzado en la fase de construcción, evitando regresiones.

El ajuste fino automático (y los datos de la estación de validación en general) se refieren estrictamente a la fase de mantenimiento. El objetivo del ajuste fino automático es principalmente evitar que el modelo ML retroceda a medida que cambian los datos que pasan por el proceso.

Importante:

Los datos obtenidos de la validación humana mediante la estación de validación no deben utilizarse para crear un modelo desde cero. La creación de un modelo debe realizarse mediante la preparación de conjuntos de datos de entrenamiento y evaluación en Administrador de documentos.

Componentes del bucle de ajuste fino automático

El bucle de ajuste fino automático consta de los siguientes componentes:

Flujo de trabajo del robot: actividad del entrenador del extractor de aprendizaje automático
Administrador de documentos: función programar exportación
AI Center: proceso de reentrenamiento automático programado
1. (Opcional) Actualizar automáticamente las habilidades ML

Requisitos previos

Para poder implementar esta funcionalidad, es necesario cumplir dos requisitos:

Es necesario haber creado una sesión del Administrador de documentos en AI Center y haber configurado un determinado número de campos, en concreto para etiquetar conjuntos de datos de entrenamiento y evaluación de alta calidad. Puedes definir manualmente tus campos o importar un esquema. Si los campos no están configurados, no se habilita la pestaña Programación (Preview) y aparece el siguiente mensaje en la pantalla:
Debes haber entrenado unas cuantas versiones del modelo ML, haberlas probado, haber solucionado cualquier problema que haya podido surgir y haberlas implementado en la automatización de RPA+AI.

1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático

Add the Machine Learning Extractor Trainer activity into your workflow in a Train Extractors Scope and properly configure the scope
Make sure the Framework Alias contains the same alias as the Machine Learning Extractor alias in the Data Extraction Scope.
Select the Project and the Dataset associated with the Document Manager session that contains your Training and Evaluation datasets. The drop-down menus are prepopulated once you are connected to Orchestrator.

Nota:
Puedes establecer un valor para la propiedad Carpeta de salida si deseas exportar los datos localmente en el flujo de trabajo.

Puedes comprobar el nombre del conjunto de datos en la vista de etiquetado de datos en AI Center, junto al nombre de la sesión de etiquetado de datos:

Para el conjunto de datos seleccionado, la actividad Entrenador de extractor con aprendizaje automático crea una carpeta llamada fine-tune donde se guardan los documentos exportados en 3 carpetas: documents, metadata y predictions.

Esta carpeta está designada para la importación automática de datos a Document Manager. Los datos importados se fusionarán con los datos existentes anteriormente y los datos fusionados se exportarán en el formato correcto para su uso en un proceso de entrenamiento o completo. Los datos importados se automatically clasifican en dos conjuntos: entrenamiento y validación, manteniendo una división del 80 %/20 %. Como resultado, los datos exportados contendrán conjuntos de entrenamiento y validación a partir de los datos recopilados recientemente. Los datos se importan automáticamente solo si la exportación programada está habilitada en Document Manager.

2. Administrador de documentos: característica de programación de exportación

Desde una sesión de Document Manager, selecciona el botón Exportar , ve a la pestaña Programar (Vista previa) y habilita el control deslizante Programación. A continuación, selecciona una hora de inicio y una periodicidad. Cuando esté listo, selecciona el botón Programar.

La casilla de verificación Exportación compatible con versiones anteriores te permite aplicar el comportamiento de exportación heredado, que consiste en exportar cada página como un documento independiente. Prueba esta opción si el modelo entrenado con la exportación predeterminada no cumple las expectativas. Deja esta opción sin seleccionar para exportar los documentos en su formulario original de varias páginas.

Nota:

La recurrencia mínima es de 7 días y la máxima es de 60 días. Dado que los procesos de entrenamiento de AI Center están configurados principalmente para ejecutarse semanalmente, se recomienda una recurrencia de 7 días.

Cuando se establece la programación de la exportación, los datos importados de la carpeta ajuste-fino se exportan a la carpeta exportación con la marca_de_tiempo exportación_automática.

Nota:

Hay un límite de importación de 2000 páginas por ejecución de reentrenamiento automático.

Para ser más específicos, la exportación programada importa los datos que existen en la carpeta fine-tune creada en el Paso 1, y luego exporta el conjunto de datos completo, incluidos los datos previamente existentes y los datos de la estación de validación recién importados, a la carpeta de exportación. Así, con cada exportación programada, el conjunto de datos exportado es cada vez más grande.

El archivo latest.txt se actualiza o crea si esta es la primera exportación programada. Aquí puedes comprobar el nombre de la última exportación realizada por Document Manager. Sin embargo, la exportación de esquemas no actualiza el archivo latest.txt. Este archivo lo utiliza el proceso de reentrenamiento automático en AI Center para determinar cuál es la exportación más reciente para que siempre pueda entrenarse con los datos más recientes, por lo que nunca debes eliminarlo o modificarlo, de lo contrario, tus procesos de reentrenamiento automático fallarán.

Nota:

La operación de importación y exportación programada puede llevar entre 1 y 2 horas, dependiendo de la cantidad de datos enviados desde el Paso 1 a lo largo de la semana anterior. Te recomendamos elegir un momento en el que no vayas a utilizar el Administrador de documentos, ya que cuando una operación de exportación está en curso no se permite realizar otras exportaciones o importaciones. Sin embargo, el etiquetado siempre es posible.

3. AI Center: proceso de reentrenamiento automático programado

Al programar un entrenamiento o un proceso completo en AI Center, hay algunos aspectos que deben tenerse en cuenta.

En primer lugar, te recomendamos encarecidamente crear un conjunto de datos de evaluación y programar únicamente procesos completos. Los procesos completos ejecutan el entrenamiento y la evaluación juntos, y el proceso de evaluación utiliza el conjunto de datos de evaluación para generar una puntuación. Esta puntuación será crucial para decidir si la nueva versión es mejor que la anterior, y se puede implementar para su consumo por parte de los robots.

En segundo lugar, para el proceso completo es necesario especificar dos conjuntos de datos: uno de entrada y otro de evaluación.

No existe ningún cambio en el conjunto de datos de evaluación en el contexto de la función de bucle de ajuste fino automático. Sigue siendo necesario seleccionar un conjunto de datos de la forma habitual, que contenga las dos carpetas (images y latest) y los dos archivos (schema.json y split.csv).

Sin embargo, el conjunto de datos de entrada ya no es un conjunto de datos, sino que es necesario seleccionar la carpeta de exportación en el conjunto de datos del AI Center que está conectado a la sesión de etiquetado de datos. De este modo, el entrenamiento se ejecuta en la última exportación de la sesión de etiquetado de datos, mientras que la evaluación se ejecuta en el mismo conjunto de datos de evaluación que se especifique.

Importante:

Si no se selecciona la carpeta de exportación, el reentrenamiento automático no funciona.

En tercer lugar, hay que establecer la variable de entorno de reentrenamiento automático en Verdadero.

Por último, debes seleccionar Recurrente y establecer un día y una hora para dejar tiempo suficiente para que finalice la exportación desde el Administrador de documentos. Por ejemplo, si la exportación del Administrador de documentos se ejecuta a la 1 de la madrugada del sábado, el proceso podría ejecutarse a las 2 o 3 de la madrugada del sábado. Si la exportación no ha finalizado cuando se ejecuta el proceso, este utilizará la exportación anterior, y podría volver a entrenar con los mismos datos que entrenó la semana anterior.

4. (opcional) Habilidades ML de actualización automática

Si deseas implementar automáticamente la última versión del paquete ML que se genera mediante los procesos de entrenamiento automáticamente programados, puedes habilitar la función de actualización automática en la habilidad ML.

Nota:

La habilidad ML se actualiza automáticamente independientemente de que la puntuación de precisión haya mejorado con respecto al entrenamiento anterior, de modo que utiliza esta función con precaución. En algunos casos, es posible que la puntuación global mejore, aunque un campo específico pueda retroceder ligeramente. Sin embargo, ese campo puede ser crítico para tu proceso empresarial, por lo que la actualización y el reciclaje automáticos, en general, requieren una minuciosa supervisión para tener éxito.

El bucle de ajuste fino automático está completo. Ahora puedes reentrenar automáticamente tus modelos ML con datos de la estación de validación.

En esta página

Ciclo de vida de un modelo ML
Fase de construcción
Fase de mantenimiento
Componentes del bucle de ajuste fino automático
Requisitos previos
1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático
2. Administrador de documentos: característica de programación de exportación
3. AI Center: proceso de reentrenamiento automático programado
4. (opcional) Habilidades ML de actualización automática

¿Te ha resultado útil esta página?

AnteriorAjuste preciso

Sig.Servicios de OCR

Ciclo de vida de un modelo ML​

Fase de construcción​

Fase de mantenimiento​

Componentes del bucle de ajuste fino automático​

Requisitos previos​

1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático​

2. Administrador de documentos: característica de programación de exportación​

3. AI Center: proceso de reentrenamiento automático programado​

4. (opcional) Habilidades ML de actualización automática​

¿Te ha resultado útil esta página?

Ciclo de vida de un modelo ML

Fase de construcción

Fase de mantenimiento

Componentes del bucle de ajuste fino automático

Requisitos previos

1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático

2. Administrador de documentos: característica de programación de exportación

3. AI Center: proceso de reentrenamiento automático programado

4. (opcional) Habilidades ML de actualización automática