Document Understanding: bucle de ajuste automático (vista previa pública)

document-understanding

2022.4

true

Guía del usuario de Document Understanding

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Bucle de ajuste preciso automático (vista previa pública)

A la hora de entrenar/reentrenar un modelo ML, lo primero que hay que tener en cuenta es que los mejores resultados se obtienen acumulando todos los datos en un único conjunto de datos grande e, idealmente, minuciosamente conservado. Entrenar en el conjunto de datos A y luego volver a entrenar el modelo resultante en el conjunto de datos B generará resultados claramente peores que entrenar en el conjunto de datos combinado A+B.

En segundo lugar, hay que tener en cuenta que no todos los datos son iguales. Los datos etiquetados en una herramienta dedicada como Administrador de documentos son, en general, de mejor calidad y darán lugar a un modelo con mejor resultado que los datos etiquetados en herramientas con un enfoque diferente como la Estación de validación. Los datos de la Estación de validación pueden ser de alta calidad desde el punto de vista de los procesos empresariales, pero no tanto desde el punto de vista del entrenamiento del modelo, ya que un modelo ML necesita datos en un formato muy específico, que casi siempre es distinto del que necesitan los procesos empresariales. Por ejemplo, en una factura de 10 páginas, el número de factura puede aparecer en cada una de ellas, pero en la Estación de validación basta con indicarlo en la primera página, mientras que en el Administrador de documentos habría que etiquetarlo en todas las páginas. En este caso, falta el 90 % de las etiquetas correctas en los datos de la Estación de validación. Por esta razón, los datos de la Estación de validación tienen una utilidad limitada, como se ha descrito anteriormente.

Para entrenar con eficacia un modelo ML, se necesita un conjunto de datos único, completo, de alta calidad y representativo. Por lo tanto, un enfoque acumulativo consiste en añadir más datos al conjunto de datos de entrada y, por lo tanto, entrenar el modelo ML con un conjunto de datos cada vez mayor. Una forma de hacerlo es utilizar el bucle de ajuste fino automático.

Para comprender mejor esta función, veamos dónde encaja el ajuste fino automático en el ciclo de vida del modelo ML.

Ciclo de vida de un modelo ML

En el ciclo de vida de cualquier modelo de aprendizaje automático, hay dos fases principales:

la fase de construcción
la fase de mantenimiento.

Fase de construcción

En esta primera fase, se utiliza el Administrador de documentos para preparar el conjunto de datos de entrenamiento y el conjunto de datos de evaluación con el fin de obtener el mejor rendimiento posible.

Al mismo tiempo, se construye la automatización de RPA y la lógica empresarial en torno al modelo ML, que es al menos tan importante como el propio modelo para obtener el retorno de la inversión previsto.

Fase de mantenimiento

En esta segunda fase, se intenta mantener el nivel de alto rendimiento alcanzado en la fase de construcción, evitando regresiones.

El ajuste fino automático (y los datos de la estación de validación en general) se refieren estrictamente a la fase de mantenimiento. El objetivo del ajuste fino automático es principalmente evitar que el modelo ML retroceda a medida que cambian los datos que pasan por el proceso.

Importante: Los datos obtenidos de la validación humana utilizando la Estación de validación no deberían usarse para crear un modelo desde cero. La creación de un modelo debe realizarse mediante la preparación de conjuntos de datos de entrenamiento y evaluación en Administrador de documentos.

Componentes del bucle de ajuste fino automático

El bucle de ajuste fino automático consta de los siguientes componentes:

1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático
2. Administrador de documentos: característica de programación de exportación
3. AI Center: proceso de reentrenamiento automático programado
4. (opcional) Habilidades ML de actualización automática

Requisitos previos

Para poder implementar esta funcionalidad, es necesario cumplir dos requisitos:

Es necesario haber creado una sesión del Administrador de documentos en AI Center y haber configurado un determinado número de campos, en concreto para etiquetar conjuntos de datos de entrenamiento y evaluación de alta calidad. Puedes definir manualmente tus campos o importar un esquema. Si los campos no están configurados, no se habilita la pestaña Programación (Preview) y aparece el siguiente mensaje en la pantalla:
Debes haber entrenado unas cuantas versiones del modelo ML, haberlas probado, haber solucionado cualquier problema que haya podido surgir y haberlas implementado en la automatización de RPA+AI.

1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático

Añade la actividad Entrenador de extractor con aprendizaje automático a tu flujo de trabajo en Entrenar el alcance de los extractores, configura adecuadamente el alcance, asegurándote de que el alias del marco contiene el mismo alias que el del Extractor con aprendizaje automático en el Alcance de la extracción de información.

A continuación, selecciona el proyecto y el conjunto de datos asociado a la sesión del Administrador de documentos que contiene tus conjuntos de datos de entrenamiento y evaluación. Los menús desplegables se completan previamente una vez que se conecta a Orchestrator.

Nota: Puedes establecer un valor para la propiedad Carpeta de salida si deseas exportar los datos localmente en el flujo de trabajo.

Puedes ver el nombre del conjunto de datos en la vista de etiquetado de datos en AI Center, junto al nombre de la sesión de Etiquetado de datos:

Para el conjunto de datos seleccionado, la actividad Entrenador de extractor con aprendizaje automático crea una carpeta llamada fine-tune donde se guardan los documentos exportados en 3 carpetas: documents, metadata y predictions.

Esta es la carpeta en la que los datos se importarán automáticamente al Administrador de documentos, se fusionarán con los datos existentes y se exportarán en el formato adecuado para su consumo por parte de un entrenamiento o proceso completo.

2. Administrador de documentos: característica de programación de exportación

En una sesión del Administrador de documentos, haz clic en el botón Exportar, ve a la pestaña Programación (Preview) y habilita el control deslizante de Programación. A continuación, selecciona una hora de inicio y una recurrencia. Cuando estés listo, haz clic en el botón Programar.

La casilla de verificación Exportación compatible con versiones anteriores te permite aplicar el comportamiento de exportación heredado, que consiste en exportar cada página como un documento independiente. Prueba esta opción si el modelo entrenado con la exportación predeterminada no cumple las expectativas. Deja esta opción sin seleccionar para exportar los documentos en su formulario original de varias páginas.

Nota:

La recurrencia mínima es de 1 día y la máxima es de 60 días.

Dado que los procesos de entrenamiento de AI Center están configurados principalmente para ejecutarse semanalmente, se recomienda una recurrencia de 7 días.

Cuando se establece la programación de la exportación, los datos importados de la carpeta ajuste-fino se exportan a la carpeta exportación con la marca_de_tiempo exportación_automática.

Para ser más específicos, la exportación programada importa los datos que existen en la carpeta fine-tune creada en el Paso 1, y luego exporta el conjunto de datos completo, incluidos los datos previamente existentes y los datos de la estación de validación recién importados, a la carpeta de exportación. Así, con cada exportación programada, el conjunto de datos exportado es cada vez más grande.

El archivo latest.txt se actualiza o crea si esta es la primera exportación programada. Aquí puedes ver el nombre de la última exportación realizada por el Administrador de documentos. Sin embargo, la exportación de esquemas no actualiza el archivo latest.txt. Este archivo lo utiliza el proceso de reentrenamiento automático en AI Center para determinar cuál es la última exportación y así poder entrenar siempre con los datos más recientes, por lo que nunca debe eliminarse o modificarse. De lo contrario, fallarán los procesos de reentrenamiento automático.

Nota: La operación de importación y exportación programada puede llevar entre 1 y 2 horas, dependiendo de la cantidad de datos enviados desde el Paso 1 a lo largo de la semana anterior. Te recomendamos elegir un momento en el que no vayas a utilizar el Administrador de documentos, ya que cuando una operación de exportación está en curso no se permite realizar otras exportaciones o importaciones. Sin embargo, el etiquetado siempre es posible.

3. AI Center: proceso de reentrenamiento automático programado

Al programar un entrenamiento o un proceso completo en AI Center, hay algunos aspectos que deben tenerse en cuenta.

En primer lugar, te recomendamos encarecidamente crear un conjunto de datos de evaluación y programar únicamente procesos completos. Los procesos completos ejecutan el entrenamiento y la evaluación juntos, y el proceso de evaluación utiliza el conjunto de datos de evaluación para generar una puntuación. Esta puntuación será crucial para decidir si la nueva versión es mejor que la anterior, y se puede implementar para su consumo por parte de los robots.

En segundo lugar, para el proceso completo es necesario especificar dos conjuntos de datos: uno de entrada y otro de evaluación.

No existe ningún cambio en el conjunto de datos de evaluación en el contexto de la función de bucle de ajuste fino automático. Sigue siendo necesario seleccionar un conjunto de datos de la forma habitual, que contenga las dos carpetas (images y latest) y los dos archivos (schema.json y split.csv).

Sin embargo, el conjunto de datos de entrada ya no es un conjunto de datos, sino que es necesario seleccionar la carpeta de exportación en el conjunto de datos del AI Center que está conectado a la sesión de etiquetado de datos. De este modo, el entrenamiento se ejecuta en la última exportación de la sesión de etiquetado de datos, mientras que la evaluación se ejecuta en el mismo conjunto de datos de evaluación que se especifique.

Importante: Si no seleccionas la carpeta de exportación no funcionará el reentrenamiento automático.

En tercer lugar, hay que establecer la variable de entorno de reentrenamiento automático en Verdadero.

Por último, debes seleccionar Recurrente y establecer un día y una hora para dejar tiempo suficiente para que finalice la exportación desde el Administrador de documentos. Por ejemplo, si la exportación del Administrador de documentos se ejecuta a la 1 de la madrugada del sábado, el proceso podría ejecutarse a las 2 o 3 de la madrugada del sábado. Si la exportación no ha finalizado cuando se ejecuta el proceso, este utilizará la exportación anterior, y podría volver a entrenar con los mismos datos que entrenó la semana anterior.

4. (opcional) Habilidades ML de actualización automática

Si deseas implementar automáticamente la última versión del paquete ML que se genera mediante los procesos de entrenamiento automáticamente programados, puedes habilitar la función de actualización automática en la habilidad ML.

Nota:

La habilidad ML se actualiza automáticamente independientemente de que la puntuación de precisión haya mejorado con respecto al entrenamiento anterior, de modo que utiliza esta función con precaución.

En algunos casos, es posible que la puntuación global mejore, aunque un campo específico pueda retroceder ligeramente. Sin embargo, ese campo puede ser crítico para tu proceso empresarial, por lo que la actualización y el reciclaje automáticos, en general, requieren una minuciosa supervisión para tener éxito.

El bucle de ajuste fino automático está completo. Ahora puedes reentrenar automáticamente tus modelos ML con datos de la estación de validación.

En esta página

Ciclo de vida de un modelo ML
Fase de construcción
Fase de mantenimiento
Componentes del bucle de ajuste fino automático
Requisitos previos
1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático
2. Administrador de documentos: característica de programación de exportación
3. AI Center: proceso de reentrenamiento automático programado
4. (opcional) Habilidades ML de actualización automática

¿Te ha resultado útil esta página?

AnteriorAjuste preciso

Sig.Acerca de Document Manager