UiPath Documentation
document-understanding
2024.10
false
Importante :
La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.
UiPath logo, featuring letters U and I in white

Document Understanding user guide

Última actualización 6 de abr. de 2026

Bucle de ajuste preciso automático (vista previa pública)

A la hora de entrenar/reentrenar un modelo ML, lo primero que hay que tener en cuenta es que los mejores resultados se obtienen acumulando todos los datos en un único conjunto de datos grande e, idealmente, minuciosamente conservado. Entrenar en el conjunto de datos A y luego volver a entrenar el modelo resultante en el conjunto de datos B generará resultados claramente peores que entrenar en el conjunto de datos combinado A+B.

La segunda cosa a tener en cuenta es que no todos los datos son los mismos. Los datos etiquetados en una herramienta dedicada como Document Manager son, en general, de mejor calidad y darán como resultado un modelo de mejor rendimiento que los datos etiquetados en herramientas con un enfoque diferente, como la estación de validación. Los datos de la estación de validación pueden ser de alta calidad desde el punto de vista del proceso empresarial, pero menos desde el punto de vista del entrenamiento del modelo, porque un modelo de ML necesita datos en una forma muy específica, que casi siempre es diferente de la forma que necesitan los procesos empresariales. Por ejemplo, en una factura de 10 páginas, el número de factura puede aparecer en cada página, pero en la estación de validación es suficiente indicarlo en la primera página, mientras que en el Gestor de documentos lo etiquetarías en todas las páginas. En este caso, faltan el 90 % de las etiquetas correctas en los datos de la estación de validación. Por esta razón, los datos de la estación de validación tienen una utilidad limitada.

Para entrenar con eficacia un modelo ML, se necesita un conjunto de datos único, completo, de alta calidad y representativo. Por lo tanto, un enfoque acumulativo consiste en añadir más datos al conjunto de datos de entrada y, por lo tanto, entrenar el modelo ML con un conjunto de datos cada vez mayor. Una forma de hacerlo es utilizar el bucle de ajuste fino automático.

Ciclo de vida de un modelo ML

En el ciclo de vida de cualquier modelo de aprendizaje automático, hay dos fases principales:

  • la fase de creación, y
  • Fase de mantenimiento

Fase de construcción

En esta primera fase, se utiliza el Administrador de documentos para preparar el conjunto de datos de entrenamiento y el conjunto de datos de evaluación con el fin de obtener el mejor rendimiento posible.

Al mismo tiempo, se construye la automatización de RPA y la lógica empresarial en torno al modelo ML, que es al menos tan importante como el propio modelo para obtener el retorno de la inversión previsto.

Fase de mantenimiento

En esta segunda fase, se intenta mantener el nivel de alto rendimiento alcanzado en la fase de construcción, evitando regresiones.

El ajuste fino automático (y los datos de la estación de validación en general) se refieren estrictamente a la fase de mantenimiento. El objetivo del ajuste fino automático es principalmente evitar que el modelo ML retroceda a medida que cambian los datos que pasan por el proceso.

Importante:

Data fed back from the human validation using Validation Station should not be used to build a model from scratch. Building a model should be done by preparing training and evaluation datasets in Document Manager.

Componentes del bucle de ajuste fino automático

El bucle de ajuste fino automático consta de los siguientes componentes:

  1. Flujo de trabajo del robot: actividad del entrenador del extractor de aprendizaje automático
  2. Administrador de documentos: función programar exportación
  3. AI Center: proceso de reentrenamiento automático programado
    1. (Optional) Auto-update ML Skills

Requisitos previos

Para poder implementar esta funcionalidad, es necesario cumplir dos requisitos:

  • Es necesario haber creado una sesión del Administrador de documentos en AI Center y haber configurado un determinado número de campos, en concreto para etiquetar conjuntos de datos de entrenamiento y evaluación de alta calidad. Puedes definir manualmente tus campos o importar un esquema. Si los campos no están configurados, no se habilita la pestaña Programación (Preview) y aparece el siguiente mensaje en la pantalla:

    Captura de pantalla de la interfaz Exportar archivos.

  • Debes haber entrenado unas cuantas versiones del modelo ML, haberlas probado, haber solucionado cualquier problema que haya podido surgir y haberlas implementado en la automatización de RPA+AI.

1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático

  • Add the Machine Learning Extractor Trainer activity into your workflow in a Train Extractors Scope and properly configure the scope

  • Make sure the Framework Alias contains the same alias as the Machine Learning Extractor alias in the Data Extraction Scope.

  • Select the Project and the Dataset associated with the Document Manager session that contains your Training and Evaluation datasets. The drop-down menus are prepopulated once you are connected to Orchestrator.

    Nota:

    You can set a value for the Output Folder property if you want to export the data locally in the workflow.

    Captura de pantalla de la interfaz de Entrenar el ámbito de los extractores.

Puedes comprobar el nombre del conjunto de datos en la vista de etiquetado de datos en AI Center, junto al nombre de la sesión de etiquetado de datos:

Captura de pantalla de la interfaz de la sesión de etiquetado de datos.

Para el conjunto de datos seleccionado, la actividad Entrenador de extractor con aprendizaje automático crea una carpeta llamada fine-tune donde se guardan los documentos exportados en 3 carpetas: documents, metadata y predictions.

Captura de pantalla de la interfaz de los conjuntos de datos.

Esta carpeta está designada para la importación automática de datos a Document Manager. Los datos importados se fusionarán con los datos existentes anteriormente y los datos fusionados se exportarán en el formato correcto para su uso en un proceso de entrenamiento o completo. Los datos importados se automatically clasifican en dos conjuntos: entrenamiento y validación, manteniendo una división del 80 %/20 %. Como resultado, los datos exportados contendrán conjuntos de entrenamiento y validación a partir de los datos recopilados recientemente. Los datos se importan automáticamente solo si la exportación programada está habilitada en Document Manager.

2. Administrador de documentos: característica de programación de exportación

From a Document Manager session, select the Export button Botón Exportar, go to the Schedule (Preview) tab, and enable the Scheduling slider. Then select a start time and a recurrence. When ready, select the Schedule button.

La casilla de verificación Exportación compatible con versiones anteriores te permite aplicar el comportamiento de exportación heredado, que consiste en exportar cada página como un documento independiente. Prueba esta opción si el modelo entrenado con la exportación predeterminada no cumple las expectativas. Deja esta opción sin seleccionar para exportar los documentos en su formulario original de varias páginas.

Nota:

La recurrencia mínima es de 7 días y la máxima es de 60 días.

Dado que los procesos de entrenamiento de AI Center están configurados principalmente para ejecutarse semanalmente, se recomienda una recurrencia de 7 días.

Captura de pantalla de la interfaz Exportar archivos.

When you set the schedule for export, the imported data from the fine-tune folder is exported to the export folder under auto-export time_stamp.

Nota:

There is a 2000 page import limit per auto-retrain run.

Para ser más específicos, la exportación programada importa los datos que existen en la carpeta fine-tune creada en el Paso 1, y luego exporta el conjunto de datos completo, incluidos los datos previamente existentes y los datos de la estación de validación recién importados, a la carpeta de exportación. Así, con cada exportación programada, el conjunto de datos exportado es cada vez más grande.

The file latest.txt is updated or created if this is the first scheduled export. Here you can check the name of the latest export made by Document Manager. Schema export, however, does not update latest.txt. This file is used by the auto-retraining pipeline in AI Center to determine which is the latest export so it can always train on the latest data, so you should never remove or modify it, otherwise, your auto-retraining pipelines will fail.

Captura de pantalla de la interfaz de los conjuntos de datos.

Nota:

The Scheduled import+export operation might take up to 1-2 hours, depending on how much data was sent from Step 1 during the previous week. We recommend you choose a time when you will not use the Document Manager due to the fact that when an export operation is ongoing no other exports or imports are allowed. However, labeling is always possible.

3. AI Center: proceso de reentrenamiento automático programado

Al programar un entrenamiento o un proceso completo en AI Center, hay algunos aspectos que deben tenerse en cuenta.

En primer lugar, te recomendamos encarecidamente crear un conjunto de datos de evaluación y programar únicamente procesos completos. Los procesos completos ejecutan el entrenamiento y la evaluación juntos, y el proceso de evaluación utiliza el conjunto de datos de evaluación para generar una puntuación. Esta puntuación será crucial para decidir si la nueva versión es mejor que la anterior, y se puede implementar para su consumo por parte de los robots.

En segundo lugar, para el proceso completo es necesario especificar dos conjuntos de datos: uno de entrada y otro de evaluación.

Captura de pantalla de la interfaz de los dos conjuntos de datos.

No existe ningún cambio en el conjunto de datos de evaluación en el contexto de la función de bucle de ajuste fino automático. Sigue siendo necesario seleccionar un conjunto de datos de la forma habitual, que contenga las dos carpetas (images y latest) y los dos archivos (schema.json y split.csv).

Sin embargo, el conjunto de datos de entrada ya no es un conjunto de datos, sino que es necesario seleccionar la carpeta de exportación en el conjunto de datos del AI Center que está conectado a la sesión de etiquetado de datos. De este modo, el entrenamiento se ejecuta en la última exportación de la sesión de etiquetado de datos, mientras que la evaluación se ejecuta en el mismo conjunto de datos de evaluación que se especifique.

Importante:

If you do not select the export folder, the auto-retraining does not work.

En tercer lugar, hay que establecer la variable de entorno de reentrenamiento automático en Verdadero.

Por último, debes seleccionar Recurrente y establecer un día y una hora para dejar tiempo suficiente para que finalice la exportación desde el Administrador de documentos. Por ejemplo, si la exportación del Administrador de documentos se ejecuta a la 1 de la madrugada del sábado, el proceso podría ejecutarse a las 2 o 3 de la madrugada del sábado. Si la exportación no ha finalizado cuando se ejecuta el proceso, este utilizará la exportación anterior, y podría volver a entrenar con los mismos datos que entrenó la semana anterior.

Captura de pantalla de la interfaz de ejecución Crear nuevo proceso.

4. (opcional) Habilidades ML de actualización automática

Si deseas implementar automáticamente la última versión del paquete ML que se genera mediante los procesos de entrenamiento automáticamente programados, puedes habilitar la función de actualización automática en la habilidad ML.

Nota:

La habilidad ML se actualiza automáticamente independientemente de que la puntuación de precisión haya mejorado con respecto al entrenamiento anterior, de modo que utiliza esta función con precaución.

En algunos casos, es posible que la puntuación global mejore, aunque un campo específico pueda retroceder ligeramente. Sin embargo, ese campo puede ser crítico para tu proceso empresarial, por lo que la actualización y el reciclaje automáticos, en general, requieren una minuciosa supervisión para tener éxito.

Captura de pantalla de la interfaz de actualización de la habilidad ML.

El bucle de ajuste fino automático está completo. Ahora puedes reentrenar automáticamente tus modelos ML con datos de la estación de validación.

¿Te ha resultado útil esta página?

Conectar

¿Necesita ayuda? Soporte

¿Quiere aprender? UiPath Academy

¿Tiene alguna pregunta? Foro de UiPath

Manténgase actualizado