- Información general
- Primeros pasos
- Actividades
- Paneles de insights
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Nóminas - - Paquete ML
- Pasaportes: paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Limitaciones de tráfico
- Configuración de OCR
- Procesos
- Procesos de entrenamiento
- Procesos de evaluación
- Procesos completos
- Ajuste preciso
- Bucle de ajuste preciso automático (vista previa pública)
- Servicios de OCR
- Idiomas admitidos
- Aprendizaje profundo
- Licencia
Guía del usuario de Document Understanding
Bucle de ajuste preciso automático (vista previa pública)
A la hora de entrenar/reentrenar un modelo ML, lo primero que hay que tener en cuenta es que los mejores resultados se obtienen acumulando todos los datos en un único conjunto de datos grande e, idealmente, minuciosamente conservado. Entrenar en el conjunto de datos A y luego volver a entrenar el modelo resultante en el conjunto de datos B generará resultados claramente peores que entrenar en el conjunto de datos combinado A+B.
En segundo lugar, hay que tener en cuenta que no todos los datos son iguales. Los datos etiquetados en una herramienta dedicada como Administrador de documentos son, en general, de mejor calidad y darán lugar a un modelo con mejor resultado que los datos etiquetados en herramientas con un enfoque diferente como la Estación de validación. Los datos de la Estación de validación pueden ser de alta calidad desde el punto de vista de los procesos empresariales, pero no tanto desde el punto de vista del entrenamiento del modelo, ya que un modelo ML necesita datos en un formato muy específico, que casi siempre es distinto del que necesitan los procesos empresariales. Por ejemplo, en una factura de 10 páginas, el número de factura puede aparecer en cada una de ellas, pero en la Estación de validación basta con indicarlo en la primera página, mientras que en el Administrador de documentos habría que etiquetarlo en todas las páginas. En este caso, falta el 90 % de las etiquetas correctas en los datos de la Estación de validación. Por esta razón, los datos de la Estación de validación tienen una utilidad limitada, como se ha descrito anteriormente.
Para entrenar con eficacia un modelo ML, se necesita un conjunto de datos único, completo, de alta calidad y representativo. Por lo tanto, un enfoque acumulativo consiste en añadir más datos al conjunto de datos de entrada y, por lo tanto, entrenar el modelo ML con un conjunto de datos cada vez mayor. Una forma de hacerlo es utilizar el bucle de ajuste fino automático.
Para comprender mejor esta función, veamos dónde encaja el ajuste fino automático en el ciclo de vida del modelo ML.
En el ciclo de vida de cualquier modelo de aprendizaje automático, hay dos fases principales:
- la fase de creación, y
- Fase de mantenimiento
En esta primera fase, se utiliza el Administrador de documentos para preparar el conjunto de datos de entrenamiento y el conjunto de datos de evaluación con el fin de obtener el mejor rendimiento posible.
Al mismo tiempo, se construye la automatización de RPA y la lógica empresarial en torno al modelo ML, que es al menos tan importante como el propio modelo para obtener el retorno de la inversión previsto.
En esta segunda fase, se intenta mantener el nivel de alto rendimiento alcanzado en la fase de construcción, evitando regresiones.
El ajuste fino automático (y los datos de la estación de validación en general) se refieren estrictamente a la fase de mantenimiento. El objetivo del ajuste fino automático es principalmente evitar que el modelo ML retroceda a medida que cambian los datos que pasan por el proceso.
El bucle de ajuste fino automático consta de los siguientes componentes:
- Flujo de trabajo del robot: actividad del entrenador del extractor de aprendizaje automático
- Administrador de documentos: función programar exportación
- AI Center: proceso de reentrenamiento automático programado
- 4. (opcional) Habilidades ML de actualización automática
Para poder implementar esta funcionalidad, es necesario cumplir dos requisitos:
-
Es necesario haber creado una sesión del Administrador de documentos en AI Center y haber configurado un determinado número de campos, en concreto para etiquetar conjuntos de datos de entrenamiento y evaluación de alta calidad. Puedes definir manualmente tus campos o importar un esquema. Si los campos no están configurados, no se habilita la pestaña Programación (Preview) y aparece el siguiente mensaje en la pantalla:
- Debes haber entrenado unas cuantas versiones del modelo ML, haberlas probado, haber solucionado cualquier problema que haya podido surgir y haberlas implementado en la automatización de RPA+AI.
- Añade la actividad Entrenador del extractor con aprendizaje automático a tu flujo de trabajo en un Ámbito de entrenador de extractores y configura correctamente el ámbito
- Asegúrate de que el Alias del marco coincide con el alias del Extractor con aprendizaje automático en el Ámbito de extracción de datos.
-
Selecciona el Proyecto y el Conjunto de datos asociado a la sesión del Document Manager que contiene tus conjuntos de datos de entrenamiento y evaluación. Los menús desplegables se completan previamente una vez que se conecta a Orchestrator.
Nota: Puedes establecer un valor para la propiedad Carpeta de salida si deseas exportar los datos localmente en el flujo de trabajo.
Puedes ver el nombre del conjunto de datos en la vista de etiquetado de datos en AI Center, junto al nombre de la sesión de Etiquetado de datos:
Para el conjunto de datos seleccionado, la actividad Entrenador de extractor con aprendizaje automático crea una carpeta llamada fine-tune donde se guardan los documentos exportados en 3 carpetas: documents, metadata y predictions.
automatically
clasifican en dos conjuntos: entrenamiento y validación, manteniendo una división del 80 %/20 %. Como resultado, los datos exportados contendrán conjuntos de entrenamiento y validación a partir de los datos recopilados recientemente. Los datos se importan automáticamente solo si la exportación programada está habilitada en Document Manager.
En una sesión del Administrador de documentos, haz clic en el botón Exportar, ve a la pestaña Programación (Preview) y habilita el control deslizante de Programación. A continuación, selecciona una hora de inicio y una recurrencia. Cuando estés listo, haz clic en el botón Programar.
La casilla de verificación Exportación compatible con versiones anteriores te permite aplicar el comportamiento de exportación heredado, que consiste en exportar cada página como un documento independiente. Prueba esta opción si el modelo entrenado con la exportación predeterminada no cumple las expectativas. Deja esta opción sin seleccionar para exportar los documentos en su formulario original de varias páginas.
La recurrencia mínima es de 7 días y la máxima es de 60 días.
Dado que los procesos de entrenamiento de AI Center están configurados principalmente para ejecutarse semanalmente, se recomienda una recurrencia de 7 días.
Cuando se establece la programación de la exportación, los datos importados de la carpeta ajuste-fino se exportan a la carpeta exportación con la marca_de_tiempo exportación_automática.
Hay un límite de importación de 2000 páginas por ejecución de reentrenamiento automático.
Para ser más específicos, la exportación programada importa los datos que existen en la carpeta fine-tune creada en el Paso 1, y luego exporta el conjunto de datos completo, incluidos los datos previamente existentes y los datos de la estación de validación recién importados, a la carpeta de exportación. Así, con cada exportación programada, el conjunto de datos exportado es cada vez más grande.
El archivo latest.txt se actualiza o crea si esta es la primera exportación programada. Aquí puedes ver el nombre de la última exportación realizada por el Administrador de documentos. Sin embargo, la exportación de esquemas no actualiza el archivo latest.txt. Este archivo lo utiliza el proceso de reentrenamiento automático en AI Center para determinar cuál es la última exportación y así poder entrenar siempre con los datos más recientes, por lo que nunca debe eliminarse o modificarse. De lo contrario, fallarán los procesos de reentrenamiento automático.
Al programar un entrenamiento o un proceso completo en AI Center, hay algunos aspectos que deben tenerse en cuenta.
En primer lugar, te recomendamos encarecidamente crear un conjunto de datos de evaluación y programar únicamente procesos completos. Los procesos completos ejecutan el entrenamiento y la evaluación juntos, y el proceso de evaluación utiliza el conjunto de datos de evaluación para generar una puntuación. Esta puntuación será crucial para decidir si la nueva versión es mejor que la anterior, y se puede implementar para su consumo por parte de los robots.
En segundo lugar, para el proceso completo es necesario especificar dos conjuntos de datos: uno de entrada y otro de evaluación.
No existe ningún cambio en el conjunto de datos de evaluación en el contexto de la función de bucle de ajuste fino automático. Sigue siendo necesario seleccionar un conjunto de datos de la forma habitual, que contenga las dos carpetas (images y latest) y los dos archivos (schema.json y split.csv).
Sin embargo, el conjunto de datos de entrada ya no es un conjunto de datos, sino que es necesario seleccionar la carpeta de exportación en el conjunto de datos del AI Center que está conectado a la sesión de etiquetado de datos. De este modo, el entrenamiento se ejecuta en la última exportación de la sesión de etiquetado de datos, mientras que la evaluación se ejecuta en el mismo conjunto de datos de evaluación que se especifique.
En tercer lugar, hay que establecer la variable de entorno de reentrenamiento automático en Verdadero.
Por último, debes seleccionar Recurrente y establecer un día y una hora para dejar tiempo suficiente para que finalice la exportación desde el Administrador de documentos. Por ejemplo, si la exportación del Administrador de documentos se ejecuta a la 1 de la madrugada del sábado, el proceso podría ejecutarse a las 2 o 3 de la madrugada del sábado. Si la exportación no ha finalizado cuando se ejecuta el proceso, este utilizará la exportación anterior, y podría volver a entrenar con los mismos datos que entrenó la semana anterior.
Si deseas implementar automáticamente la última versión del paquete ML que se genera mediante los procesos de entrenamiento automáticamente programados, puedes habilitar la función de actualización automática en la habilidad ML.
La habilidad ML se actualiza automáticamente independientemente de que la puntuación de precisión haya mejorado con respecto al entrenamiento anterior, de modo que utiliza esta función con precaución.
En algunos casos, es posible que la puntuación global mejore, aunque un campo específico pueda retroceder ligeramente. Sin embargo, ese campo puede ser crítico para tu proceso empresarial, por lo que la actualización y el reciclaje automáticos, en general, requieren una minuciosa supervisión para tener éxito.
El bucle de ajuste fino automático está completo. Ahora puedes reentrenar automáticamente tus modelos ML con datos de la estación de validación.
- Ciclo de vida de un modelo ML
- Fase de construcción
- Fase de mantenimiento
- Componentes del bucle de ajuste fino automático
- Requisitos previos
- 1. Flujo de trabajo del robot: actividad Entrenador de extractor con aprendizaje automático
- 2. Administrador de documentos: característica de programación de exportación
- 3. AI Center: proceso de reentrenamiento automático programado
- 4. (opcional) Habilidades ML de actualización automática