- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Paquetes ML
- Procesos
- Acerca de los procesos
- Procesos de entrenamiento
- Procesos de evaluación
- Procesos completos
- Ajuste preciso
- Bucle de ajuste preciso automático (vista previa pública)
- Administrador de documentos
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Bucle de ajuste preciso automático (vista previa pública)
A la hora de entrenar/reentrenar un modelo ML, lo primero que hay que tener en cuenta es que los mejores resultados se obtienen acumulando todos los datos en un único conjunto de datos grande e, idealmente, minuciosamente conservado. Entrenar en el conjunto de datos A y luego volver a entrenar el modelo resultante en el conjunto de datos B generará resultados claramente peores que entrenar en el conjunto de datos combinado A+B.
En segundo lugar, hay que tener en cuenta que no todos los datos son iguales. Los datos etiquetados en una herramienta dedicada como Administrador de documentos son, en general, de mejor calidad y darán lugar a un modelo con mejor resultado que los datos etiquetados en herramientas con un enfoque diferente como la Estación de validación. Los datos de la Estación de validación pueden ser de alta calidad desde el punto de vista de los procesos empresariales, pero no tanto desde el punto de vista del entrenamiento del modelo, ya que un modelo ML necesita datos en un formato muy específico, que casi siempre es distinto del que necesitan los procesos empresariales. Por ejemplo, en una factura de 10 páginas, el número de factura puede aparecer en cada una de ellas, pero en la Estación de validación basta con indicarlo en la primera página, mientras que en el Administrador de documentos habría que etiquetarlo en todas las páginas. En este caso, falta el 90 % de las etiquetas correctas en los datos de la Estación de validación. Por esta razón, los datos de la Estación de validación tienen una utilidad limitada, como se ha descrito anteriormente.
Para entrenar con eficacia un modelo ML, se necesita un conjunto de datos único, completo, de alta calidad y representativo. Por lo tanto, un enfoque acumulativo consiste en añadir más datos al conjunto de datos de entrada y, por lo tanto, entrenar el modelo ML con un conjunto de datos cada vez mayor. Una forma de hacerlo es utilizar el bucle de ajuste fino automático.
Para comprender mejor esta función, veamos dónde encaja el ajuste fino automático en el ciclo de vida del modelo ML.