- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador de CapturaFlexible
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 4506T: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Pasaportes: paquete ML
- Nóminas - - Paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Requisitos de hardware
- Procesos
- Acerca de los procesos
- Procesos de entrenamiento
- Procesos de evaluación
- Procesos completos
- Ajuste preciso
- Administrador de documentos
- Servicios de OCR
- Aprendizaje profundo
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Licencia
- Actividades
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Procesos de entrenamiento
Tamaño mínimo del conjunto de datos
Dataset Creation Failed
.
Entrenamiento en la GPU frente a la CPU
Infraestructura | <2021.10.x | 2021.10.x | >2021.10.x |
---|---|---|---|
CPU | 500 páginas | 5000 páginas | 1000 páginas |
GPU | 18 000 páginas | 18 000 páginas | 18 000 páginas |
Para obtener más información sobre la estructura del conjunto de datos, consulta la sección Formato del conjunto de datos.
Hay dos maneras de entrenar un modelo ML:
- entrenar un modelo desde cero
- reentrenamiento de un modelo listo para usar
El entrenamiento de un modelo desde cero puede hacerse con el paquete ML DocumentUnderstanding, que lo hace sobre el conjunto de datos proporcionado como entrada.
El reentrenamiento puede realizarse con paquetes ML listos para usar, como Facturas, Recibos, Órdenes de compra, Facturas de servicios públicos, Facturas de India, Facturas de Australia, etc. Básicamente, cualquier otro paquete ML de extracción de datos, excepto DocumentUnderstanding. El entrenamiento con uno de estos paquetes tiene una entrada adicional: un modelo base. Lo llamamos reentrenamiento porque no se parte de cero, sino de un modelo base. Este enfoque usa una técnica llamada Aprendizaje de transferencia, en la que el modelo aprovecha la información codificada en otro modelo: el preexistente. El modelo conserva parte de los conocimientos previos, pero también aprende de los nuevos datos. Sin embargo, a medida que aumenta el tamaño del conjunto de datos de entrenamiento, el modelo base preentrenado importa cada vez menos. Es relevante sobre todo para conjuntos de datos de entrenamiento de tamaño pequeño o medio (hasta 500-800 páginas).
Configura el proceso de entrenamiento como sigue:
- En el campo Tipo de proceso, selecciona Ejecución de entrenamiento.
- En el campo Elegir paquete, selecciona el paquete que has creado basándote en el Paquete ML de DocumentUnderstanding.
- En el campo Elegir la versión principal del paquete, selecciona una versión principal para tu paquete.
- In the Choose package minor version field, select a minor version for your package. It is strongly recommended to always use minor version 0 (zero). Check the Choosing the minor version section below for more information.
- En el campo Escoger conjunto de datos de entrada, selecciona un conjunto de datos tal y como se muestra a continuación en el vídeo de esta página. Para crear conjuntos de datos de entrenamiento de alta calidad, consulta este tutorial.
- En la sección Introducir parámetros, escribe cualquier variable de entorno definida y utilizada por tu proceso, si la hubiera. Para la mayoría de los casos de uso, no es necesario especificar ningún parámetro; el modelo usa técnicas avanzadas para encontrar una configuración eficaz. Sin embargo, aquí hay algunas variables de entorno que podrías usar:
model.epochs
que personaliza el número de epochs para el proceso de entrenamiento (el valor predeterminado es 100).Nota: para conjuntos de datos más grandes, que contienen más de 5000 páginas, puedes realizar inicialmente una ejecución de proceso completa con el número predeterminado de épocas. Esto te permite evaluar la precisión del modelo. Después de eso, puedes reducir el número de épocas a aproximadamente 30-40. Este enfoque te permite comparar la precisión de los resultados y determinar si la reducción de épocas produce una precisión comparable.Al utilizar conjuntos de datos más pequeños, en particular aquellos con menos de 5000 páginas, puedes mantener el número predeterminado de épocas.
- Selecciona si quieres entrenar el proceso en la GPU o en la CPU. El control deslizante Habilitar GPU está deshabilitado de forma predeterminada, en cuyo caso el proceso se entrena en la CPU.
-
Selecciona una de las opciones sobre cuándo debe ejecutarse el proceso: Ejecutar ahora, Basado en el tiempo o Recurrente. En caso de que estés usando la variable
auto_retraining
, selecciona Recurrente. - Tras configurar todos los campos, haz clic en Crear. El proceso se creará.
Este es un ejemplo de creación de un nuevo proceso de entrenamiento con un conjunto de datos previamente exportado a AI Center:
In most situations, minor version 0 should be chosen. This is because the larger and more diverse your training dataset, the better your model's performance. This principle aligns with the current state-of-the-art ML technology's goal of using large, high-quality, and representative training sets. Therefore, as you accumulate more training data for a model, you should add the data to the same dataset to further enhance the model's performance.
There are situations, however, where training on a minor version other than 0 makes sense. This is typically the case when a partner needs to service multiple customers in the same industry, but UiPath® doesn't have a pre-trained model optimized for that industry, geography, or document type.
In such a case, the partner might develop a pre-trained model using a variety of document samples from that industry (not from a single source, but from many for better generalization). This model would be used as a base model to train specific customer models, being trained on version 0 of the ML package. Following versions, like version 1, would be used to refine either the pre-trained model or create customer-specific models.
However, to obtain good results, the pre-trained model should be unbiased and based on a highly diverse training set. If the base model is optimized for a specific customer, it may not perform well for other customers. In such a case, using the zero minor version as a base model yields better results.