- Primeros pasos
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Procesos
- Gestor de datos
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Procesos de entrenamiento
Tamaño mínimo del conjunto de datos
Dataset Creation Failed
.
Entrenamiento en la GPU frente a la CPU
Para conjuntos de datos más grandes, es necesario entrenar con la GPU. Sin embargo, utilizar una GPU (AI Robot Pro) para el entrenamiento es como mínimo cinco veces más lento que utilizar una CPU (AI Robot).
El entrenamiento en CPU solo se admite para conjuntos de datos de hasta 5000 páginas de tamaño para Paquetes ML v21.10.x y de hasta 1000 páginas para otras versiones de Paquetes ML. El entrenamiento en la CPU en lugar de en la GPU también puede dar lugar a un modelo menos preciso (entre un 0 y un 5 %).
El entrenamiento de la CPU estaba limitado a 500 páginas antes de 2021.10, ascendió a 5000 páginas para 2021.10, y con 2022.4 volverá a descender a 1000 páginas como máximo.
Hay dos maneras de entrenar un modelo ML:
- entrenar un modelo desde cero
- reentrenamiento de un modelo listo para usar
El entrenamiento de un modelo desde cero puede hacerse con el paquete ML DocumentUnderstanding, que lo hace sobre el conjunto de datos proporcionado como entrada.
El reentrenamiento puede realizarse con paquetes ML listos para usar, como Facturas, Recibos, Órdenes de compra, Facturas de servicios públicos, Facturas de India, Facturas de Australia, etc. Básicamente, cualquier otro paquete ML de extracción de datos, excepto DocumentUnderstanding. El entrenamiento con uno de estos paquetes tiene una entrada adicional: un modelo base. Lo llamamos reentrenamiento porque no se parte de cero, sino de un modelo base. Este enfoque usa una técnica llamada Aprendizaje de transferencia, en la que el modelo aprovecha la información codificada en otro modelo: el preexistente. El modelo conserva parte de los conocimientos previos, pero también aprende de los nuevos datos. Sin embargo, a medida que aumenta el tamaño del conjunto de datos de entrenamiento, el modelo base preentrenado importa cada vez menos. Es relevante sobre todo para conjuntos de datos de entrenamiento de tamaño pequeño o medio (hasta 500-800 páginas).
Configura el proceso de reentrenamiento de la siguiente manera:
- En el campo Tipo de proceso, selecciona Ejecución de entrenamiento.
- En el campo Elegir paquete selecciona el paquete que has creado basado en un paquete ML listo para usar.
- En el campo Elegir la versión principal del paquete, selecciona una versión principal para tu paquete.
- En el campo Elegir la versión secundaria del paquete, selecciona una versión secundaria para tu paquete. Se recomienda encarecidamente usar siempre la versión menor 0 (cero).
- En el campo Elegir conjunto de datos de entrada, selecciona un conjunto de datos de entrenamiento representativo.
- En la sección Introducir parámetros, escribe las variables de entorno definidas y utilizadas por tu proceso, si las hubiera. Para la mayoría de los casos de uso, no es necesario especificar ningún parámetro; el modelo usa técnicas avanzadas para encontrar una configuración eficaz. Sin embargo, aquí hay algunas variables de entorno que podrías usar:
auto_retraining
, que te permite completar el Bucle de reentrenamiento automático; si la variable se establece como Verdadero, el conjunto de datos de entrada debe ser la carpeta de exportación asociada a la sesión de etiquetado en la que se etiquetan los datos; si la variable permanece como Falso, el conjunto de datos de entrada debe corresponder al siguiente formato del conjunto de datos.model.epochs
que personaliza el número de epochs para el proceso de entrenamiento (el valor predeterminado es 100).- Selecciona si quieres entrenar el proceso en la GPU o en la CPU. El control deslizante Habilitar GPU está deshabilitado de forma predeterminada, en cuyo caso el proceso se entrena en la CPU.
-
Selecciona una de las opciones sobre cuándo debe ejecutarse el proceso: Ejecutar ahora, Basado en el tiempo o Recurrente. En caso de que estés usando la variable
auto_retraining
, selecciona Recurrente.
Tras configurar todos los campos, haz clic en Crear. El proceso se creará.