Document Understanding
Más reciente
False
Imagen de fondo del banner
Guía del usuario de Document Understanding
Última actualización 30 de abr. de 2024

Procesos de entrenamiento

Consejo: la capacidad de entrenar a los extractores y clasificadores ahora es más conveniente gracias al producto Document Understanding (en lugar del servicio AI Center), aprovechando las funciones Extracción en un clic y Clasificación en un clic.
Importante:

Tamaño mínimo del conjunto de datos

Para ejecutar correctamente un proceso de entrenamiento, recomendamos encarecidamente un mínimo de 10 documentos y al menos 5 muestras de cada campo etiquetado de tu conjunto de datos. En caso contrario, el proceso genera el siguiente error: Dataset Creation Failed.

Entrenamiento en la GPU frente a la CPU

  • Para conjuntos de datos más grandes, debes entrenar con GPU. Además, usar una GPU para el entrenamiento es al menos 10 veces más rápido que una CPU.
  • El entrenamiento en la CPU solo es compatible con conjuntos de datos de hasta 5000 páginas para paquetes ML v21.10.x y de hasta 1000 páginas para otras versiones de paquetes ML.
  • El entrenamiento en la CPU estaba limitado a 500 páginas antes de la versión 2021.10, ascendió a 5000 páginas para la 2021.10, y con la 2022.4 regresó a un máximo de 1000 páginas.

Para obtener más información sobre la estructura del conjunto de datos, consulta la sección Formato del conjunto de datos.

Hay dos maneras de entrenar un modelo ML:

  • entrenar un modelo desde cero
  • reentrenamiento de un modelo listo para usar

El entrenamiento de un modelo desde cero puede hacerse con el paquete ML DocumentUnderstanding, que lo hace sobre el conjunto de datos proporcionado como entrada.

El reentrenamiento puede realizarse con paquetes ML listos para usar, como Facturas, Recibos, Órdenes de compra, Facturas de servicios públicos, Facturas de India, Facturas de Australia, etc. Básicamente, cualquier otro paquete ML de extracción de datos, excepto DocumentUnderstanding. El entrenamiento con uno de estos paquetes tiene una entrada adicional: un modelo base. Lo llamamos reentrenamiento porque no se parte de cero, sino de un modelo base. Este enfoque usa una técnica llamada Aprendizaje de transferencia, en la que el modelo aprovecha la información codificada en otro modelo: el preexistente. El modelo conserva parte de los conocimientos previos, pero también aprende de los nuevos datos. Sin embargo, a medida que aumenta el tamaño del conjunto de datos de entrenamiento, el modelo base preentrenado importa cada vez menos. Es relevante sobre todo para conjuntos de datos de entrenamiento de tamaño pequeño o medio (hasta 500-800 páginas).

Configura el proceso de entrenamiento como sigue:

  • En el campo Tipo de proceso, selecciona Ejecución de entrenamiento.
  • En el campo Elegir paquete, selecciona el paquete que has creado basándote en el Paquete ML de DocumentUnderstanding.
  • En el campo Elegir la versión principal del paquete, selecciona una versión principal para tu paquete.
  • En el campo Elegir la versión secundaria del paquete, selecciona una versión secundaria para tu paquete. Se recomienda encarecidamente usar siempre la versión menor 0 (cero).
  • En el campo Escoger conjunto de datos de entrada, selecciona un conjunto de datos tal y como se muestra a continuación en el vídeo de esta página. Para crear conjuntos de datos de entrenamiento de alta calidad, consulta este tutorial.
  • En la sección Introducir parámetros, escribe cualquier variable de entorno definida y utilizada por tu proceso, si la hubiera. Para la mayoría de los casos de uso, no es necesario especificar ningún parámetro; el modelo usa técnicas avanzadas para encontrar una configuración eficaz. Sin embargo, aquí hay algunas variables de entorno que podrías usar:
  • auto_retraining, que te permite completar el Bucle de reentrenamiento automático; si la variable se establece como Verdadero, el conjunto de datos de entrada debe ser la carpeta de exportación asociada a la sesión de etiquetado en la que se etiquetan los datos; si la variable permanece como Falso, el conjunto de datos de entrada debe corresponder al siguiente formato del conjunto de datos.
  • model.epochs que personaliza el número de epochs para el proceso de entrenamiento (el valor predeterminado es 100). Optional.
  • Para los paquetes ML v23.4 o posterior, el entrenamiento en conjuntos de datos menores de 400 páginas utiliza un enfoque llamado Frozen Backbone para acelerar el entrenamiento y mejorar el rendimiento. Sin embargo, tienes la opción de anular este comportamiento y forzar el Entrenamiento completo incluso para conjuntos de datos más pequeños, o a la inversa, forzar entrenamiento de Backbone congelado incluso para conjuntos de datos más grandes (hasta un máximo de 3000 páginas). Puedes utilizar las siguientes variables de entorno, con la condición de combinarlas cuando estén en uso, bien utiliza la primera y la segunda, o la primera y la tercera variables juntas. Optional.
    • model.override_finetune_freeze_backbone_mode=True: incluye esta variable de entorno para anular el comportamiento predeterminado. Esto es necesario en las dos situaciones siguientes.
    • model.finetune_freeze_backbone_mode=True: incluye esta variable de entorno para forzar al modelo a utilizar Frozen Backbone incluso para conjuntos de datos más grandes.
    • model.finetune_freeze_backbone_mode=False: incluye esta variable de entorno para forzar al modelo a utilizar entrenamiento completo incluso para conjuntos de datos más pequeños.
  • Selecciona si quieres entrenar el proceso en la GPU o en la CPU. El control deslizante Habilitar GPU está deshabilitado de forma predeterminada, en cuyo caso el proceso se entrena en la CPU.
  • Selecciona una de las opciones respecto a cuándo debe ejecutarse el proceso: Ejecutar ahora, Basado en tiempo o Recurrente. Si estás usando la variable auto_retraining, selecciona Recurrente.


  • Tras configurar todos los campos, haz clic en Crear. El proceso se creará.

Este es un ejemplo de creación de un nuevo proceso de entrenamiento con un conjunto de datos previamente exportado a AI Center:



Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.