UiPath Documentation
document-understanding
latest
false
Importante :
La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.
UiPath logo, featuring letters U and I in white

Document Understanding classic user guide

Última actualización 23 de abr. de 2026

Procesos de entrenamiento

Consejo:

The ability to train extractors and classifiers is now more convenient by using Document UnderstandingTM product (rather than the AI Center service), by leveraging the One Click Extraction and the One Click Classification features.

Importante:

Minimal dataset size For successfully running a Training pipeline, we strongly recommend minimum 10 documents and at least 5 samples from each labeled field in your dataset. Otherwise, the pipeline throws the following error: Dataset Creation Failed. Training on GPU vs CPU For larger datasets, you need to train using GPU. Moreover, using a GPU for training is at least 10 times faster than using a CPU. For the maximum dataset size depeding on the version and infrastructure, check the table below.

Table 1. Maximum dataset for each version

Infraestructura<2021.10.x2021.10.x>2021.10.x
CPU500 páginas5000 páginas1000 páginas
GPU18 000 páginas18 000 páginas18 000 páginas

If you are encountering failed pipelines when training large datasets, we recommend upgrading to ML packages version 24.4 or newer. The most recent versions provide stability enhancements, which could significantly reduce these issues. For more information on dataset structure, check the Dataset format section.

Hay dos maneras de entrenar un modelo ML:

  • entrenar un modelo desde cero
  • reentrenamiento de un modelo listo para usar

El entrenamiento de un modelo desde cero puede hacerse con el paquete ML DocumentUnderstanding, que lo hace sobre el conjunto de datos proporcionado como entrada.

El reentrenamiento puede realizarse con paquetes ML listos para usar, como Facturas, Recibos, Órdenes de compra, Facturas de servicios públicos, Facturas de India, Facturas de Australia, etc. Básicamente, cualquier otro paquete ML de extracción de datos, excepto DocumentUnderstanding. El entrenamiento con uno de estos paquetes tiene una entrada adicional: un modelo base. Lo llamamos reentrenamiento porque no se parte de cero, sino de un modelo base. Este enfoque usa una técnica llamada Aprendizaje de transferencia, en la que el modelo aprovecha la información codificada en otro modelo: el preexistente. El modelo conserva parte de los conocimientos previos, pero también aprende de los nuevos datos. Sin embargo, a medida que aumenta el tamaño del conjunto de datos de entrenamiento, el modelo base preentrenado importa cada vez menos. Es relevante sobre todo para conjuntos de datos de entrenamiento de tamaño pequeño o medio (hasta 500-800 páginas).

Configura el proceso de entrenamiento como sigue:

  • En el campo Tipo de proceso, selecciona Ejecución de entrenamiento.

  • En el campo Elegir paquete, selecciona el paquete que has creado basándote en el Paquete ML de DocumentUnderstanding.

  • En el campo Elegir la versión principal del paquete, selecciona una versión principal para tu paquete.

  • In the Choose package minor version field, select a minor version for your package. Check the Choosing the minor version section below for more information.

  • In the Choose input dataset field, select a dataset as shown in the video below on this page. For building high quality training datasets, you can check this tutorial.

  • En la sección Introducir parámetros, escribe cualquier variable de entorno definida y utilizada por tu proceso, si la hubiera. Para la mayoría de los casos de uso, no es necesario especificar ningún parámetro; el modelo usa técnicas avanzadas para encontrar una configuración eficaz. Sin embargo, aquí hay algunas variables de entorno que podrías usar:

  • auto_retraining which allows you to complete the Auto-retraining Loop; if the variable is set to True, then the input dataset needs to be the export folder associated with the labeling session where the data is tagged; if the variable remains set to False, then the input dataset needs to correspond to the dataset format.

  • model.epochs que personaliza el número de epochs para el proceso de entrenamiento (el valor predeterminado es 100). Optional.

    Nota:

    For larger datasets, containing more than 5000 pages, you can initially perform a full pipeline run with the default number of epochs. This allows you to evaluate the model’s accuracy. After that, you can decrease the number of epochs to about 30-40. This approach allows you to compare the accuracy of the results and determine if the reduction of epochs yields comparable precision. When using smaller datasets, in particular those with fewer than 5000 pages, you can maintain the default number of epochs.

  • For ML Packages v23.4 or higher, training on datasets smaller than 400 pages uses an approach called Frozen Backbone to accelerate the training and improve performance. However, you have the option to override this behavior and force Full Training even for smaller datasets, or conversely, to force Frozen Backbone training even for larger datasets (up to a maximum of 3000 pages). You can use the following environment variables, with the condition to combine them when in use, either use the first and the second, or the first and the third variables together. Optional.

    • model.override_finetune_freeze_backbone_mode=True: incluye esta variable de entorno para anular el comportamiento predeterminado. Esto es necesario en las dos situaciones siguientes.
    • model.finetune_freeze_backbone_mode=True: incluye esta variable de entorno para forzar al modelo a utilizar Frozen Backbone incluso para conjuntos de datos más grandes.
    • model.finetune_freeze_backbone_mode=False: incluye esta variable de entorno para forzar al modelo a utilizar entrenamiento completo incluso para conjuntos de datos más pequeños.
  • Selecciona si quieres entrenar el proceso en la GPU o en la CPU. El control deslizante Habilitar GPU está deshabilitado de forma predeterminada, en cuyo caso el proceso se entrena en la CPU.

  • Selecciona una de las opciones respecto a cuándo debe ejecutarse el proceso: Ejecutar ahora, Basado en tiempo o Recurrente. Si estás usando la variable auto_retraining, selecciona Recurrente.

    Imagen de documentos

  • Tras configurar todos los campos, haz clic en Crear. El proceso se creará.

Este es un ejemplo de creación de un nuevo proceso de entrenamiento con un conjunto de datos previamente exportado a AI Center:

Imagen de documentos

Elegir la versión menor

In most situations, minor version 0 should be chosen. This is because the larger and more diverse your training dataset, the better your model's performance. This principle aligns with the current state-of-the-art ML technology's goal of using large, high-quality, and representative training sets. Therefore, as you accumulate more training data for a model, you should add the data to the same dataset to further enhance the model's performance.

There are situations, however, where training on a minor version other than 0 makes sense. This is typically the case when a partner needs to service multiple customers in the same industry, but UiPath® doesn't have a pre-trained model optimized for that industry, geography, or document type.

In such a case, the partner might develop a pre-trained model using a variety of document samples from that industry (not from a single source, but from many for better generalization). This model would be used as a base model to train specific customer models, being trained on version 0 of the ML package. Following versions, like version 1, would be used to refine either the pre-trained model or create customer-specific models.

Sin embargo, para obtener buenos resultados, el modelo preentrenado debe ser imparcial y basarse en un conjunto de entrenamiento altamente diverso. Si el modelo base se optimiza para un cliente específico, puede no funcionar bien para otros clientes. En tal caso, utilizar la versión menor cero como modelo base produce mejores resultados.

  • Elegir la versión menor

¿Te ha resultado útil esta página?

Conectar

¿Necesita ayuda? Soporte

¿Quiere aprender? UiPath Academy

¿Tiene alguna pregunta? Foro de UiPath

Manténgase actualizado