UiPath Documentation
document-understanding
latest
false
Importante :
A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Document Understanding classic user guide

Última atualização 23 de abr de 2026

Pipelines de treinamento

Dica:

The ability to train extractors and classifiers is now more convenient by using Document UnderstandingTM product (rather than the AI Center service), by leveraging the One Click Extraction and the One Click Classification features.

Importante:

Minimal dataset size For successfully running a Training pipeline, we strongly recommend minimum 10 documents and at least 5 samples from each labeled field in your dataset. Otherwise, the pipeline throws the following error: Dataset Creation Failed. Training on GPU vs CPU For larger datasets, you need to train using GPU. Moreover, using a GPU for training is at least 10 times faster than using a CPU. For the maximum dataset size depeding on the version and infrastructure, check the table below.

Table 1. Maximum dataset for each version

Infraestrutura<2021.10.x2021.10.x>2021.10.x
CPU500 páginas5000 páginas1.000 páginas
GPU18.000 páginas18.000 páginas18.000 páginas

If you are encountering failed pipelines when training large datasets, we recommend upgrading to ML packages version 24.4 or newer. The most recent versions provide stability enhancements, which could significantly reduce these issues. For more information on dataset structure, check the Dataset format section.

Há duas maneiras de treinar um modelo de ML:

  • treinamento de um modelo do zero
  • retreinamento de um modelo pronto para uso

O treinamento de um modelo do zero pode ser feito usando o pacote de ML DocumentUnderstanding, que faz isso no conjunto de dados fornecido como entrada.

O retreinamento pode ser feito usando pacotes de ML prontos para uso, como faturas, recibos, pedidos de compra, contas de serviços públicos, faturas da Índia, faturas da Austrália etc., basicamente, qualquer outro pacote de ML de extração de dados, exceto DocumentUnderstanding. O treinamento usando um desses pacotes tem uma entrada adicional: um modelo base. Referimo-nos a isso como retreinamento, pois você não está começando do zero, e sim de um modelo base. Essa abordagem utiliza uma técnica chamada Transfer Learning, na qual o modelo aproveita as informações codificadas em outro modelo, aquele preexistente. O modelo retém parte do conhecimento pronto para uso, mas também aprende com os novos dados. No entanto, à medida que o tamanho do conjunto de dados de treinamento aumenta, o modelo base pré-treinado importa cada vez menos. É relevante principalmente para conjuntos de dados de treinamento de pequeno a médio porte (até 500-800 páginas).

Configure o pipeline de treinamento da seguinte maneira:

  • No campo Tipo do pipeline, selecione Execução de treinamento.

  • No campo Escolher pacote, selecione o pacote que você criou com base no Pacote de ML DocumentUnderstanding.

  • No campo Escolha a versão principal do pacote, selecione uma versão principal para o seu pacote.

  • In the Choose package minor version field, select a minor version for your package. Check the Choosing the minor version section below for more information.

  • In the Choose input dataset field, select a dataset as shown in the video below on this page. For building high quality training datasets, you can check this tutorial.

  • Na seção Inserir parâmetros, insira as variáveis de ambiente definidas e usadas por seu pipeline, se houver. Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado; o modelo está usando técnicas avançadas para encontrar uma configuração de desempenho. No entanto, aqui estão algumas variáveis de ambiente que você pode usar:

  • auto_retraining which allows you to complete the Auto-retraining Loop; if the variable is set to True, then the input dataset needs to be the export folder associated with the labeling session where the data is tagged; if the variable remains set to False, then the input dataset needs to correspond to the dataset format.

  • model.epochs que personaliza o número de épocas para o pipeline de treinamento (o valor padrão é 100). Optional.

    Observação:

    For larger datasets, containing more than 5000 pages, you can initially perform a full pipeline run with the default number of epochs. This allows you to evaluate the model’s accuracy. After that, you can decrease the number of epochs to about 30-40. This approach allows you to compare the accuracy of the results and determine if the reduction of epochs yields comparable precision. When using smaller datasets, in particular those with fewer than 5000 pages, you can maintain the default number of epochs.

  • For ML Packages v23.4 or higher, training on datasets smaller than 400 pages uses an approach called Frozen Backbone to accelerate the training and improve performance. However, you have the option to override this behavior and force Full Training even for smaller datasets, or conversely, to force Frozen Backbone training even for larger datasets (up to a maximum of 3000 pages). You can use the following environment variables, with the condition to combine them when in use, either use the first and the second, or the first and the third variables together. Optional.

    • model.override_finetune_freeze_backbone_mode=True — Inclua esta variável de ambiente para substituir o comportamento padrão. Isso é necessário em ambas as situações abaixo.
    • model.finetune_freeze_backbone_mode=True — inclua essa variável de ambiente para forçar o modelo a usar o Frozen Backbone mesmo para conjuntos de dados maiores.
    • model.finetune_freeze_backbone_mode=False - Inclua esta variável de ambiente para forçar o modelo a usar o treinamento completo mesmo para conjuntos de dados menores.
  • Selecione se deseja treinar o pipeline na GPU ou na CPU. O controle deslizante Habilitar GPU está desabilitado por padrão, nesse caso o pipeline é treinado na CPU.

  • Selecione uma das opções para a execução do pipeline: Executar agora, Agendado ou Recorrente. Caso esteja usando a variável auto_retraining, selecione Recorrente.

    Imagem dos documentos

  • Após configurar todos os campos, clique em Criar. O pipeline é criado.

Aqui está um exemplo de criação de um novo pipeline de treinamento com um conjunto de dados previamente exportado para o AI Center:

Imagem dos documentos

Escolhendo a versão secundária

In most situations, minor version 0 should be chosen. This is because the larger and more diverse your training dataset, the better your model's performance. This principle aligns with the current state-of-the-art ML technology's goal of using large, high-quality, and representative training sets. Therefore, as you accumulate more training data for a model, you should add the data to the same dataset to further enhance the model's performance.

There are situations, however, where training on a minor version other than 0 makes sense. This is typically the case when a partner needs to service multiple customers in the same industry, but UiPath® doesn't have a pre-trained model optimized for that industry, geography, or document type.

In such a case, the partner might develop a pre-trained model using a variety of document samples from that industry (not from a single source, but from many for better generalization). This model would be used as a base model to train specific customer models, being trained on version 0 of the ML package. Following versions, like version 1, would be used to refine either the pre-trained model or create customer-specific models.

No entanto, para obter bons resultados, o modelo pré-treinado deve ser imparcial e baseado em um conjunto de dados altamente diversificado.Se o modelo básico for otimizado para um cliente específico, ele pode não ter bom desempenho para outros clientes. Nesse caso, o uso da versão secundária zero como um modelo básico produz melhores resultados.

  • Escolhendo a versão secundária

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades