document-understanding
2022.10
false
- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Pipelines
- Document Manager
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Aprendizagem profunda
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Pipelines completos
Guia do usuário do Document Understanding.
Last updated 4 de set de 2024
Pipelines completos
Um pipeline completo (Full) executa um pipeline de treinamento (Training) e um pipeline de avaliação (Evaluation) juntos.
Importante:
Tamanho mínimo do conjunto de dados
Para executar com êxito um pipeline de treinamento, recomendamos pelo menos 25 documentos e 10 amostras de cada campo rotulado em seu conjunto de dados. Caso contrário, o pipeline gera o seguinte erro:
Dataset Creation Failed
.
Treinamento em GPU vs CPU
- Para conjuntos de dados maiores, você precisa treinar usando GPU. Além disso, usar uma GPU (Robô de IA Pro) para treinamento é pelo menos 10 vezes mais rápido do que usar uma CPU (Robô de IA).
- O treinamento na CPU só é compatível com conjuntos de dados de até 5.000 páginas para Pacotes de ML v21.10.x e até 1.000 páginas para outras versões de Pacotes de ML.
- O treinamento em CPU foi limitado a 500 páginas para versões anteriores a 2021.10, subiu para 5.000 páginas em 2021.10 e, na versão 2022.4, voltou para 1.000 páginas no máximo.
Configure o pipeline de treinamento da seguinte maneira:
- No campo Pipeline type, selecione Full Pipeline run.
- No campo Escolha o pacote, selecione o pacote que deseja treinar e avaliar.
- No campo Escolha a versão principal do pacote, selecione uma versão principal para o seu pacote.
- No campo Escolha a versão secundária do pacote, selecione uma versão secundária para seu pacote. É altamente recomendável usar sempre a versão secundária 0 (zero).
- No campo Escolha o conjunto de dados de entrada, selecione um conjunto de dados de treinamento representativo.
- No campo Escolher conjunto de dados de avaliação, selecione um conjunto de dados de avaliação representativo.
- Na seção Inserir parâmetros, insira as variáveis de ambiente definidas e usadas por seu pipeline, se houver. Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado; o modelo está usando técnicas avançadas para encontrar uma configuração de desempenho. No entanto, aqui estão algumas variáveis de ambiente que você pode usar:
auto_retraining
que permite completar o Loop de retreinamento automático; se a variável for definida como True, o conjunto de dados de entrada precisará ser a pasta de exportação associada à sessão de rotulagem na qual os dados são marcados; se a variável permanecer definida como False, o conjunto de dados de entrada precisará corresponder ao seguinte formato de conjunto de dados.model.epochs
que personaliza o número de épocas para o pipeline de treinamento (o valor padrão é 100).- Selecione se deseja treinar o pipeline na GPU ou na CPU. O controle deslizante Habilitar GPU está desabilitado por padrão, nesse caso o pipeline é treinado na CPU. Usar uma GPU (Robô de IA Pro) para treinamento é pelo menos 10 vezes mais rápido do que usar uma CPU (Robô de IA). Além disso, o treinamento na CPU é suportado apenas para conjuntos de dados de até 1000 imagens. Para conjuntos de dados maiores, você precisa treinar usando GPU.
-
Selecione uma das opções quando o pipeline deve ser executado: Executar agora, Agendado ou Recorrente. Caso esteja usando a variável
auto_retraining
, selecione Recorrente.
Após configurar todos os campos, clique em Criar. O pipeline é criado.
Para um pipeline de avaliação, o painel Saídas também inclui uma pasta artefatos / eval_metrics que contém dois arquivos:
evaluation_default.xlsx
é uma planilha do Excel com uma comparação lado a lado da informação real versus o valor previsto para cada campo previsto pelo modelo, bem como uma métrica de precisão por documento, em ordem crescente de precisão. Assim, os documentos mais imprecisos são apresentados na parte superior para facilitar o diagnóstico e a solução de problemas.-
evaluation_metrics_default.txt
contém as pontuações F1 dos campos que foram previstos.Para itens de linha, uma pontuação global é obtida para todas as colunas juntas.