- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Detalhes do modelo
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Dados e segurança
- Lógica de licenciamento e carregamento

Document Understanding classic user guide
Pipelines completos
Um pipeline completo (Full) executa um pipeline de treinamento (Training) e um pipeline de avaliação (Evaluation) juntos.
Minimal dataset size For successfully running a Training pipeline, we strongly recommend minimum 10 documents and at least 5 samples from each labeled field in your dataset. Otherwise, the pipeline throws the following error: Dataset Creation Failed. Training on GPU vs CPU
- Para conjuntos de dados maiores, você precisa treinar usando GPU. Além disso, usar uma GPU para treinamento é pelo menos 10 vezes mais rápido do que usar uma CPU.
- O treinamento na CPU só é compatível com conjuntos de dados de até 5.000 páginas para Pacotes de ML v21.10.x e até 1.000 páginas para outras versões de Pacotes de ML.
- O treinamento em CPU foi limitado a 500 páginas para versões anteriores a 2021.10, subiu para 5.000 páginas em 2021.10 e, na versão 2022.4, voltou para 1.000 páginas no máximo.
Treinar e avaliar simultaneamente um modelo
Configure o pipeline de treinamento da seguinte maneira:
-
No campo Pipeline type, selecione Full Pipeline run.
-
No campo Escolher pacote, selecione o pacote que deseja treinar e avaliar.
-
No campo Escolha a versão principal do pacote, selecione uma versão principal para o seu pacote.
-
No campo Escolha a versão secundária do pacote, selecione uma versão secundária para seu pacote. É altamente recomendável usar sempre a versão secundária 0 (zero).
-
In the Choose input dataset field, select a representative training dataset.
-
In the Choose evaluation dataset field, select a representative evaluation dataset.
-
Na seção Inserir parâmetros, insira as variáveis de ambiente definidas e usadas por seu pipeline, se houver. Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado; o modelo está usando técnicas avançadas para encontrar uma configuração de desempenho. No entanto, aqui estão algumas variáveis de ambiente que você pode usar:
-
auto_retrainingwhich allows you to complete the Auto-retraining Loop; if the variable is set to True, then the input dataset needs to be the export folder associated with the labeling session where the data is tagged; if the variable remains set to False, then the input dataset needs to correspond to the dataset format. -
model.epochsque personaliza o número de épocas para o pipeline de treinamento (o valor padrão é 100). -
Selecione se deseja treinar o pipeline na GPU ou na CPU. O controle deslizante Habilitar GPU está desabilitado por padrão, nesse caso o pipeline é treinado na CPU. O uso de uma GPU para treinamento é pelo menos 10 vezes mais rápido do que usar uma CPU. Além disso, o treinamento na CPU é suportado apenas para conjuntos de dados de até 1000 imagens. Para conjuntos de dados maiores, você precisa treinar usando GPU.
-
Selecione uma das opções quando o pipeline deve ser executado: Executar agora, Agendado ou Recorrente. Caso esteja usando a variável
auto_retraining, selecione Recorrente.
-
Após configurar todos os campos, clique em Criar. O pipeline é criado.
Artefatos
Para um pipeline completo, o painel Saídas também inclui uma pasta artifacts/eval_metrics que contém dois arquivos:

evaluation_default.xlsxé uma planilha do Excel com uma comparação lado a lado da informação real versus o valor previsto para cada campo previsto pelo modelo, bem como uma métrica de precisão por documento, em ordem crescente de precisão. Assim, os documentos mais imprecisos são apresentados na parte superior para facilitar o diagnóstico e a solução de problemas.evaluation_metrics_default.txtcontains the F1 scores of the fields which were predicted. For line items, a global score is obtained for all columns taken together.