- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Detalhes do modelo
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Dados e segurança
- Lógica de licenciamento e carregamento

Document Understanding classic user guide
Sobre pipelines
The ability to train extractors and classifiers is now more convenient be leveraging the One Click Extraction and the One Click Classification features.
Pacotes de ML do Document Understanding podem executar todos os três tipos de pipelines:
Depois de concluída, uma execução de pipeline tem saídas e logs associados. Para ver essas informações, na guia Pipelines da barra lateral esquerda, clique em um pipeline para abrir a Visualização de Pipeline, que consiste em:
- the Pipeline details such as type, ML Package name and version, dataset, GPU usage, parameters, and execution time
- the Outputs pane; this always includes a
_results.jsonfile containing a summary of the Pipeline details - the Logs page; the logs can also be obtained in the ML Logs tab from the left sidebar
Todos os pipelines retornam pontuações em três arquivos diferentes:
evaluation_scores_<package name>.txt- Este arquivo contém pontuações de Precisão para todos os campos.evaluation_<package name>.xlsx- Este arquivo contém a análise detalhada da precisão por campo e por lote, bem como a comparação lado a lado para cada campo, com destaque em cores para campos perdidos (vermelho) ou parcialmente correspondentes (amarelo).evaluation_F1_scores.txt– Este arquivo contém as pontuações F1 para todos os campos.
A precisão é obtida dividindo o número de correspondências pelo número total de previsões. Uma correspondência recebe um peso 1, enquanto uma correspondência parcial recebe um peso correspondente à distância de Levenshtein entre a previsão e o valor verdadeiro.
As correspondências parciais que usam a distância Levenshtein são o método de pontuação padrão em campos com Tipo de Conteúdo: String. Todos os outros Tipos de Conteúdo (Datas, Números, Números de ID, Números de Telefone) usam apenas a pontuação de Correspondência Exata.
Para campos String, você pode alterar essa configuração na guia Avançado da caixa de diálogo Configurações de campo na visualização de Tipo de documento do Document Understanding.
Por exemplo, se um conjunto de dados de avaliação tiver 100 documentos e um campo, digamos Número da Ordem de Compra, aparecer em metade dos documentos, se o modelo prever 40 deles corretamente e 10 deles parcialmente corretos com uma distância de Levenshtein de 0,8, então o a precisão seria (40 + 10 x 0,8 + 50)/100 = 98%.
Observe que os 50 documentos em que o campo está ausente e o modelo não prevê nada também são contados como previsões bem-sucedidas.
Em pipelines de treinamento, as pontuações são calculadas no conjunto de dados de validação. O conjunto de dados de validação é um subconjunto selecionado aleatoriamente de 20% do conjunto de dados de treinamento total enviado no pipeline de treinamento.
Os pipelines de treinamento ou os pipelines completos também podem ser usados para:
- Fine-tune ML models with data from Validation Station
- Auto-Fine-tune an ML model
Observação:
Training Pipelines and Full Pipelines support training sets of maximum 18.000 labelled pages.