- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Sobre pipelines
Document UnderstandingTM ML Packages can run all three types of pipelines:
Depois de concluída, uma execução de pipeline tem saídas e logs associados. Para ver essas informações, na guia Pipelines da barra lateral esquerda, clique em um pipeline para abrir a Visualização de Pipeline, que consiste em:
- os detalhes do Pipeline, como tipo, nome e versão do pacote de ML, conjunto de dados, uso da GPU, parâmetros e tempo de execução
- o painel Saídas; o qual sempre inclui um arquivo
_results.json
contendo um resumo dos detalhes do Pipeline - a página Logs; os logs também podem ser obtidos na guia Logs de ML na barra lateral esquerda
evaluation_scores_<package name>.txt
- Este arquivo contém pontuações de Precisão para todos os campos.evaluation_<package name>.xlsx
- Este arquivo contém a análise detalhada da precisão por campo e por lote, bem como a comparação lado a lado para cada campo, com destaque em cores para campos perdidos (vermelho) ou parcialmente correspondentes (amarelo).evaluation_F1_scores.txt
– Este arquivo contém as pontuações F1 para todos os campos.
As correspondências parciais que usam a distância Levenshtein são o método de pontuação padrão em campos com Tipo de Conteúdo: String. Todos os outros Tipos de Conteúdo (Datas, Números, Números de ID, Números de Telefone) usam apenas a pontuação de Correspondência Exata.
Para campos String, você pode alterar essa configuração na guia Avançado da caixa de diálogo Configurações de campo na visualização de Tipo de documento do Document Understanding.
Por exemplo, se um conjunto de dados de avaliação tiver 100 documentos e um campo, digamos Número da Ordem de Compra, aparecer em metade dos documentos, se o modelo prever 40 deles corretamente e 10 deles parcialmente corretos com uma distância de Levenshtein de 0,8, então o a precisão seria (40 + 10 x 0,8 + 50)/100 = 98%.
Observe que os 50 documentos em que o campo está ausente e o modelo não prevê nada também são contados como previsões bem-sucedidas.
Em pipelines de treinamento, as pontuações são calculadas no conjunto de dados de validação. O conjunto de dados de validação é um subconjunto selecionado aleatoriamente de 20% do conjunto de dados de treinamento total enviado no pipeline de treinamento.
Os pipelines de treinamento ou os pipelines completos também podem ser usados para:
- Ajustar os modelos de ML com dados da Estação de Validação
- Ajuste fino automático de um modelo de ML
Os pipelines de treinamento e os pipelines completos suportam conjuntos de treinamento com no máximo 18.000 páginas rotuladas.