document-understanding

latest

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do usuário clássico do Document Understanding

Sobre pipelines

Dica:

A capacidade de treinar extratores e classificadores agora é mais conveniente para aproveitar as funcionalidades Extração em um clique e Classificação em um clique .

Pacotes de ML do Document Understanding podem executar todos os três tipos de pipelines:

Depois de concluída, uma execução de pipeline tem saídas e logs associados. Para ver essas informações, na guia Pipelines da barra lateral esquerda, clique em um pipeline para abrir a Visualização de Pipeline, que consiste em:

os detalhes do Pipeline, como tipo, nome e versão do pacote de ML, conjunto de dados, uso da GPU, parâmetros e tempo de execução
o painel Saídas ; sempre inclui um arquivo _results.json contendo um resumo dos detalhes do Pipeline
a página Logs; os logs também podem ser obtidos na guia Logs de ML na barra lateral esquerda

Todos os pipelines retornam pontuações em três arquivos diferentes:

evaluation_scores_<package name>.txt - Este arquivo contém pontuações de Precisão para todos os campos.
evaluation_<package name>.xlsx - Este arquivo contém a análise detalhada da precisão por campo e por lote, bem como a comparação lado a lado para cada campo, com destaque em cores para campos perdidos (vermelho) ou parcialmente correspondentes (amarelo).
evaluation_F1_scores.txt – Este arquivo contém as pontuações F1 para todos os campos.

A precisão é obtida dividindo o número de correspondências pelo número total de previsões. Uma correspondência recebe um peso 1, enquanto uma correspondência parcial recebe um peso correspondente à distância de Levenshtein entre a previsão e o valor verdadeiro.

As correspondências parciais que usam a distância Levenshtein são o método de pontuação padrão em campos com Tipo de Conteúdo: String. Todos os outros Tipos de Conteúdo (Datas, Números, Números de ID, Números de Telefone) usam apenas a pontuação de Correspondência Exata.

Para campos String, você pode alterar essa configuração na guia Avançado da caixa de diálogo Configurações de campo na visualização de Tipo de documento do Document Understanding.

Por exemplo, se um conjunto de dados de avaliação tiver 100 documentos e um campo, digamos Número da Ordem de Compra, aparecer em metade dos documentos, se o modelo prever 40 deles corretamente e 10 deles parcialmente corretos com uma distância de Levenshtein de 0,8, então o a precisão seria (40 + 10 x 0,8 + 50)/100 = 98%.

Observe que os 50 documentos em que o campo está ausente e o modelo não prevê nada também são contados como previsões bem-sucedidas.

Em pipelines de treinamento, as pontuações são calculadas no conjunto de dados de validação. O conjunto de dados de validação é um subconjunto selecionado aleatoriamente de 20% do conjunto de dados de treinamento total enviado no pipeline de treinamento.

Os pipelines de treinamento ou os pipelines completos também podem ser usados para:

Ajustar os modelos de ML com dados da Validation Station
Ajuste fino automático de um modelo de ML
Observação:
Os Pipelines de Treinamento e Pipelines completos são compatíveis com conjuntos de treinamento com no máximo 18.000 páginas rotuladas.

Esta página foi útil?

AnteriorConfiguração de OCR

AvançarTermos e definições