- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Guia do usuário do Document Understanding.
Diagnóstico do conjunto de dados
Treinar um novo modelo do zero às vezes pode ser um trabalho muito exigente.
O recurso Dataset Diagnostics ajuda a criar conjuntos de dados eficazes fornecendo feedback e dicas das etapas necessárias para obter uma boa precisão para o modelo treinado.
Localizado na Barra de Gerenciamento do Document Manager, o Dataset Diagnostics fornece orientação visual e escrita durante todo o processo de treinamento de um novo modelo.
Há três níveis de status do conjunto de dados expostos na barra de gerenciamento:
- Vermelho - São necessários mais dados de treinamento rotulados.
- Laranja - Mais dados de treinamento rotulados são recomendados.
- Verde - O nível necessário de dados de treinamento rotulados foi alcançado.
Se nenhum campo for criado na sessão, o nível de status do conjunto de dados estará cinza.
Mais informações sobre cada status estão disponíveis no menu pop-up Dataset Diagnostics. Clique no botão Dataset Diagnostics para abri-lo.
Fornece informações sobre os documentos usados para treinar o modelo, o número total de páginas importadas e o número total de páginas rotuladas.
A separação de cores na barra de status é determinada pelo número recomendado de páginas rotuladas necessárias para treinar o modelo e o status real do seu conjunto de dados, incluindo dados rotulados e não rotulados. Passar o mouse sobre cada cor da barra de status fornece informações extras, em formato de dica de ferramenta, sobre cada status.
Os números disponíveis na guia Conjunto de dados são calculados com base no número de campos regulares e campos de item da sessão de treinamento.
- Vermelho - O conjunto de dados requer mais dados rotulados para treinar o modelo.
- Laranja - Para um maior nível de precisão no modelo treinado, mais dados rotulados são recomendados. Você pode optar por prosseguir com os dados reais, porém o nível de precisão não será tão alto quanto o desejado.
- Verde - Os dados rotulados são suficientes para que o conjunto de dados seja treinado adequadamente e receba informações precisas.
Fornece informações sobre cada campo rotulado, mais precisamente o número total de páginas de treinamento em que o rótulo está presente, o número total de documentos avaliados com o campo rotulado e seu status para o conjunto de treinamento atual.
- Campo - O nome do campo rotulado.
- Páginas de treinamento - O número de páginas no conjunto de Treinamento+Validação nas quais o campo é rotulado.
- Documentos de avaliação - O número de documentos no conjunto de Avaliação nos quais este campo é rotulado.
- Status - O status de cada campo, marcado por três opções, Vermelho, Laranja e Verde.
Essas são todas as opções disponíveis para a barra de status:
- Vermelho - Não há dados suficientes sobre o campo, sendo necessários mais rótulos.
- Laranja - Mais páginas precisam ser rotuladas para que os resultados sejam relevantes.
- Verde - Há páginas rotuladas suficientes para que os resultados sejam relevantes.
Os botões Atualizar e Fechar são aplicáveis a ambas as guias, o que significa que, se o botão Atualizar for clicado na guia Conjunto de dados, a guia Arquivos também é atualizada.
- Atualizar - Use a opção de atualização após as alterações terem sido feitas no conjunto de dados, seja no número de páginas totais ou no número de páginas rotuladas. O menu pop-up é atualizado automaticamente em alguns minutos e ocorre nas duas guias simultaneamente. Use esta função quando for necessária uma atualização fora da janela automática.
- Fechar — Depois de reunir todas as informações necessárias, feche o menu clicando no botão Fechar.Todo o menu pop-up é fechado, independentemente da guia na qual o botão é clicado.
Você pode modificar os seguintes campos com a Calculadora de conjunto de dados:
- Tipo de documento para uso imediato
- Número de idiomas
- Número de layouts
Os seguintes campos da guia Calculadora são somente leitura e seus valores são determinados fazendo uma interseção do tipo de documento pronto para uso usado e os campos de esquema atuais:
- Campos regulares para uso imediato
- Campos de colunas para uso imediato
- Campos de classificação para uso imediato
A modificação de qualquer um dos campos mencionados afeta o tamanho recomendado do conjunto de dados. A guia Conjunto de dados do pop-up aberto no momento é atualizada para um status verde/amarelo/vermelho com base no novo tamanho recomendado. Depois que as alterações são salvas, o indicador geral de diagnóstico do conjunto de dados leva em consideração a nova integridade da guia Conjunto de dados.
Digamos que, ao criar inicialmente o tipo de documento, você selecionou Faturas para o campo Tipo de documento pronto para uso. Se você alterar sua escolha inicial para outra coisa, como recibos, por exemplo, o conjunto de dados assimilará as informações de ambos os tipos de documento e exibirá as informações que se cruzam de ambos os tipos (faturas e recibos) selecionados.
Se houver campos presentes apenas em um dos modelos, eles aparecerão nos campos regulares personalizados ou nos campos de coluna personalizados, porque essas alterações se aplicam aos campos regulares e de classificação.