- Visão geral
- Introdução
- Criação de modelos
- Consumo de modelos
- Pacotes de ML
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- Receipts Japan - ML package
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Endpoints públicos
- Idiomas suportados
- Painéis de insights
- Dados e segurança
- Licenciamento
- Como fazer
Guia do usuário de projetos modernos do Document Understanding
Criar
- Carregue documentos e classifique-os automaticamente.
- Carregue documentos diretamente nos tipos de documentos.
- Manage files from the project (add, remove files and add, change tags).
- Anotar documentos.
- Adicione ou remova campos.
- Tenha uma experiência guiada sobre treinamento de modelos de classificação e extração usando as recomendações.
Depois de criar com sucesso seu projeto e carregar seus documentos para um tipo de documento específico, eles serão pré-anotados automaticamente. Isso é feito usando uma combinação de modelos generativos e especializados, com base no esquema do tipo de documento. O esquema define claramente os campos que você deseja extrair de um tipo de documento específico. Para encontrar o esquema do tipo de documento, acesse a página Anotação e verifique a seção Campos.
For more in-depth information on how to annotate your documents, check the Annotate documents how-to page.
Você pode editar as configurações de vários campos no Gerenciador de tipos de documento.
Para chegar lá, selecione o ícone de três pontos ⋮ ao lado do tipo de documento que você deseja editar e selecione Gerenciador de tipo de documento no menu.
- Nome do campo: o nome exclusivo do campo.
- Tipo de conteúdo: o tipo de conteúdo do campo:
- String: usada para nomes ou endereços de empresas, bem como condições de pagamento ou para qualquer outro campo em que você queira criar a lógica de análise ou formatação manualmente, no fluxo de trabalho de RPA.
- Número: usado para valores ou quantidades, com análise inteligente dos separadores decimais/de milhares.
- Data: analisar, formatar e unificar a saída usando o formato AAAA-MM-DD.
- Telefone: use para o número de telefone. A formatação remove letras e parênteses e substitui espaços por traços.
- Número de ID: usado para códigos alfanuméricos, números de IDs. É semelhante ao tipo de conteúdo da string, mas remove todos os caracteres que vêm antes do caractere
:
. Se o número de ID que você precisa extrair puder conter:
caracteres, use o tipo de conteúdostring
para evitar a perda de dados.
- Atalho: a tecla de atalho do campo. É permitido usar uma tecla ou uma combinação de duas teclas.
- Configurações avançadas: as opções disponíveis diferem dependendo do tipo de Conteúdo do campo selecionado. Selecione o botão Configurações avançadas para o campo que deseja editar:
Figura 2. Configurações avançadas do tipo de documento
- ID do campo: o ID exclusivo para o campo.
- Pós-processamento:
- first_span: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne a primeira.
- longest_value: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne o valor com o maior número de caracteres.
- highest_confidence: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne o valor com a maior confiança.
- exact_match: a previsão só será considerada correta (pontuação de 1) se corresponder exatamente ao valor verdadeiro. Se ela for diferente, mesmo que seja por apenas um caractere, será considerada incorreta (pontuação de 0). Esta é a configuração padrão para todos os campos, exceto para campos String.
- levenshtein: a previsão será considerada parcialmente correta de acordo com a distância Levenshtein entre a previsão e o valor verdadeiro. Por exemplo, se um valor de 10 letras for previsto corretamente exceto pelos dois últimos caracteres, a pontuação dessa previsão será de 0,8.
- Formato de data: este campo está disponível apenas para campos com tipo de conteúdo Data e indica como datas ambíguas são analisadas e retornadas:
- Auto
- Estilo dos EUA: AAAA-DD-MM
- Estilo fora dos EUA: AAAA-MM-DD
- Multilinha: campos que abrangem várias linhas de texto (endereços ou descrições) precisam ter essa verificação. Caso contrário, apenas a primeira linha será retornada.
- Multivalor: o campo retorna uma lista com todos os valores detectados no documento.
As alterações nas configurações do tipo de documento não são refletidas na nova versão do projeto se você publicar uma nova versão do projeto antes de disparar novamente um treinamento.
Solução alternativa: para evitar isso, treine novamente o tipo de documento após fazer modificações nos campos do tipo de documento. Você pode pontilhá-lo marcando ou confirmando documentos adicionais para esse tipo antes de publicar uma nova versão.
Você pode alterar as configurações do tipo de documento na exibição Configurações do modelo. Para fazer isso, selecione Configurações do modelo.
è possível alterar as seguintes configurações:
- Modelo base: as estimativas de tamanho do conjunto de dados usadas nas Ações recomendadas dependem do modelo base usado no treinamento. Usar o modelo de base mais semelhante ao tipo de documento reduzirá a quantidade da tarefa de anotação necessária.
- Número de idiomas: a estimativa de tamanho do conjunto de dados usada nas Ações recomendadas depende do número de idiomas no conjunto de dados. Mais idiomas geralmente exigem mais anotações.
Você pode pesquisar pelos nomes de campos disponíveis. Para fazer isso, use a barra de pesquisa no canto superior esquerdo da interface do Gerenciador de tipos de documento. Para uma pesquisa mais eficiente, use a funcionalidade Filtrar para filtrar por Tipo de conteúdo.
Selecione Excluir ao lado do campo que você deseja excluir.
- Tipo de documento: escolha o tipo de documento desejado na lista suspensa.
- Data de carregamento: escolha um intervalo de data em que o documento foi carregado.
- Status: escolha o status do documento
Você pode verificar a pontuação geral do seu projeto no canto superior direito. Esta pontuação inclui as pontuações do classificador e do extrator para todos os tipos de documentos. Clique em Pontuação do projeto para exibir a seção Medir. Você pode verificar medições de desempenho em mais profundidade naquela seção.
Você pode verificar a pontuação para cada tipo de documento separadamente na seção Tipo de documento. Esta pontuação inclui o desempenho geral do modelo, além do tamanho e qualidade do conjunto de dados.
- Insatisfatório (0-49)
- Médio (50-69)
- Bom (70-89)
- Excelente (90-100)
Selecione Pontuações detalhadas do modelo para acessar a seção Medir para obter informações detalhadas.