Guia do usuário de projetos modernos do Document Understanding

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 23 de dez de 2024

Criar

Esta seção fornece as seguintes experiências:

Carregue documentos e classifique-os automaticamente.
Carregue documentos diretamente nos tipos de documentos.
Gerenciar arquivos do projeto (adicionar, remover arquivos).
Anotar documentos.
Adicione ou remova campos.
Tenha uma experiência guiada sobre treinamento de modelos de classificação e extração usando as recomendações.

Anotar documentos

Depois de criar com sucesso seu projeto e carregar seus documentos para um tipo de documento específico, eles serão pré-anotados automaticamente. Isso é feito usando modelos especializados, com base no esquema do tipo de documento. O esquema define claramente os campos que você deseja extrair de um tipo de documento específico. Para encontrar o esquema do tipo de documento, acesse a página Anotação e verifique a seção Campos.

Para obter informações mais aprofundadas sobre como anotar seus documentos, consulte a página de instruções Anotar documentos .

Editar configurações de campo

Você pode editar as configurações de vários campos no Gerenciador de tipos de documento.

Para chegar lá, selecione o ícone de três pontos ⋮ ao lado do tipo de documento que você deseja editar e selecione Gerenciador de tipo de documento no menu.

Figura 1. Selecionar Gerenciador de tipo de documento

Edição ou adição de novos campos

Para adicionar um novo campo, selecione Adicionar campo e preencha as informações necessárias. Você pode adicionar ou editar as seguintes opções para cada campo:

Nome do campo: o nome exclusivo do campo.
Tipo de conteúdo: o tipo de conteúdo do campo:
- String: usada para nomes ou endereços de empresas, bem como condições de pagamento ou para qualquer outro campo em que você queira criar a lógica de análise ou formatação manualmente, no fluxo de trabalho de RPA.
- Número: usado para valores ou quantidades, com análise inteligente dos separadores decimais/de milhares.
- Data: analisar, formatar e unificar a saída usando o formato AAAA-MM-DD.
- Telefone: use para o número de telefone. A formatação remove letras e parênteses e substitui espaços por traços.
- Número de ID: usado para códigos alfanuméricos, números de IDs. É semelhante ao tipo de conteúdo da string, mas remove todos os caracteres que vêm antes do caractere :. Se o número de ID que você precisa extrair puder conter : caracteres, use o tipo de conteúdo string para evitar a perda de dados.
Atalho: a tecla de atalho do campo. É permitido usar uma tecla ou uma combinação de duas teclas.
Configurações avançadas: as opções disponíveis diferem dependendo do tipo de Conteúdo do campo selecionado. Selecione o botão Configurações avançadas para o campo que deseja editar:
Figura 2. Configurações avançadas do tipo de documento
- ID do campo: o ID exclusivo para o campo.
- Pós-processamento:
  - first_span: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne a primeira.
  - longest_value: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne o valor com o maior número de caracteres.
  - highest_confidence: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne o valor com a maior confiança.
  Pontuação: a medida usada para determinar a precisão ao executar avaliações de previsões do modelo está disponível apenas para campos com tipo de conteúdo String:
  - exact_match: a previsão só será considerada correta (pontuação de 1) se corresponder exatamente ao valor verdadeiro. Se ela for diferente, mesmo que seja por apenas um caractere, será considerada incorreta (pontuação de 0). Esta é a configuração padrão para todos os campos, exceto para campos String.
  - levenshtein: a previsão será considerada parcialmente correta de acordo com a distância Levenshtein entre a previsão e o valor verdadeiro. Por exemplo, se um valor de 10 letras for previsto corretamente exceto pelos dois últimos caracteres, a pontuação dessa previsão será de 0,8.
- Formato de data: este campo está disponível apenas para campos com tipo de conteúdo Data e indica como datas ambíguas são analisadas e retornadas:
  - Auto
  - Estilo dos EUA: AAAA-DD-MM
  - Estilo fora dos EUA: AAAA-MM-DD
- Multilinha: campos que abrangem várias linhas de texto (endereços ou descrições) precisam ter essa verificação. Caso contrário, apenas a primeira linha será retornada.
- Multivalor: o campo retorna uma lista com todos os valores detectados no documento.

As alterações nas configurações do tipo de documento não são refletidas na nova versão do projeto se você publicar uma nova versão do projeto antes de disparar novamente um treinamento.

Solução alternativa: para evitar isso, treine novamente o tipo de documento após fazer modificações nos campos do tipo de documento. Você pode pontilhá-lo marcando ou confirmando documentos adicionais para esse tipo antes de publicar uma nova versão.

Configurações do modelo

Você pode alterar as configurações do tipo de documento na exibição Configurações do modelo. Para fazer isso, selecione Configurações do modelo.

Figura 3. Configurações do modelo

è possível alterar as seguintes configurações:

Modelo base: as estimativas de tamanho do conjunto de dados usadas nas Ações recomendadas dependem do modelo base usado no treinamento. Usar o modelo de base mais semelhante ao tipo de documento reduzirá a quantidade da tarefa de anotação necessária.
Número de idiomas: a estimativa de tamanho do conjunto de dados usada nas Ações recomendadas depende do número de idiomas no conjunto de dados. Mais idiomas geralmente exigem mais anotações.

Pesquisar nomes de campo

Você pode pesquisar pelos nomes de campos disponíveis. Para fazer isso, use a barra de pesquisa no canto superior esquerdo da interface do Gerenciador de tipos de documento. Para uma pesquisa mais eficiente, use a funcionalidade Filtrar para filtrar por Tipo de conteúdo.

Figura 4. Pesquisar nomes de campos

Excluir campos

Selecione Excluir ao lado do campo que você deseja excluir.

Figura 5. Excluir um campo

Você também pode selecionar vários (ou todos) campos e excluí-los de uma vez. Para fazer isso, selecione a marca de seleção ao lado dos campos que você deseja excluir e clique em Excluir.

Figura 6. Excluir vários campos de uma vez

Pesquisar documentos

Você pode pesquisar documentos carregados por nome do documento. Para fazer isso, use a barra de pesquisa no canto esquerdo da seção Criar. Para uma pesquisa mais eficiente, use a funcionalidade Filtrar para filtrar por:

Tipo de documento: escolha o tipo de documento desejado na lista suspensa.
Data de carregamento: escolha um intervalo de data em que o documento foi carregado.
Status: escolha o status do documento

Pontuação do projeto e do modelo

Você pode verificar a pontuação geral do seu projeto no canto superior direito. Esta pontuação inclui as pontuações do classificador e do extrator para todos os tipos de documentos. Clique em Pontuação do projeto para exibir a seção Medir. Você pode verificar medições de desempenho em mais profundidade naquela seção.

Você pode verificar a pontuação para cada tipo de documento separadamente na seção Tipo de documento. Esta pontuação inclui o desempenho geral do modelo, além do tamanho e qualidade do conjunto de dados.

Observação: você precisa carregar pelo menos 10 documentos para obter uma pontuação do projeto. Para uma pontuação do tipo de documento, você precisa de pelo menos 10 documentos com o mesmo tipo de documento.

Você pode verificar a classificação do modelo de seus modelos se selecionar a aba de pontuação. A classificação do modelo é uma funcionalidade destinada a ajudar você a visualizar o desempenho de um modelo de classificação. Ela é expressa como uma pontuação do modelo de 0 a 100 da seguinte forma: