document-understanding

latest

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do usuário de projetos modernos do Document Understanding

ENTREGA:

Última atualização 7 de nov de 2025

Criar

Esta seção fornece as seguintes experiências:

Carregue documentos e classifique-os automaticamente.
Carregue documentos diretamente nos tipos de documentos.
Gerenciar arquivos do projeto (adicionar, remover arquivos e adicionar, alterar tags).
Anotar documentos.
Adicione ou remova campos.
Tenha uma experiência guiada sobre treinamento de modelos de classificação e extração usando as recomendações.

Anotar documentos

Depois de criar com sucesso seu projeto e carregar seus documentos para um tipo de documento específico, eles serão pré-anotados automaticamente. Isso é feito usando uma combinação de modelos generativos e especializados, com base no esquema do tipo de documento. O esquema define claramente os campos que você deseja extrair de um tipo de documento específico. Para encontrar o esquema do tipo de documento, acesse a página Anotação e verifique a seção Campos.

Para obter informações mais detalhadas sobre como anotar seus documentos, consulte a página de tutorial Anotar documentos.

Exceções para revisão

Você pode usar documentos que foram validados na Validation Station para melhorar ainda mais o desempenho de seus modelos.

Se houver alguma alteração após a etapa de validação, o botão Exceções para revisão será exibido para o tipo de documento impactado.

Figura 1. Botão de revisão de exceções

Para obter informações mais detalhadas sobre como retreinar seus modelos, consulte a página de instruções sobre como treinar extratores.

Rotular documentos

Depois de carregar seus documentos, você pode adicionar tags a eles.

Você pode adicionar uma tag com até 100 caracteres para cada documento.

Para adicionar uma tag aos documentos, selecione os documentos que deseja adicionar e selecione o botão Tags no menu acima da lista de tipos de documento.

Filtre usando tags para pesquisar seus documentos. Você também pode verificar os resultados por tags no arquivo de configuração avançada quando um modelo é treinado.

Gerenciador de tipos de documento de documento

Você pode editar as configurações de vários campos no Gerenciador de tipos de documento.

Para chegar lá, selecione o ícone de três pontos ⋮ ao lado do tipo de documento que você deseja editar e selecione Gerenciador de tipo de documento no menu.

Figura 2. Selecionar Gerenciador de tipo de documento

Campos de extração

Edição ou adição de novos campos

Para adicionar um novo campo, selecione Adicionar campo e preencha as informações necessárias. Você pode adicionar ou editar as seguintes opções para cada campo:

Nome do campo: o nome exclusivo do campo.
Tipo de conteúdo: o tipo de conteúdo do campo:
- String: usada para nomes ou endereços de empresas, bem como condições de pagamento ou para qualquer outro campo em que você queira criar a lógica de análise ou formatação manualmente, no fluxo de trabalho de RPA.
- Número: usado para valores ou quantidades, com análise inteligente dos separadores decimais/de milhares.
- Data: analisar, formatar e unificar a saída usando o formato AAAA-MM-DD.
- Telefone: use para o número de telefone. A formatação remove letras e parênteses e substitui espaços por traços.
- Número de ID: usado para códigos alfanuméricos, números de IDs. É semelhante ao tipo de conteúdo da string, mas remove todos os caracteres que vêm antes do caractere :. Se o número de ID que você precisa extrair puder conter : caracteres, use o tipo de conteúdo string para evitar a perda de dados.
Atalho: a tecla de atalho do campo. É permitido usar uma tecla ou uma combinação de duas teclas.
Configurações avançadas: as opções disponíveis diferem dependendo do tipo de Conteúdo do campo selecionado. Selecione o botão Configurações avançadas para o campo que deseja editar:
Figura 3. Configurações avançadas do tipo de documento
- ID do campo: o ID exclusivo para o campo.
- Pós-processamento:
  - first_span: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne a primeira.
  - longest_value: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne o valor com o maior número de caracteres.
  - highest_confidence: se o modelo previr mais de uma instância de um campo em um documento, faça com que ele retorne o valor com a maior confiança.
  Pontuação: a medida usada para determinar a precisão ao executar avaliações de previsões do modelo está disponível apenas para campos com tipo de conteúdo String:
  - exact_match: a previsão só será considerada correta (pontuação de 1) se corresponder exatamente ao valor verdadeiro. Se ela for diferente, mesmo que seja por apenas um caractere, será considerada incorreta (pontuação de 0). Esta é a configuração padrão para todos os campos, exceto para campos String.
  - levenshtein: a previsão será considerada parcialmente correta de acordo com a distância Levenshtein entre a previsão e o valor verdadeiro. Por exemplo, se um valor de 10 letras for previsto corretamente exceto pelos dois últimos caracteres, a pontuação dessa previsão será de 0,8.
- Formato de data: este campo está disponível apenas para campos com tipo de conteúdo Data e indica como datas ambíguas são analisadas e retornadas:
  - Auto
  - Estilo dos EUA: AAAA-DD-MM
  - Estilo fora dos EUA: AAAA-MM-DD
- Multilinha: campos que abrangem várias linhas de texto (endereços ou descrições) precisam ter essa verificação. Caso contrário, apenas a primeira linha será retornada.
- Multivalor: o campo retorna uma lista com todos os valores detectados no documento.

Você também pode reordenar os campos a partir dessa exibição.

As alterações nas configurações do tipo de documento não são refletidas na nova versão do projeto se você publicar uma nova versão do projeto antes de disparar novamente um treinamento.

Solução alternativa: para evitar isso, treine novamente o tipo de documento após fazer modificações nos campos do tipo de documento. Você pode pontilhá-lo marcando ou confirmando documentos adicionais para esse tipo antes de publicar uma nova versão.

Pesquisar nomes de campo

Você pode pesquisar pelos nomes de campos disponíveis. Para fazer isso, use a barra de pesquisa no canto superior esquerdo da interface do Gerenciador de tipos de documento. Para uma pesquisa mais eficiente, use a funcionalidade Filtrar para filtrar por Tipo de conteúdo.

Figura 4. Pesquisar nomes de campos

Excluir campos

Selecione o botão Excluir ao lado do campo que você deseja excluir.

Figura 5. Excluir um campo

Você também pode selecionar vários (ou todos) campos e excluí-los de uma só vez. Para fazer isso, selecione a marca de seleção ao lado dos campos que você deseja excluir e, em seguida, selecione Excluir.

Figura 6. Excluir vários campos de uma vez

Campos de Classificação

Os campos de classificação são pontos de dados que se referem a um documento como um todo. Por exemplo, o tipo de despesa de um recibo (alimentação, hotel, companhia aérea ou transporte) ou a moeda de uma fatura (USD, EUR, JPY) são campos de classificação.

Observação:

As seguintes limitações aplicam-se atualmente à funcionalidade Campos de Classificação:

Ao usar a atividade Extrair dados de documento, os campos de classificação são compatíveis para extratores de projetos modernos e modelos prontos para uso, mas não para extratores de projetos clássicos.
Os campos de classificação são extraídos para tipos de documentos personalizados apenas após um treinamento bem-sucedido.

Edição ou adição de campos de classificação

Para adicionar um novo campo de classificação, selecione Adicionar campo e digite um nome para o novo campo.

Você também pode reordenar os campos a partir dessa exibição.

Figura 7. Adicione um novo campo de classificação

Para verificar o ID do campo de classificação, selecione Configurações avançadas ao lado do campo de classificação necessário.

Figura 8. Configurações avançadas de campos de classificação

Edição ou adição de classes

Para adicionar uma nova classe para um campo de classificação, selecione Adicionar classe e digite um nome de classe e uma descrição opcional.

Observação: cada campo de classificação deve conter pelo menos duas classes.

Figura 9. Adicionar uma nova classe

Você pode editar o nome e a descrição para cada classe.

Você também pode reordenar as classes dessa visualização.

Para remover uma classe, selecione Excluir ao lado da classe que você deseja remover.

Figura 10. Excluir uma classe

Configurações

Você pode alterar as configurações do tipo de documento na aba Configurações.

Figura 11. Configurações do modelo

è possível alterar as seguintes configurações:

Modelo base: as estimativas de tamanho do conjunto de dados usadas nas Ações recomendadas dependem do modelo base usado no treinamento. Usar o modelo de base mais semelhante ao tipo de documento reduzirá a quantidade da tarefa de anotação necessária.
Número de idiomas: a estimativa de tamanho do conjunto de dados usada nas Ações recomendadas depende do número de idiomas no conjunto de dados. Mais idiomas geralmente exigem mais anotações.

Pesquisar documentos

Você pode pesquisar documentos carregados por nome do documento. Para fazer isso, use a barra de pesquisa no canto esquerdo da seção Criar. Para uma pesquisa mais eficiente, use a funcionalidade Filtrar para filtrar por:

Tipo de documento: escolha o tipo de documento desejado na lista suspensa.
Data de carregamento: escolha um intervalo de data em que o documento foi carregado.
Status: escolha o status do documento.
Tag: escolha as tags que você deseja filtrar.

Figura 12. Filtrar documentos documentos

Pontuação do projeto e do modelo

Você pode verificar a pontuação geral do seu projeto no canto superior direito. Esta pontuação inclui as pontuações do classificador e do extrator para todos os tipos de documentos. Selecione Pontuação do projeto para exibir a seção Medir . Você pode verificar medições de desempenho em mais profundidade naquela seção.

Você pode verificar a pontuação para cada tipo de documento separadamente na seção Tipo de documento. Esta pontuação inclui o desempenho geral do modelo, além do tamanho e qualidade do conjunto de dados.

Observação: você precisa carregar pelo menos 10 documentos para obter uma pontuação do projeto. Para uma pontuação do tipo de documento, você precisa de pelo menos 10 documentos com o mesmo tipo de documento.

Você pode verificar a classificação do modelo de seus modelos se selecionar a aba de pontuação. A classificação do modelo é uma funcionalidade destinada a ajudar você a visualizar o desempenho de um modelo de classificação. Ela é expressa como uma pontuação do modelo de 0 a 100 da seguinte forma: