Document Understanding - Extrator de formulários

document-understanding

2022.4

true

Guia do usuário do Document Understanding.

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Form Extractor

O que é Form Extractor

O Form Extractor é mais adequado para extrair, combinar e relatar informações específicas, analisando a posição da palavra dentro do documento ou detectando uma assinatura.

O Form Extractor utiliza modelos definidos antecipadamente, na fase de projeto. Um conjunto complexo de regras aplica os modelos configurados aos documentos recebidos que devem ser processados, identificando e relatando as informações esperadas.

A atividade vem com um assistente de configuração que ajuda a definir os modelos para os tipos de documentos e campos que você deseja direcionar para a extração de dados.

A atividade oferece suporte à extração de campo simples e campo de tabela e, conforme mencionado anteriormente, pode detectar um campo de assinatura.

Observação:

Mais informações relacionadas ao Form Extractor:

Página da atividade Form Extractor
Gerenciador de Taxonomia - instruções de configuração
Assistente do Gerenciador de Modelo - instruções de configuração
Exemplo de fluxo de trabalho ancorado

Recomenda-se procurar outros métodos de extração no caso de:

haver muitos layouts que precisam ser manipulados
os documentos não são apenas distorcidos, rotacionados ou de tamanhos diferentes, mas também manifestam "deformações" (curvas em determinadas áreas).

Observação:
Na extração de formulários fixos, para avaliar se os layouts de dois arquivos são iguais, tente sobrepô-los em uma ferramenta, com alguma transparência, para verificar se todo o conteúdo não variável se sobrepõe (após reverter a rotação, distorção e configurando ambas as imagens para a mesma escala).

Se você notar variabilidade (o conteúdo não variável aparece mais à esquerda / direita / parte superior / inferior para determinadas áreas do documento), os layouts não são considerados iguais.

O Form Extractor permite definir vários modelos para o mesmo tipo de documento e, durante a execução, ele:
identifica o melhor modelo correspondente para o documento recebido e o tipo de documento
aplica o algoritmo de correspondência de modelo, com base em âncoras de nível de página, a cada página de onde os dados precisam ser extraídos (páginas ausentes ou repetidas não são suportadas)
aplica todas as configurações de âncora ao nível de campo a cada página para capturar valores associados a possíveis correspondências
relata as informações identificadas das áreas de valor alvo.

Ele também suporta o ajuste fino do processamento de campos de lista de verificação / booleanos, permitindo a configuração do valor "Sinônimos para Sim" ou "Sinônimos para Não", de acordo com o seu caso de uso.

Este extrator não possui recursos de aprendizado (treinamento) e requer configuração.

Como configurar

Configuração da atividade

O Form Extractor possui duas configurações principais a serem consideradas:

o assistente do Gerenciador de Modelos - que permite definir modelos a serem aplicados aos documentos recebidos. Este assistente habilita o Editor de Modelos e as configurações de Interpretação de campo booleano.
a configuração MinOverlapPercentage - que permite que você controle quão rigorosa deve ser a correspondência da área de valor. Aceita um valor entre 0 e 100 e controla quais palavras são aceitas ou rejeitadas como parte de um determinado valor, com base em quão bem sua localização se ajusta à área definida no modelo.

Mais informações sobre como usar o assistente de atividade Form Extractor podem ser encontradas aqui.

Nesta página

O que é Form Extractor
Como configurar
Configuração da atividade

Esta página foi útil?

AnteriorRequisitos especiais

AvançarRequisitos especiais