Document Understanding - Extrator de formulários

document-understanding

2021.10

false

Guia do usuário do Document Understanding.

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Form Extractor

O que é Form Extractor

O Form Extractor é uma abordagem de extração mais adequada para casos de uso em que documentos de formato não variável precisam ser processados, com dados extraídos deles. Em outras palavras, se seus documentos têm pouca ou nenhuma variação nos layouts do documento, então o Form Extractor é uma boa escolha.

O Form Extractor utiliza modelos definidos antecipadamente, na fase de projeto. Um conjunto complexo de regras aplica os modelos configurados aos documentos recebidos que devem ser processados, identificando e relatando as informações esperadas.

A atividade vem com um assistente de configuração que o ajuda a definir os modelos para os tipos de documentos e campos que você deseja direcionar para extração de dados.

A atividade oferece suporte à extração de campo simples e de campo de tabela.

Recomenda-se procurar outros métodos de extração no caso de:

haver muitos layouts que precisam ser manipulados
os documentos não são apenas distorcidos, rotacionados ou de tamanhos diferentes, mas também manifestam "deformações" (curvas em determinadas áreas).
Observação:
Na extração de formulários fixos, para avaliar se os layouts de dois arquivos são iguais, tente sobrepô-los em uma ferramenta, com alguma transparência, para verificar se todo o conteúdo não variável se sobrepõe (após reverter a rotação, distorção e configurando ambas as imagens para a mesma escala).

Se você notar variabilidade (o conteúdo não variável aparece mais à esquerda / direita / parte superior / inferior para determinadas áreas do documento), os layouts não são considerados iguais.

O Form Extractor permite definir vários modelos para o mesmo tipo de documento e, durante a execução, ele:
identifica o melhor modelo correspondente para o documento recebido e o tipo de documento
aplica o algoritmo de correspondência de modelo, com base em âncoras de nível de página, a cada página de onde os dados precisam ser extraídos (páginas ausentes ou repetidas não são suportadas)
aplica todas as configurações de âncora ao nível de campo a cada página para capturar valores associados a possíveis correspondências
relata as informações identificadas das áreas de valor alvo.

Ele também suporta o ajuste fino do processamento de campos de lista de verificação / booleanos, permitindo a configuração do valor "Sinônimos para Sim" ou "Sinônimos para Não", de acordo com o seu caso de uso.

Este extrator não possui recursos de aprendizado (treinamento) e requer configuração.

Requisitos especiais

Você precisa usar sua chave de API Automation Cloud Document Understanding ou hospedar sua própria instância do Form Extractor no AI Center localmente para usar este extrator.

A funcionalidade de âncoras agora está disponível no Editor de Modelos, permitindo definir regras baseadas em âncoras para extração de dados, para campos simples de um tipo de documento fixo. Aqui você pode encontrar mais informações sobre como usar e configurar âncoras.

Nesta página

O que é Form Extractor
Requisitos especiais

Esta página foi útil?

AnteriorRegex Based Extractor

AvançarIntelligent Form Extractor