- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Guia do usuário do Document Understanding.
Form Extractor
O Form Extractor é uma abordagem de extração mais adequada para casos de uso em que documentos de formato não variável precisam ser processados, com dados extraídos deles. Em outras palavras, se seus documentos têm pouca ou nenhuma variação nos layouts do documento, então o Form Extractor é uma boa escolha.
O Form Extractor utiliza modelos definidos antecipadamente, na fase de projeto. Um conjunto complexo de regras aplica os modelos configurados aos documentos recebidos que devem ser processados, identificando e relatando as informações esperadas.
Você pode usar essa atividade para reconhecimento de texto manuscrito e extração de dados manuscritos ou detecção de assinaturas. Essas funcionalidades tornam o Form Extractor muito bom para o processamento de formulários impressos ou manuscritos, ou se você precisa verificar se o formulário está assinado ou não.
A atividade vem com um assistente de configuração que o ajuda a definir os modelos para os tipos de documentos e campos que você deseja direcionar para extração de dados.
A atividade oferece suporte à extração de campo simples e de campo de tabela.
Recomenda-se procurar outros métodos de extração no caso de:
- haver muitos layouts que precisam ser manipulados
- os documentos não são apenas distorcidos, rotacionados ou de tamanhos diferentes, mas também manifestam "deformações" (curvas em determinadas áreas).
Observação:
Na extração de formulários fixos, para avaliar se os layouts de dois arquivos são iguais, tente sobrepô-los em uma ferramenta, com alguma transparência, para verificar se todo o conteúdo não variável se sobrepõe (após reverter a rotação, distorção e configurando ambas as imagens para a mesma escala).
Se você notar variabilidade (o conteúdo não variável aparece mais à esquerda / direita / parte superior / inferior para determinadas áreas do documento), os layouts não são considerados iguais.
O Form Extractor permite definir vários modelos para o mesmo tipo de documento e, durante a execução, ele:
- identifica o melhor modelo correspondente para o documento recebido e o tipo de documento
- aplica o algoritmo de correspondência de modelo, com base em âncoras de nível de página, a cada página de onde os dados precisam ser extraídos (páginas ausentes ou repetidas não são suportadas)
- aplica todas as configurações de âncora ao nível de campo a cada página para capturar valores associados a possíveis correspondências
- relata as informações identificadas das áreas de valor alvo.
Ele também suporta o ajuste fino do processamento de campos de lista de verificação / booleanos, permitindo a configuração do valor "Sinônimos para Sim" ou "Sinônimos para Não", de acordo com o seu caso de uso.
Este extrator não possui recursos de aprendizado (treinamento) e requer configuração.
Você precisa usar sua chave de API Automation Cloud Document Understanding ou hospedar sua própria instância do Form Extractor no AI Center localmente para usar este extrator.
A funcionalidade de âncoras agora está disponível no Editor de Modelos, permitindo definir regras baseadas em âncoras para extração de dados, para campos simples de um tipo de documento fixo. Aqui você pode encontrar mais informações sobre como usar e configurar âncoras.