- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Pipelines
- Gerenciador de Dados
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guia do usuário do Document Understanding.
O Form Extractor é mais adequado para extrair, combinar e relatar informações específicas, analisando a posição da palavra dentro do documento ou detectando uma assinatura.
O Form Extractor utiliza modelos definidos antecipadamente, na fase de projeto. Um conjunto complexo de regras aplica os modelos configurados aos documentos recebidos que devem ser processados, identificando e relatando as informações esperadas.
A atividade vem com um assistente de configuração que ajuda a definir os modelos para os tipos de documentos e campos que você deseja direcionar para a extração de dados.
A atividade oferece suporte à extração de campo simples e campo de tabela e, conforme mencionado anteriormente, pode detectar um campo de assinatura.
Mais informações relacionadas ao Form Extractor:
- Página da atividade Form Extractor
- Gerenciador de Taxonomia - instruções de configuração
- Assistente do Gerenciador de Modelo - instruções de configuração
- Exemplo de fluxo de trabalho ancorado
Recomenda-se procurar outros métodos de extração no caso de:
- haver muitos layouts que precisam ser manipulados
-
os documentos não são apenas distorcidos, rotacionados ou de tamanhos diferentes, mas também manifestam "deformações" (curvas em determinadas áreas).
Observação:Na extração de formulários fixos, para avaliar se os layouts de dois arquivos são iguais, tente sobrepô-los em uma ferramenta, com alguma transparência, para verificar se todo o conteúdo não variável se sobrepõe (após reverter a rotação, distorção e configurando ambas as imagens para a mesma escala).
Se você notar variabilidade (o conteúdo não variável aparece mais à esquerda / direita / parte superior / inferior para determinadas áreas do documento), os layouts não são considerados iguais.
O Form Extractor permite definir vários modelos para o mesmo tipo de documento e, durante a execução, ele:
- identifica o melhor modelo correspondente para o documento recebido e o tipo de documento
- aplica o algoritmo de correspondência de modelo, com base em âncoras de nível de página, a cada página de onde os dados precisam ser extraídos (páginas ausentes ou repetidas não são suportadas)
- aplica todas as configurações de âncora ao nível de campo a cada página para capturar valores associados a possíveis correspondências
- relata as informações identificadas das áreas de valor alvo.
Ele também suporta o ajuste fino do processamento de campos de lista de verificação / booleanos, permitindo a configuração do valor "Sinônimos para Sim" ou "Sinônimos para Não", de acordo com o seu caso de uso.
Este extrator não possui recursos de aprendizado (treinamento) e requer configuração.
Configuração da atividade
O Form Extractor possui duas configurações principais a serem consideradas:
- o assistente do Gerenciador de Modelos - que permite definir modelos a serem aplicados aos documentos recebidos. Este assistente habilita o Editor de Modelos e as configurações de Interpretação de campo booleano.
- a configuração MinOverlapPercentage - que permite que você controle quão rigorosa deve ser a correspondência da área de valor. Aceita um valor entre
0e100e controla quais palavras são aceitas ou rejeitadas como parte de um determinado valor, com base em quão bem sua localização se ajusta à área definida no modelo.
Mais informações sobre como usar o assistente de atividade Form Extractor podem ser encontradas aqui.