- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Pipelines
- Gerenciador de Dados
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
Form Extractor
O Form Extractor é mais adequado para extrair, combinar e relatar informações específicas, analisando a posição da palavra dentro do documento ou detectando uma assinatura.
O Form Extractor utiliza modelos definidos antecipadamente, na fase de projeto. Um conjunto complexo de regras aplica os modelos configurados aos documentos recebidos que devem ser processados, identificando e relatando as informações esperadas.
A atividade vem com um assistente de configuração que ajuda a definir os modelos para os tipos de documentos e campos que você deseja direcionar para a extração de dados.
A atividade oferece suporte à extração de campo simples e campo de tabela e, conforme mencionado anteriormente, pode detectar um campo de assinatura.
Mais informações relacionadas ao Form Extractor:
- Página da atividade Form Extractor
- Gerenciador de Taxonomia - instruções de configuração
- Assistente do Gerenciador de Modelo - instruções de configuração
- Exemplo de fluxo de trabalho ancorado
Recomenda-se procurar outros métodos de extração no caso de:
- haver muitos layouts que precisam ser manipulados
-
os documentos não são apenas distorcidos, rotacionados ou de tamanhos diferentes, mas também manifestam "deformações" (curvas em determinadas áreas).
Observação:Na extração de formulários fixos, para avaliar se os layouts de dois arquivos são iguais, tente sobrepô-los em uma ferramenta, com alguma transparência, para verificar se todo o conteúdo não variável se sobrepõe (após reverter a rotação, distorção e configurando ambas as imagens para a mesma escala).
Se você notar variabilidade (o conteúdo não variável aparece mais à esquerda / direita / parte superior / inferior para determinadas áreas do documento), os layouts não são considerados iguais.
O Form Extractor permite definir vários modelos para o mesmo tipo de documento e, durante a execução, ele:
- identifica o melhor modelo correspondente para o documento recebido e o tipo de documento
- aplica o algoritmo de correspondência de modelo, com base em âncoras de nível de página, a cada página de onde os dados precisam ser extraídos (páginas ausentes ou repetidas não são suportadas)
- aplica todas as configurações de âncora ao nível de campo a cada página para capturar valores associados a possíveis correspondências
- relata as informações identificadas das áreas de valor alvo.
Ele também suporta o ajuste fino do processamento de campos de lista de verificação / booleanos, permitindo a configuração do valor "Sinônimos para Sim" ou "Sinônimos para Não", de acordo com o seu caso de uso.
Este extrator não possui recursos de aprendizado (treinamento) e requer configuração.
O Form Extractor possui duas configurações principais a serem consideradas:
- o assistente do Gerenciador de Modelos - que permite definir modelos a serem aplicados aos documentos recebidos. Este assistente habilita o Editor de Modelos e as configurações de Interpretação de campo booleano.
- a configuração MinOverlapPercentage - que permite que você controle quão rigorosa deve ser a correspondência da área de valor. Aceita um valor entre
0
e100
e controla quais palavras são aceitas ou rejeitadas como parte de um determinado valor, com base em quão bem sua localização se ajusta à área definida no modelo.
Mais informações sobre como usar o assistente de atividade Form Extractor podem ser encontradas aqui.