- Introdução
- Componentes do framework
- Document Understanding no AI Center
- Pipelines
- Pacotes de ML
- Gerenciador de Dados
- Serviços de OCR
- Licenciamento
- Referências
Guia do usuário do Document Understanding.
Form Extractor
O Form Extractor é uma abordagem de extração mais adequada para casos de uso em que documentos de formato não variável precisam ser processados, com dados extraídos deles. Em outras palavras, se seus documentos têm pouca ou nenhuma variação nos layouts do documento, então o Form Extractor é uma boa escolha.
O Form Extractor baseia-se em modelos definidos antecipadamente, na fase de design, e aplica um conjunto complexo de regras para aplicar os modelos configurados aos documentos recebidos que devem ser processados, identificando e reportando assim as informações esperadas.
A atividade vem com um assistente de configuração que o ajuda a definir os modelos para os tipos de documentos e campos que você deseja direcionar para extração de dados dessa forma.
A atividade suporta campos simples e extração de campos de tabela.
Recomenda-se procurar outros métodos de extração no caso de:
- haver muitos layouts que precisam ser manipulados
- os documentos não são apenas distorcidos, girados ou de tamanhos diferentes, mas também manifestam "empenamento" (curvatura em certas áreas).
Observação:
Na extração de formulários fixos, para avaliar se os layouts de dois arquivos são iguais, tente sobrepô-los em uma ferramenta, com alguma transparência, para verificar se todo o conteúdo não variável se sobrepõe (após reverter a rotação, distorção e configurando ambas as imagens para a mesma escala).
Se você notar variabilidade (o conteúdo não variável aparece mais à esquerda / direita / parte superior / inferior para determinadas áreas do documento), os layouts não são considerados iguais.
O Form Extractor permite definir vários modelos para o mesmo tipo de documento e, durante a execução, ele:
- identifica o melhor modelo correspondente para o documento recebido e o tipo de documento
- aplica o algoritmo de correspondência de modelo, com base em âncoras de nível de página, a cada página da qual os dados precisam ser extraídos (páginas ausentes ou repetidas não são suportadas)
- relata as informações identificadas das áreas de valor alvo.
Ele também suporta o ajuste fino do processamento de campos de lista de verificação / booleanos, permitindo a configuração do valor "Sinônimos" para "Sim" ou "Não", de acordo com o seu caso de uso.
Este extrator não possui recursos de aprendizado (treinamento) e requer configuração antecipada.
Você precisa usar sua chave de API Automation Cloud Document Understanding ou hospedar sua própria instância do Form Extractor no AI Center localmente para usar este extrator.
O Form Extractor possui duas configurações principais a serem consideradas:
- o assistente do Gerenciador de Modelos - que permite definir modelos a serem aplicados aos documentos recebidos. Este assistente também disponibiliza o assistente Editor de modelo, juntamente com as configurações de interpretação do campo booleano.
- A configuração PorcentagemDeSobreposiçãoDeMinutos - que permite que você controle o quão estrita deve ser a correspondência da área de valor. Aceita um valor entre 0 e 100 e controla quais palavras são aceitas ou rejeitadas como parte de um determinado valor, com base em quão bem sua localização se ajusta à área definida no modelo.
Este assistente permite criar, editar, gerenciar e exportar/importar modelos para os tipos de documentos definidos na taxonomia.
Criar um modelo
- Adicione uma atividade Form Extractor a seu fluxo de trabalho dentro da atividade Data Extraction Scope.
- Configure o extrator clicando no botão Gerenciar modelos.
- A janela Gerenciador de modelos é exibida.
- A janela Gerenciador de modelos é exibida.
- Clique no botão Criar modelo para criar um novo modelo.
- Selecione o tipo de documento para o qual você definindo o modelo, na lista suspensa Tipo de documento.
Observação: Todos os Tipos de documento são baseados na Taxonomia. Certifique-se de adicionar ou criar uma Taxonomia dentro da pasta do projeto.
- Adicione o nome do modelo no campo Nome do modelo. Certifique-se de que seja um nome relevante e que represente a versão do documento ou o layout que está capturando e configurando por meio dele.
- Adicione o caminho do documento no campo Modelo de documento.
- Navegue até o caminho do arquivo usando o botão Procurar.
- Selecione um OCR na lista suspensa Mecanismo de OCR e configure de acordo com suas necessidades.
- Clique no botão Configurar para acionar a edição de modelo.
O mecanismo de OCR é aplicado somente se necessário. Se o documento selecionado para criar um modelo for um PDF nativo, nenhum mecanismo de OCR será executado.
Cada mecanismo de OCR vem com seu próprio conjunto de opções personalizadas. Confira aqui mais detalhes sobre todas as opções disponíveis para cada mecanismo de OCR.
Se você já criou um modelo, ele pode ser editado, exportado ou removido.
Os botões Excluir e Exportar ficam disponíveis apenas quando pelo menos um modelo é selecionado. As opções Editar e Remover para um modelo individual estão sempre disponíveis.
Configurando o processamento de campo booleano
No
ou Yes
reportado.
Exportando e importando modelos
Você pode importar modelos criados e exportados de outros fluxos de trabalho. Use esses recursos para compartilhar modelos entre projetos, para que, uma vez que um tipo de documento seja configurado usando o Form Extractor, você não precise reconfigurar os modelos em uma nova implementação.
Procedimento de exportação
Essas são as etapas que você precisa seguir para exportar um modelo:
- Crie um ou mais modelos seguindo as etapas explicadas no início desta página.
- Selecione os modelos que deseja exportar.
- Selecione uma opção Exportar (com ou sem os arquivos originais), conforme mostrado na captura de tela abaixo. A exportação com arquivos originais os anexa à exportação. A segunda opção não anexa os arquivos usados para a criação do modelo.
- Salve o arquivo do modelo com o nome desejado.
- Uma mensagem é exibida assim que o modelo é salvo. Selecione o botão OK.
Observação:Se você não puder compartilhar o conteúdo dos documentos nos quais construiu seus modelos, use a opção "Sem arquivos originais". Você ainda poderá compartilhar e importar o arquivo de modelos em outros projetos, mas não poderá mais editá-los ou visualizá-los.
Se quiser editar os modelos depois de importados em um projeto diferente, certifique-se de usar a opção "Com arquivos originais" ao exportá-los e depois importá-los.
Procedimento de importação
Aqui estão as etapas que você precisa seguir para importar um modelo:
- Selecione o botão Importar.
- Selecione um arquivo. O assistente de importação aparece e apresenta todos os tipos de documentos e todos os modelos disponíveis no arquivo de exportação selecionado. Selecione os modelos que deseja importar e escolha a opção Importar adequada (com ou sem os arquivos originais).
Observação:- Quando os modelos são importados, os tipos de documento são criados automaticamente na Taxonomia do projeto. Se já existir um tipo de documento com o mesmo nome, outro será criado anexando uma contagem ao nome do tipo de documento.
- Se estiver importando modelos que foram exportados sem os arquivos originais ou se optar por importar modelos sem os arquivos originais, você não terá opções de exibição ou edição para esses modelos.
Situações especiais ao importar um modelo
Quando um modelo é importado, várias situações especiais podem ocorrer. A tabela abaixo explica cada situação e suas particularidades:
Import Type |
Comportamento da atividade |
---|---|
Tipo do novo documento |
Se um novo tipo de documento for importado, um novo campo será adicionado no configurador do assistente, informando que um novo modelo deve ser criado. |
Duplicar Tipo de documento |
Se um tipo de documento idêntico for importado, a seguinte mensagem de aviso será exibida:
|
Modelo estendido |
Se for importado um modelo de tipo de documento que inclua campos extras além do já existente, a seguinte mensagem de aviso será exibida:
|
Tipo de documento estendido |
Se o usuário importar um tipo de documento que inclua campos extras ao já existente, aparecerá a seguinte mensagem de aviso:
|
Tipo de documento com nome idêntico, mas conteúdo diferente |
Se o usuário importar um tipo de documento que tenha o mesmo nome do existente, mas campos diferentes, a seguinte mensagem de aviso será exibida:
|
Tipo de documento com tabela ausente |
Se o usuário importar um tipo de documento que não inclua uma tabela, a seguinte mensagem de aviso será exibida:
|
Tipo de documento com tabela estendida |
Se o usuário importar um tipo de documento que inclua uma tabela com colunas extras, a seguinte mensagem de aviso será exibida:
|
Tipo de documento com tabela reduzida |
Se o usuário importar um tipo de documento que inclua uma tabela com colunas ausentes, a seguinte mensagem de aviso será exibida:
|
Modelo de tabela com diferentes tipos de documento |
Se o usuário importar um modelo de tipo de documento que inclua uma tabela com diferentes tipos de documentos, um novo modelo será criado. Se a sua taxonomia incluir uma tabela que tenha um campo com um tipo de documento diferente, a seguinte mensagem será exibida:
|
Considerações gerais
O Editor de Modelos é construído sobre a funcionalidade presente na Estação de Validação.
Para saber mais sobre o uso básico da estação da Estação de Validação, leia isso.
Configurando âncoras de nível de página
Ao definir ou editar um modelo, a primeira coisa que precisa ser executada é a seleção das Informações de correspondência da página 1 para definição de modelo de formulário fixo.
Este campo que aparece do lado esquerdo da tela como primeiro campo precisa ser configurado com palavras (somente tokens são aceitos) da primeira página do modelo, que estão constantemente na mesma posição dentro desse layout de modelo específico, que formam um gráfico único de palavras (considerando distâncias relativas e ângulos entre palavras) em todos os modelos definidos para um determinado tipo de documento. Em outras palavras, as informações de correspondência da página 1 (e todos os outros campos de informações de correspondência da página) são "impressões digitais" de uma página específica e são amplamente usadas na identificação do modelo de correspondência correto em tempo de execução.
Por esse motivo, para o campo Informações de correspondência da página 1, é altamente recomendável selecionar de 10 a 20 palavras, de preferência mais longas, espalhadas por toda a área da página, que formariam um padrão único em todos os modelos definidos para aquele tipo de documento.
Os outros campos de Informações de correspondência da página (um para cada página de modelo) devem ser preenchidos apenas se você estiver tentando extrair dados dessa página específica e não exigir mais exclusividade entre modelos. Se nenhum campo precisar ser extraído de uma página específica, não é obrigatório definir as informações de correspondência de nível de página para essa página.
Configurando campos simples
Para todos os campos exceto Tabelas, a configuração do modelo consiste em selecionar uma Área personalizada e atribuí-la a um determinado campo.
Para configurações de formulário fixo, os campos de dados só podem ser configurados usando as seleções de Área personalizada.
Para qualquer campo, você pode definir uma ou mais dessas Áreas personalizadas usando o botão (+). Se definir duas ou mais áreas personalizadas para um único campo, em runtime, se o campo for definido na taxonomia como Valor único, todos os valores de todas as áreas personalizadas serão concatenados em um único valor relatado. Se, por outro lado, o campo for definido como Valor múltiplo, cada valor de cada área personalizada será relatado individualmente.
A animação abaixo mostra a diferença entre uma seleção de Tokens ou Área personalizada:
Você também pode saber o tipo de seleção aceita para cada campo verificando o ícone ao lado de cada campo conforme a animação abaixo:
Se uma área vazia for selecionada, a seleção será automaticamente definida como Área personalizada.Se texto for detectado dentro da área selecionada, você será solicitado a escolher o tipo de seleção entre Tokens ou Área personalizada.
Use o recurso "modo de seleção" da Estação de Validação para bloquear sua seleção entre Tokens e Áreas personalizadas.
Configurando tabelas
Conforme mencionado acima, há campos nos quais as informações podem ser adicionadas apenas por meio de tokens (como os campos de Informação de correspondência de página) ou apenas usando uma área personalizada (como os campos simples). Para campos de tabela, você pode
- definir cada célula uma a uma, uma vez que o Editor de Tabelas for expandido - adicionando a seleção Área personalizada para cada célula individualmente, ou
- use a funcionalidade de marcação de tabela - marcando a área da tabela, desenhando linha e separadores de coluna e, em seguida, atribuindo a tabela assim marcada ao campo.
Confira a animação abaixo para aprender a usar a funcionalidade de marcação de tabela: