- Introdução
- Componentes do framework
- Pacotes de ML
- Pipelines
- Gerenciador de Dados
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Aprendizagem profunda
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
Intelligent Form Extractor
O Intelligent Form Extractor é uma ferramenta especializada para o processamento de documentos de layout fixo para extração de dados, que se baseia no Form Extractor e adiciona recursos extras, como
- reconhecimento de manuscrito e extração de dados manuscritos,
- detecção de assinatura.
Os recursos adicionais do Intelligent Form Extractor, quando comparados ao Form Extractor, o tornam uma opção muito boa para processar todos os tipos de formulários que
- possam ter dados impressos OU manuscritos,
- possam exigir a verificação se o formulário está assinado ou não.
Esses dois recursos adicionais são configuráveis a partir do assistente do Gerenciador de Modelos da atividade, além das configurações já presentes no Form Extractor.
Este extrator não possui recursos de aprendizado (treinamento) e requer configuração antecipada.
Mais informações relacionadas ao Intelligent Form Extractor:
- Página da atividade Intelligent Form Extractor
- Gerenciador de Taxonomia - instruções de configuração
- Assistente do Gerenciador de Modelo - instruções de configuração
- Exemplo de fluxo de trabalho ancorado
Você precisa usar sua chave de API Automation Cloud Document Understanding ou hospedar sua própria instância do Intelligent Form Extractor no AI Center localmente para usar este extrator.
O Intelligent Form Extractor possui duas configurações principais a serem consideradas:
- o assistente do Gerenciador de Modelos - que permite definir modelos a serem aplicados aos documentos recebidos. Este assistente habilita o Editor de Modelos e as configurações de Interpretação de campo booleano.
- a configuração MinOverlapPercentage - que permite que você controle quão rigorosa deve ser a correspondência da área de valor. Aceita um valor entre
0
e100
e controla quais palavras são aceitas ou rejeitadas como parte de um determinado valor, com base em quão bem sua localização se ajusta à área definida no modelo.
Permite criar, editar, gerenciar e exportar/importar modelos para os tipos de documentos definidos na taxonomia.
Criar um modelo
- Adicione uma atividade Intelligent Form Extractor a seu fluxo de trabalho dentro da atividade Data Extraction Scope.
- Configure o extrator clicando no botão Gerenciar modelos.
- A janela Gerenciador de modelos é exibida.
- A janela Gerenciador de modelos é exibida.
- Clique no botão Criar modelo para criar um novo modelo.
- Selecione o tipo de documento para o seu modelo na lista suspensa Tipo de documento
Observação: Todos os Tipos de documento são baseados na Taxonomia. Certifique-se de adicionar ou criar uma Taxonomia dentro da pasta do projeto.
- Adicione o nome do modelo no campo Nome do modelo. Escolha um nome relevante que reflita a versão ou o layout do seu documento.
- Adicione o caminho do documento no campo Modelo de documento.
- Navegue até o caminho do arquivo usando o botão Procurar.
- Selecione um OCR na lista suspensa Mecanismo de OCR e configure de acordo com suas necessidades.
- Clique no botão Configurar para acionar a edição do modelo.
O mecanismo de OCR é aplicado somente se necessário. Se o documento selecionado para criar um modelo for um PDF nativo, nenhum mecanismo de OCR será executado, a menos que a opção Forçar aplicação de OCR esteja marcada. Se marcada, o OCR é aplicado mesmo em um arquivo PDF nativo.
Cada mecanismo de OCR vem com seu próprio conjunto de opções personalizadas. Confira aqui mais detalhes sobre todas as opções disponíveis para cada mecanismo de OCR.
Se você já criou um modelo, ele pode ser editado, exportado ou removido.
Os botões Excluir e Exportar ficam disponíveis apenas quando pelo menos um modelo é selecionado. As opções Editar e Remover para um modelo individual estão sempre disponíveis.
Configurando o processamento de campo booleano
Para os documentos que incluem caixas de seleção, você pode adicionar sinônimos conhecidos para as opções Sim e Não ou pode começar a partir de uma lista compilada por nós (consulte as sugestões de Adicionar recomendadas). Esses valores são usados para interpretação de conteúdo booleano, que mapeia um valor capturado para um valor Sim ou Não reportado.
Exportando e importando modelos
Você pode importar modelos criados e exportados de outros fluxos de trabalho. Use esses recursos para compartilhar modelos entre projetos. Depois que um tipo de documento é configurado usando a atividade Intelligent Form Extractor, você não precisa reconfigurar os modelos em uma nova implementação.
Procedimento de exportação
Essas são as etapas que você precisa seguir para exportar um modelo:
- Crie um ou mais modelos seguindo as etapas explicadas no início desta página.
- Selecione os modelos que deseja exportar.
- Selecione uma opção Exportar (com ou sem os arquivos originais), conforme mostrado na captura de tela abaixo. A exportação com arquivos originais os anexa à exportação.
- Salve o arquivo do modelo com o nome desejado.
- Uma mensagem é exibida assim que o modelo é salvo. Selecione o botão OK.
Observação:
Se você não puder compartilhar o conteúdo dos documentos nos quais construiu seus modelos, use a opção "Sem arquivos originais". Você ainda pode compartilhar e importar o arquivo de modelo em outros projetos, mas não pode mais editá-los ou visualizá-los.
Se você quiser editar os modelos depois de importados em um projeto diferente, certifique-se de usar a opção "Com arquivos originais" ao exportá-los e depois importá-los.
Procedimento de importação
Aqui estão as etapas que você precisa seguir para importar um modelo:
- Selecione o botão Importar.
- Selecione um arquivo. O assistente de importação aparece e apresenta todos os tipos de documentos e todos os modelos disponíveis no arquivo de exportação selecionado. Selecione os modelos que deseja importar e escolha a opção Importar adequada (com ou sem os arquivos originais).
Observação:
- Quando os modelos são importados, os tipos de documento são criados automaticamente na Taxonomia do projeto. Se já existir um tipo de documento com o mesmo nome, outro será criado anexando uma contagem ao nome do tipo de documento.
- Se estiver importando modelos que foram exportados sem os arquivos originais ou se optar por importar modelos sem os arquivos originais, você não terá opções de exibição ou edição para esses modelos.
Situações especiais ao importar um modelo
Quando um modelo é importado, várias situações especiais podem ocorrer. A tabela abaixo explica cada situação e suas particularidades:
Import Type |
Comportamento da atividade |
---|---|
Tipo do novo documento |
Se um novo tipo de documento for importado, um novo campo será adicionado no configurador do assistente, informando que um novo modelo deve ser criado. |
Duplicar Tipo de documento |
Se um tipo de documento idêntico for importado, a seguinte mensagem de aviso será exibida:
|
Modelo estendido |
Se um modelo de tipo de documento que inclui campos extras do que o já existente for importado, a seguinte mensagem de aviso será exibida:
|
Tipo de documento estendido |
Se o usuário importar um tipo de documento que inclua campos extras ao já existente, aparecerá a seguinte mensagem de aviso:
|
Tipo de documento com nome idêntico, mas conteúdo diferente |
Se o usuário importar um tipo de documento que tenha o mesmo nome do existente, mas campos diferentes, a seguinte mensagem de aviso será exibida:
|
Tipo de documento com tabela ausente |
Se o usuário importar um tipo de documento que não inclua uma tabela, a seguinte mensagem de aviso será exibida:
|
Tipo de documento com tabela estendida |
Se o usuário importar um tipo de documento que inclua uma tabela com colunas extras, a seguinte mensagem de aviso será exibida:
|
Tipo de documento com tabela reduzida |
Se o usuário importar um tipo de documento que inclua uma tabela com colunas ausentes, a seguinte mensagem de aviso será exibida:
|
Modelo de tabela com diferentes tipos de documento |
Se o usuário importar um modelo de tipo de documento que inclua uma tabela com diferentes tipos de documentos, um novo modelo será criado. Se a sua taxonomia incluir uma tabela que tenha um campo com um tipo de documento diferente, a seguinte mensagem será exibida:
|
Considerações gerais
O Editor de Modelos é construído sobre a funcionalidade presente na Estação de Validação. Acesse-o clicando no botão de um modelo.
Para aprender sobre o uso básico da Estação de validação leia esta seção.
Além das opções disponíveis na parte direita da tela da Estação de Validação, há duas opções específicas do Editor de modelo:
Opção |
Description |
---|---|
|
Define o modo de seleção de âncora |
|
Limpa toda a seleção de âncora |
Ao criar um novo modelo, um texto explicativo aparece ao abrir o Editor de modelo. Caso queira acessar o texto novamente, siga os passos abaixo:
Configuração de âncoras
As âncoras podem ser definidas uma vez que o Editor de modelo é aberto no Gerenciador de modelos e podem ser encontradas entre as opções do Modo de seleção.
Ao definir ou editar um modelo de nível de página, embora seja opcional, a primeira coisa que precisa ser executada é a seleção de informações de correspondência da página 1. Esta etapa é obrigatória apenas para modelos de formulários fixos.
Situada no lado esquerdo da tela, a seleção de informações de correspondência da página 1 requer uma entrada de texto (somente tokens são aceitos) da primeira página do modelo que está sempre na mesma posição dentro desse layout de modelo específico e forma um gráfico exclusivo de palavras (considerando distâncias relativas e ângulos entre palavras) em todos os modelos definidos para um determinado tipo de documento.
Em outras palavras, as informações de correspondência da página 1 (e todos os outros campos de informações de correspondência da página) são "impressões digitais" de uma página específica e são amplamente usadas na identificação do modelo de correspondência correto em runtime.
Por esse motivo, para o campo informações de correspondência da página 1, é altamente recomendável selecionar de 10 a 20 palavras, de preferência mais longas, espalhadas por toda a área da página.
Os outros campos de Informações de correspondência da página (um para cada página de modelo) devem ser preenchidos apenas se você estiver tentando extrair dados dessa página específica e não exigir mais exclusividade entre modelos. Se nenhum campo precisar ser extraído de uma página específica, não é obrigatório definir as informações de correspondência de nível de página para essa página.
Configurando campos simples
Para todos os campos exceto Tabelas, a configuração do modelo consiste em selecionar uma Área personalizada e atribuí-la a um determinado campo.
Para configurações de formulário fixo, os campos de dados só podem ser configurados usando as seleções de Área personalizada.
Para um campo, você pode definir uma ou mais dessas Áreas personalizadas, usando o botão (+). Se duas ou mais Áreas personalizadas forem definidas para um único campo, no runtime, se o campo for definido na Taxonomia como Valor único, todos os valores serão concatenados em um único valor relatado. Se o campo for definido como Valor múltiplo, cada valor será relatado individualmente.
A animação abaixo mostra a diferença entre uma seleção de Tokens e uma Área personalizada:
O ícone ao lado de cada campo indica o tipo de seleção suportada:
Se uma área vazia for selecionada, a seleção será automaticamente definida como Área personalizada.Se texto for detectado dentro da área selecionada, você será solicitado a escolher o tipo de seleção entre Tokens ou Área personalizada.
Use a funcionalidade de modo seleção da Estação de Validação para bloquear sua seleção entre Tokens e Áreas personalizadas.
Configurando tabelas
Conforme mencionado acima, há campos nos quais as informações podem ser adicionadas apenas por meio de Tokens (como os campos de Informação de correspondência de página) ou apenas usando uma Área personalizada (como os campos simples). Para campos de Tabela, você pode:
- definir cada célula uma a uma, uma vez que o Editor de Tabelas for expandido - adicionando a seleção Área personalizada para cada célula individualmente, ou
- use a funcionalidade de marcação de tabela - marcando a área da tabela, desenhando linha e separadores de coluna e, em seguida, atribuindo a tabela assim marcada ao campo. Certifique-se de que a área extraída tenha o mesmo número de colunas e linhas que a área do modelo.
Confira a animação abaixo para aprender a usar a funcionalidade de marcação de tabela:
Um método distinto de definir os limites de uma área personalizada da qual os dados devem ser extraídos é usar âncoras no nível do campo. Isso permite direcionar a extração de dados com base em configurações de nível de campo, possibilitando assim mais flexibilidade ao definir suas regras de extração de formulário.
Consequentemente, em runtime, a atividade Intelligent Form Extractor sabe como:
- identificar se um modelo de nível de página corresponde e extrair informações de acordo com a melhor correspondência de modelo de nível de página que ele reconhece;
- identificar se alguma configuração baseada em âncora corresponde e extrair informações de acordo com sua aplicação no documento a ser processado;
- calcule pontuações de confiança apropriadas para todas as correspondências possíveis para poder relatar o melhor resultado (a correspondência de maior probabilidade) de todas as opções disponíveis.
Criando uma nova configuração de âncora
- Certifique-se de estar no modo Seleção de âncora.
- Desenhe uma caixa ao redor da área de valor.
- Selecione um rótulo (âncora principal) para sua área de valor clicando na primeira palavra e, em seguida, Ctrl+Clique na última palavra da seleção ou clique, arraste e solte para capturar um intervalo de palavras.
Observação: um rótulo só pode conter palavras consecutivas da mesma linha visual.
- Selecione qualquer âncora adicional que identificaria exclusivamente seu rótulo. O mesmo princípio de seleção se aplica.
- Atribua sua construção de âncora ao campo apropriado selecionando Extrair valor para um campo em específico.
Observação: você também pode usar o exemplo disponível aqui para aprender como criar um modelo e definir áreas de extração e âncoras.
Edite uma configuração de âncora existente
- Destaque sua configuração de âncora.
- Faça alterações (exclua quaisquer âncoras, o rótulo, até mesmo a área de valor, se desejar, adicione novos elementos, etc.).
- Use a opção Alterar valor extraído para atualizar sua associação de campo.
Observação:- Se você excluir a área de destino, todas as âncoras serão excluídas e o processo deve ser reiniciado.
- Se você excluir o rótulo (âncora principal), a primeira âncora na ordem em que foi criada se tornará o novo rótulo.
Excluir uma configuração de âncora existente
Para excluir uma configuração de âncora, você pode:
- use as opções Marcar como ausente para um valor salvo
- use a opção Remover valor no caso de uma lista de âncoras definidas para um determinado campo
Configurações de combinação e junção
Você pode definir quantos modelos quiser para o mesmo tipo de documento. Você pode ter vários modelos de nível de página, várias âncoras para o mesmo campo, até mesmo modelos contendo âncoras de nível de página e de campo.
- Ao definir âncoras no nível do campo, certifique-se de que seu rótulo esteja próximo à sua área de valor e seja suportado por âncoras adicionais se a mesma construção de texto puder ser encontrada em vários locais no mesmo documento.
- Quanto mais longos forem seus rótulos e âncoras, mais precisão você terá.
- A área de valor é sempre calculada com base em sua posição relativa em relação ao seu rótulo (âncora principal). Escolha suas âncoras principais adequadamente.
- Ter âncoras no nível do campo permite que os campos se movam dentro do modelo e ainda sejam capturados, oferecendo mais flexibilidade nas alterações de layout do documento.