Atividades - Form Extractor

activities

latest

false

Atividades do Document Understanding

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Form Extractor

Extraia dados estruturados de formulários usando a correspondência de palavras baseada em âncora com a atividade Form Extractor.

UiPath.IntelligentOCR.Activities.DataExtraction.FormExtractor

Description

Observação:

Due to licensing purposes, the Form Extractor activity requires an Internet connection to run the robot.

O Extrator de formulários é mais adequado para extrair, combinar e relatar informações específicas analisando a posição da palavra dentro do documento ou detectando uma assinatura. Esta atividade só pode ser usada em conjunto com a atividade Data Extraction Scope . O texto manuscrito também pode ser detectado se a atividade Form Extractor for usada com a atividade UiPath Document OCR .

Compatibilidade do projeto

Windows

Configuração

Painel de Propriedades

Comum

DisplayName - O nome de exibição da atividade.

Entrada

ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.
Endpoint - O URL para o servidor UiPath®. Por padrão, o ponto de extremidade é https://du.uipath.com/svc/formextractor. Para obter mais informações, acesse Endpoints públicos do Document Understanding.
MinOverlapPercentage - Specifies the minimum overlap area (in percentage) between a box in the document and a box in the template required to make an extraction. The percentage value can be set between 0 and 100. The default value is 65.
Enviar documentos - Envie documentos para melhor suporte, solução de problemas e melhorias de desempenho
Timeout - Specifies the amount of time (in milliseconds) to wait for a response from the server before an error is thrown. The default value is 100000 milliseconds (100 seconds).

Diversos

Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
Observação:
Multiple templates can be defined for one Document Type. When the activity is run, the extractor selects the best matching template based on the information found on the first page.

Assistente do Gerenciador de modelos

Permite criar, editar, gerenciar e exportar/importar modelos para os tipos de documentos definidos na taxonomia.

Criar um modelo

Add a Form Extractor activity to your workflow, within a Data Extraction Scope.
Configure o extrator selecionando Gerenciar modelos.

The Template Manager window opens.

Figura 1. Visão geral do assistente Gerenciador de modelos
Selecione Criar modelo para criar um novo modelo. Figura 2. Visão geral dos campos de configuração Criar um novo modelo
Observação:
Se o pacote UiPath.IntelligentOCR.Activities for atualizado para a v5.1.0, em seguida, o parâmetro ForçarAplicaçãoDeOCR foi substituído pelo ApplyOcrOnPDF. Aqui está a compatibilidade entre os parâmetros antigos e novos:
- ForçarAplicaçãoDeOCR = True é substituído por ApplyOcrOnPDF = Yes;
- ForçarAplicaçãoDeOCR = False é substituído por ApplyOcrOnPDF = Auto;
- ForçarAplicaçãoDeOCR = Empty é substituído por ApplyOcrOnPDF = Auto;
- ForçarAplicaçãoDeOCR = <user-defined variable> é substituído por ApplyOcrOnPDF = Auto.
A opção Aplicar OCR em PDF estabelece se o processo de OCR deve ser aplicado ou não aos documentos de PDF. Três opções estão disponíveis na lista suspensa: True, False e Auto. Se definido como True, o OCR é aplicado a todas as páginas PDF do documento. Se definido como False, apenas o texto inserido digitalmente é extraído. O valor padrão é Auto, determinando se o documento requer a aplicação do algoritmo OCR dependendo do documento de entrada. Cada mecanismo de OCR vem com seu próprio conjunto de opções personalizadas. Acesse a página Mecanismo de OCR para obter mais detalhes sobre todas as opções disponíveis para cada mecanismo de OCR. O mecanismo de OCR padrão é o UiPath Document OCR.
Select the document type for your template from the Document Type dropdown list.

Observação:
All Document Types are based on the Taxonomy. Make sure to add or create a taxonomy inside the project's folder.
Add the name of the template in the Template name field. Choose a relevant name that reflects the version or the layout of your document.
Adicione o caminho do documento no campo Modelo de documento. Navegue até o caminho do arquivo usando a opção Navegar.
Selecione um OCR na lista suspensa Mecanismo de OCR e configure de acordo com suas necessidades.
Selecione Configurar para disparar a edição do modelo.

Se você já criou um modelo, ele pode ser editado, exportado ou removido. As opções Excluir e Exportar ficam disponíveis apenas quando pelo menos um modelo é selecionado.As opções Editar e Remover para um modelo individual estão sempre disponíveis.

Figura 3. Imagem animada da seleção das opções Excluir ou Exportar para um modelo

Configurando o processamento de campo booleano

Para documentos que incluem caixas de seleção, você pode adicionar sinônimos conhecidos para as opções Sim e Não ou você pode começar a partir de uma lista compilada pela UiPath® (selecione Adicionar Recomendada). Esses valores são usados para interpretação de conteúdo Boolean , que consiste em mapear um valor capturado para um valor relatado Sim ou Não .

Figura 4. Imagem animada mostrando a sugestão gerada após selecionar Adicionar campos recomendados para os Sinônimos para Sim e Sinônimos para Não

Observação:

A caixa de seleção Diferenciação de maiúsculas e minúsculas precisa ser verificada se os sinônimos que você adicionou forem sensíveis a maiúsculas e minúsculas.

Exportando e importando modelos

You can import templates created and exported from other workflows. Use these features to share templates between projects. Once a document type is configured using the Form Extractor, you don't need to reconfigure the templates in a new implementation.

Procedimento de exportação

Essas são as etapas que você precisa seguir para exportar um modelo:

Crie um ou mais modelos seguindo as etapas explicadas no início desta página.
Selecione os modelos que deseja exportar.
Selecione uma opção Exportar :
1. Exportar com arquivos originaisA exportação com arquivos originais os anexa à exportação.
2. Exportar sem arquivos originais
  
  Figura 5. A ação de selecionar as opções Exportar com os arquivos originais
Salve o arquivo do modelo com o nome desejado.
Uma mensagem é exibida assim que o modelo é salvo. Selecione OK.

Figura 6. A mensagem de modelo(s) "X" exportada com sucesso

Observação:
Se você não puder compartilhar o conteúdo dos documentos nos quais você criou seus modelos, use a opção Exportar sem arquivos originais. Você ainda pode compartilhar e importar o arquivo de modelo em outros projetos, mas não pode mais editá-los ou visualizá-los.
Se você quiser editar os modelos uma vez importados em um projeto diferente, certifique-se de usar a opção Exportar com arquivos originais ao exportar e, em seguida, importá-los.

Procedimento de importação

Aqui estão as etapas que você precisa seguir para importar um modelo:

Selecionar Import.

Figura 7. A ação de selecionar Importar no assistente Gerenciador de modelos
Selecione um arquivo. O assistente de importação aparece e apresenta todos os tipos de documentos e todos os modelos disponíveis no arquivo de exportação selecionado. Selecione os modelos que você deseja importar e escolha a opção Importar desejada:
1. Importar com arquivos originais
2. Importar sem arquivos originaisFigura 8. As opções de Importar no assistente Gerenciador de modelos
  Observação:
  - Quando os modelos são importados, os tipos de documento são criados automaticamente na Taxonomia do projeto. Se já existir um tipo de documento com o mesmo nome, outro será criado anexando uma contagem ao nome do tipo de documento.
  - Se estiver importando modelos que foram exportados sem os arquivos originais ou se optar por importar modelos sem os arquivos originais, você não terá opções de exibição ou edição para esses modelos.

Situações especiais ao importar um modelo

Quando um modelo é importado, várias situações especiais podem ocorrer. A lista a seguir explica cada situação e suas especificidades:

Novo tipo de documento: se um novo tipo de documento for importado, um novo campo será adicionado no configurador do assistente, informando que um novo modelo deve ser criado.
Tipo de documento duplicado: se um tipo de documento idêntico for importado, a seguinte mensagem de aviso aparecerá: "Esse modelo já existe e será substituído."
Modelo estendido: se um modelo de tipo de documento que inclui campos extras do que o já existente, for importado, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não existem e serão criado".
Tipo de documento estendido: se o usuário importar um tipo de documento que inclui campos extras do que o já existente, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não têm configurações a serem importar".
Tipo de documento com nome idêntico, mas conteúdo diferente: se o usuário importar um tipo de documento que tenha o mesmo nome que o existente, mas campos diferentes, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma":
- "Os seguintes campos não existem e serão criados"
- "Os seguintes campos não têm configurações para importar"
Tipo de documento com tabela ausente: se o usuário importar um tipo de documento que não inclui uma tabela, a seguinte mensagem de aviso aparecerá: "Este tipo de documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não possuem configurações para importar."
Tipo de documento com tabela estendida: se o usuário importar um tipo de documento que inclui uma tabela com colunas extras, a seguinte mensagem de aviso aparecerá: "Este documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não existem e serão criados ".
Tipo de documento com tabela reduzida: se o usuário importar um tipo de documento que inclui uma tabela com colunas ausentes, a seguinte mensagem de aviso aparecerá: "Este documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não possuem configurações para importar "
Modelo de tabela com diferentes tipos de documentos: se você importar um modelo de tipo de documento que inclui uma tabela com diferentes tipos de documentos, um novo modelo será gerado. Se sua taxonomia incluir uma tabela que possui um campo com um tipo de documento diferente, a seguinte mensagem aparecerá: "O campo com ID xyz foi encontrado tanto na taxonomia importada quanto na taxonomia existente, mas seus tipos são incompatíveis (seja ambas devem ser tabelas ou nenhuma delas)".

Assistente do Editor de modelos

Considerações gerais

O Editor de Modelos é criado sobre a funcionalidade presente na estação de Validação. Para acessá-lo, selecione Editar para um modelo.

Acesse Estação de validação para saber mais sobre o uso básico da Estação de Validação.

Além das opções disponíveis na parte direita da tela Estação de Validação, há duas opções específicas do Editor de modelo:

: Define o modo de seleção de âncora;
: Limpa toda a seleção de âncora.

Ao criar um novo modelo, um texto explicativo aparece ao abrir o Editor de modelo. Caso você queira acessar o texto novamente, acesse a seção Visualização de documentos no lado direito, selecione Mais opções e, em seguida, Mostrar texto explicativo.

Figura 9. A ação de mostrar o texto da explicação

As informações da tabela podem ser modificadas no nível da célula ou da tabela.Acesse a Estação de Validação Atual para obter mais informações sobre como configurar tabelas no nível da célula e no nível da tabela.

Configuração de âncoras

Anchors can be defined once the Template Editor is opened from the Template Manager and can be found among the Selection Mode options.

When defining or editing a page-level template, although it is optional, the first thing that needs to be performed is the Page 1 Matching Info selection. This step is mandatory only for fixed form templates.

Situated on the left side of the screen, the Page 1 Matching Info selection requires a text input (tokens only are accepted) from the first page of the template that is always in the same position within that particular template layout and forms a unique graph of words (considering relative distances and angles between words) across all the templates defined for a particular document type.

In other words, the Page 1 Matching Info (and all other Page Matching Info fields) are "fingerprints" of a particular page and are extensively used in identifying the right matching template at runtime.

For this reason, for the Page 1 Matching Info field, it is strongly recommended to select 10 to 20 words, preferably longer, spread across the entire page area.

The other Page Matching Info fields (one for each template page) must be filled in only if you are attempting data extraction from that particular page, and do not require cross-template uniqueness anymore. If no fields need to be extracted from a particular page, defining the page-level matching info for that page is not mandatory.

Configurando campos simples

Para todos os campos exceto Tabelas, a configuração do modelo consiste em selecionar uma Área personalizada e atribuí-la a um determinado campo.

For fixed form configurations, data fields can only be configured using Custom Area selections.

Para um campo, você pode definir uma ou mais dessas Áreas personalizadas, usando o botão Adicionar. Se duas ou mais Áreas personalizadas forem definidas para um único campo, no runtime, se o campo for definido na Taxonomia como Valor único, todos os valores serão concatenados em um único valor relatado. Se o campo for definido como Valor múltiplo, cada valor será relatado individualmente.

O ícone ao lado de cada campo indica o tipo de seleção compatível: Tokens ou área personalizada.

Figura 10. Imagem animada mostrando os tipos de seleções compatíveis com campos de amostra

Observação:

If an empty area is selected, the selection is automatically set as Custom area. If text is detected inside the selected area, you are asked to choose the type of the selection between Tokens or Custom area.

Use the Validation Station selection mode feature to lock your selection between Tokens and Custom Areas.

Configurando tabelas

Conforme mencionado acima, há campos nos quais as informações podem ser adicionadas apenas por meio de Tokens (como os campos de Informação de correspondência de página) ou apenas usando uma Área personalizada (como os campos simples). Para campos de tabela, você pode fazer o seguinte:

Defina cada célula uma por uma, assim que o Editor de tabela for expandido - adicionando seleção Área personalizada a cada célula individualmente;
use a funcionalidade de marcação de tabela - marcando a área da tabela, desenhando linha e separadores de coluna e, em seguida, atribuindo a tabela assim marcada ao campo. Certifique-se de que a área extraída tenha o mesmo número de colunas e linhas que a área do modelo.

Para usar a funcionalidade de marcação de tabela:

Selecione Mais opções para o campo de tabela
Selecione Extrair nova tabela.
Selecione a tabela que você deseja extrair.
Para cada campo acima de cada coluna de tabela, selecione o nome da coluna que você deseja que ele represente. Você também pode optar por Extrair cabeçalho.
Por fim, selecione Salvar nova tabela.

Figura 11. Imagem animada de um exemplo usando a funcionalidade de marcação de tabela

Configuração das âncoras

Um método distinto de definir os limites de uma área personalizada da qual os dados devem ser extraídos é usar âncoras no nível do campo. Isso permite direcionar a extração de dados com base em configurações de nível de campo, possibilitando assim mais flexibilidade ao definir suas regras de extração de formulário.

Consequentemente, no tempo de execução, o Extrator de formulários sabe como realizar o seguinte:

identificar se um modelo de nível de página corresponde e extrair informações de acordo com a melhor correspondência de modelo de nível de página que ele reconhece;
identificar se alguma configuração baseada em âncora corresponde e extrair informações de acordo com sua aplicação no documento a ser processado;
calcule pontuações de confiança apropriadas para todas as correspondências possíveis para poder relatar o melhor resultado (a correspondência de maior probabilidade) de todas as opções disponíveis.

Criando uma nova configuração de âncora

Make sure you are in the Anchor Selection mode.
Desenhe uma caixa ao redor da área de valor.
Selecione um Rótulo (âncora principal) para sua área de valor usando um dos seguintes métodos:
- Selecione a primeira palavra e, em seguida, use Ctrl + Selectpara a última palavra da seleção.
- Selecione, arraste e, em seguida, solte para capturar um intervalo de palavras.
  Observação:
  A Label can only contain consecutive words from the same visual line.
Selecione qualquer âncora adicional que identificaria exclusivamente seu rótulo. O mesmo princípio de seleção se aplica.
Assign your anchor construct to the appropriate field by selecting Extract Value for that particular field.

Figura 12. Exemplo de criação de várias âncoras para um campo

Observação:
Você também pode usar os exemplos anteriores desta página para saber como criar um modelo e definir áreas e âncoras de extração.

Edite uma configuração de âncora existente

Destaque sua configuração de âncora.
Faça alterações (exclua quaisquer âncoras, o rótulo, até mesmo a área de valor, se desejar, adicione novos elementos, etc.).
Selecione Mais opções para uma âncora de campo e, em seguida, use a opção Alterar valor extraído para atualizar sua associação de campo. Figura 13. Exemplo de alteração do valor extraído para um campo
Observação:
- Se você excluir a área de destino, todas as âncoras serão excluídas e o processo deve ser reiniciado.
- Se você excluir o rótulo (âncora principal), a primeira âncora na ordem em que foi criada se tornará o novo rótulo.

Excluir uma configuração de âncora existente

Para excluir uma configuração de âncora, você pode usar uma das seguintes opções:

Selecione Mais opções para uma âncora de campo e use a opção Marcar como Ausente para um valor salvo.

Figura 14. Exemplo de uso da opção Marcar como ausente para excluir uma configuração de âncora
Selecione Mais opções para uma âncora de campo e use a opção Remover valor, caso de uma lista de âncoras definidas para um determinado campo.

Figura 15. Exemplo de uso da opção Remover valor para excluir uma configuração de âncora

Configurações de combinação e junção

Você pode definir quantos modelos quiser para o mesmo tipo de documento. Você pode ter vários modelos de nível de página, várias âncoras para o mesmo campo, até mesmo modelos contendo âncoras de nível de página e de campo.

Observação:

Ao definir âncoras no nível do campo, certifique-se de que seu rótulo esteja próximo à sua área de valor e seja suportado por âncoras adicionais se a mesma construção de texto puder ser encontrada em vários locais no mesmo documento.
Quanto maior o comprimento dos seus rótulos e âncoras, mais precisão você recebe.
A área de valor é sempre calculada com base em sua posição relativa em relação ao seu rótulo (âncora principal). Escolha suas âncoras principais adequadamente.
Ter âncoras no nível do campo permite que os campos se movam dentro do modelo e ainda sejam capturados, oferecendo mais flexibilidade nas alterações de layout do documento.

Integração de Compreensão de Documentos

A atividade Form Extractor faz parte das Document Understanding Solutions. Acesse o Guia do Document Understanding para obter mais informações.

Esta página foi útil?

AnteriorRegex Based Extractor

AvançarIntelligent Form Extractor

Description​

Compatibilidade do projeto​

Configuração​

Painel de Propriedades​

Comum​

Entrada​

Diversos​

Assistente do Gerenciador de modelos​

Criar um modelo​

Configurando o processamento de campo booleano​

Exportando e importando modelos​

Procedimento de exportação​

Procedimento de importação​

Situações especiais ao importar um modelo​

Assistente do Editor de modelos​

Considerações gerais​

Configuração de âncoras​

Configurando campos simples​

Configurando tabelas​

Configuração das âncoras​

Criando uma nova configuração de âncora​

Edite uma configuração de âncora existente​

Excluir uma configuração de âncora existente​

Configurações de combinação e junção​

Integração de Compreensão de Documentos​

Esta página foi útil?

Description

Compatibilidade do projeto

Configuração

Painel de Propriedades

Comum

Entrada

Diversos

Assistente do Gerenciador de modelos

Criar um modelo

Configurando o processamento de campo booleano

Exportando e importando modelos

Procedimento de exportação

Procedimento de importação

Situações especiais ao importar um modelo

Assistente do Editor de modelos

Considerações gerais

Configuração de âncoras

Configurando campos simples

Configurando tabelas

Configuração das âncoras

Criando uma nova configuração de âncora

Edite uma configuração de âncora existente

Excluir uma configuração de âncora existente

Configurações de combinação e junção

Integração de Compreensão de Documentos