activities
latest
false
Importante :
A tradução automática foi aplicada parcialmente neste conteúdo.
Atividades de Document Understanding
Last updated 29 de out de 2024

Intelligent Form Extractor

UiPath.IntelligentOCR.Activities.DataExtraction.IntelligentFormExtractor

Description

Importante:

A atividade Intelligent Form Extractor está obsoleta e fora de suporte. Foi removida do seu respectivo pacote, o que significa que você só pode usá-lo em fluxos de trabalho onde foi adicionado anteriormente antes dessa descontinuação.

Embora os fluxos de trabalho que contêm a atividade Intelligent Form Extractor continuem a funcionar normalmente, você não pode adicionar a atividade a novos fluxos de trabalho. Recomendamos usar a atividade Form Extractor.

Analisa, extrai, corresponde e relata as informações necessárias de um documento, levando em consideração a posição das palavras, incluindo campos manuscritos e assinados. Esta atividade só pode ser usada em conjunto com a atividade Data Extraction Scope.

Observação:

Use os seguintes recursos para definir e configurar seu Intelligent Form Extractor:

Compatibilidade do projeto

Windows-Legacy | Windows

Propriedades

Painel de Propriedades
Comum
  • NomeDeExibição - o nome de exibição da atividade.
Entrada
  • ApiKey - Especifica a chave API da conta.
  • Endpoint - O URL para o servidor UiPath®. Por padrão, o ponto de extremidade é https://du.uipath.com/svc/intelligentforms. Para obter mais informações, acesse Endpoints públicos do Document Understanding.
  • MinOverlapPercentage - Especifica a área de sobreposição mínima (em porcentagem) entre uma caixa no documento e uma caixa no modelo necessária para fazer uma extração. O valor percentual pode ser definido entre 0 e 100. O valor padrão é 65.
  • Tempo limite — especifica o tempo (em milissegundos) a ser aguardado para que uma resposta do servidor seja executada antes de gerar um erro. O valor padrão é 100.000 milissegundos (100 segundos).
Diversos
  • Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
    Importante: ao usar a versão com base na nuvem deste software de extração de dados de documentos com qualquer chave da API Community da UiPath® , os documentos processados com o software são armazenados e usados pela UiPath® , juntamente com quaisquer dados pessoais que possam conter para o monitoramento do serviço. Os documentos processados usando qualquer endpoint de servidor da UiPath® com chaves de API corporativa não são armazenados pelo UiPath®. Nenhum documento é processado pela UiPath® se o software estiver configurado e usado em suas instalações.
    Observação:

    Depois que um modelo é criado, a atividade pode exibir um aviso informando que o número permitido de áreas manuscritas permitidas em uma página pode ter sido excedido.

    O fluxo de trabalho ainda pode ser executado e um erro é gerado apenas se o número de áreas manuscritas tiver sido realmente excedido (mais de 60/página).

Assistente do Gerenciador de modelos

Permite criar, editar, gerenciar e exportar/importar modelos para os tipos de documentos definidos na taxonomia.

Criar um modelo
  • Adicione uma atividade Intelligent Form Extractor a seu fluxo de trabalho dentro da atividade Data Extraction Scope.
  • Configure o extrator selecionando Gerenciar modelos.

    A janela Gerenciador de modelos é exibida.

    Figura 1. Visão geral do assistente Gerenciador de modelos

  • Selecione Criar modelo para criar um novo modelo.
    Figura 2. Visão geral do assistente Criar modelo

    Observação:

    Se o pacote UiPath.IntelligentOCR.Activities for atualizado para a v5.1.0, em seguida, o parâmetro ForçarAplicaçãoDeOCR foi substituído pelo ApplyOcrOnPDF. Aqui está a compatibilidade entre os parâmetros antigos e novos:

    • ForçarAplicaçãoDeOCR = True é substituído por AplicarOcrOnPDF = Yes;
    • ForçarAplicaçãoDeOCR = False é substituído por ApplyOcrOnPDF = Auto;
    • ForçarAplicaçãoDeOCR = Empty é substituído por ApplyOcrOnPDF = Auto;
    • ForçarAplicaçãoDeOCR = <user-defined variable> é substituído por AplicarOcrOnPDF = Auto.
  • Selecione o tipo de documento para o seu modelo na lista suspensa Tipo de documento
    Observação: Todos os Tipos de documento são baseados na Taxonomia. Certifique-se de adicionar ou criar uma Taxonomia dentro da pasta do projeto.
  • Adicione o nome do modelo no campo Nome do modelo. Escolha um nome relevante que reflita a versão ou o layout do seu documento.
  • Adicione o caminho do documento no campo Modelo de documento.
  • Navegue até o caminho do arquivo usando o botão Procurar.
  • Selecione um OCR na lista suspensa Mecanismo de OCR e configure de acordo com suas necessidades.
  • Selecione Configurar para disparar a edição do modelo.

    A opção Aplicar OCR em PDF estabelece se o processo de OCR deve ser aplicado ou não a documentos PDF. Três opções estão disponíveis na lista suspensa: True, Falsee Auto.

    Se definido como True, o OCR é aplicado a todas as páginas PDF do documento. Se definido como False, apenas o texto inserido digitalmente é extraído. O valor padrão é Auto, determinando se o documento requer a aplicação do algoritmo OCR dependendo do documento de entrada.

    Cada mecanismo de OCR vem com seu próprio conjunto de opções personalizadas. Acesse Mecanismos de OCR para obter mais detalhes sobre todas as opções disponíveis para cada mecanismo de OCR.

    Se você já criou um modelo, ele pode ser editado, exportado ou removido.

    As opções Excluir e Exportar ficam disponíveis apenas quando pelo menos um modelo é selecionado. As opções Editar e Remover para um modelo individual estão sempre disponíveis.

Figura 3. Exemplo de um modelo configurado no assistente Gerenciador de modelos

Observação: se um campo for marcado nas caixas Assinatura e Escrito manualmente nas caixas Gerenciador de modelos da atividade Intelligent Form Extractor, uma mensagem pop-up aparecerá informando que um campo pode ser adicionado apenas em uma caixa, não ambas.

Configurando o processamento de campo booleano

Para documentos que incluem caixas de seleção, você pode adicionar sinônimos conhecidos para as opções Sim e Não, ou você pode começar a partir de uma lista compilada por nós (consulte as sugestões de Adicionar recomendado). Esses valores são usados para interpretação de conteúdo booleano, que mapeia um valor capturado para um valor Sim ou Não reportado.

Next to Synonym for Yes, and Synonym for No, select Add recommended to generate the suggestions.

Figure 4. Animated image showing the selection of Add recommended and generating suggestions

Observação: a caixa de seleção Diferenciação de maiúsculas e minúsculas precisa ser verificada se os sinônimos que você adicionou forem sensíveis a maiúsculas e minúsculas.

Exportando e importando modelos

Você pode importar modelos criados e exportados de outros fluxos de trabalho. Use esses recursos para compartilhar modelos entre projetos. Depois que um tipo de documento é configurado usando a atividade Intelligent Form Extractor, você não precisa reconfigurar os modelos em uma nova implementação.

Procedimento de exportação

Essas são as etapas que você precisa seguir para exportar um modelo:

  1. Crie um ou mais modelos seguindo as etapas explicadas no início desta página.
  2. Selecione os modelos que deseja exportar.
  3. Selecione uma opção Exportar:
    1. Exportar com arquivos originais

      A exportação com arquivos originais os anexa à exportação.

    2. Exportar sem arquivos originais
      Figura 5. As opções Exportar disponíveis no assistente Gerenciador de modelos

  4. Salve o arquivo do modelo com o nome desejado.
  5. Uma mensagem é exibida assim que o modelo é salvo. Selecione OK.
    Figura 6. A mensagem "Modelo(s) X" exportado com sucesso"

    Observação:

    Se você não puder compartilhar o conteúdo dos documentos nos quais você criou seus modelos, use a opção Exportar sem arquivos originais. Você ainda pode compartilhar e importar o arquivo de modelo em outros projetos, mas não pode mais editá-los ou visualizá-los.

    Se você quiser editar os modelos uma vez importados em um projeto diferente, certifique-se de usar a opção Exportar com arquivos originais ao exportar e, em seguida, importá-los.

Procedimento de importação

Aqui estão as etapas que você precisa seguir para importar um modelo:

  1. Selecione Importar.
    Figura 7. A ação de selecionar Importar

  2. Selecione um arquivo. O assistente de importação aparece e apresenta todos os tipos de documentos e todos os modelos disponíveis no arquivo de exportação selecionado. Selecione os modelos que você deseja importar e escolha a opção Importar direita:
    1. Importar com arquivos originais
    2. Importar sem arquivos originais
      Figura 8. As opções Importar disponíveis no assistente Gerenciador de modelos

      Observação:
      • Quando os modelos são importados, os tipos de documento são criados automaticamente na Taxonomia do projeto. Se já existir um tipo de documento com o mesmo nome, outro será criado anexando uma contagem ao nome do tipo de documento.
      • Se estiver importando modelos que foram exportados sem os arquivos originais ou se optar por importar modelos sem os arquivos originais, você não terá opções de exibição ou edição para esses modelos.
Situações especiais ao importar um modelo

Quando um modelo é importado, várias situações especiais podem ocorrer. A lista a seguir explica cada tipo de importação e suas especificidades:

  • Novo tipo de documento: se um novo tipo de documento for importado, um novo campo será adicionado na configuração do assistente, informando que um novo modelo deve ser criado.
  • Tipo de documento duplicado: se um tipo de documento idêntico for importado, a seguinte mensagem de aviso aparecerá: "Esse modelo já existe e será substituído."
  • Modelo estendido: se um modelo de tipo de documento que inclui campos extras do que o já existente, for importado, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não existem e serão criados."
  • Tipo de documento estendido: se o usuário importar um tipo de documento que inclui campos extras do que o já existente, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não têm configurações para importar".
  • Tipo de documento com nome idêntico, mas conteúdo diferente: se o usuário importar um tipo de documento que tenha o mesmo nome que o existente, mas campos diferentes, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma":
    • "Os seguintes campos não existem e serão criados"
    • "Os seguintes campos não têm configurações para importar"
  • Tipo de documento com tabela ausente: se o usuário importar um tipo de documento que não inclui uma tabela, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não têm configurações para importar."
  • Tipo de documento com tabela estendida: se o usuário importar um tipo de documento que inclui uma tabela com colunas extras, a seguinte mensagem de aviso aparecerá: "Esse documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não existem e serão criados."
  • Tipo de documento com tabela reduzida: se o usuário importar um tipo de documento que inclui uma tabela com colunas ausentes, a seguinte mensagem de aviso aparecerá: "Esse documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não têm configurações para importar".
  • Modelo de tabela com diferentes tipos de documentos: se o usuário importar um modelo de tipo de documento que inclui uma tabela com diferentes tipos de documentos, um novo modelo será criado.

    Se a sua taxonomia incluir uma tabela que tenha um campo com um tipo de documento diferente, a seguinte mensagem será exibida:

    O campo com id xyz foi localizado tanto na taxonomia importada quanto na taxonomia existente, mas seus tipos são incompatíveis (ambos ou nenhum devem ser tabelas).

Assistente do Editor de modelos

Considerações gerais

O Editor de modelo é criado sobre a funcionalidade presente na estação de validação. Para acessá-lo, selecione Editar para um modelo.

Acesse Estação de validação para saber mais sobre o uso básico da Estação de Validação.

Além das opções disponíveis na parte direita da tela Estação de Validação, há as seguintes opções no Editor de modelo:
  • Âncora: define o modo de seleção de âncora.
  • Limpar âncoras: limpa toda a seleção de âncora

Ao criar um novo modelo, um texto explicativo aparece ao abrir o Editor de modelo. Caso você queira acessar o texto novamente, acesse a seção Visualização de documentos no lado direito, selecione Mais opções e, em seguida, Mostrar texto explicativo.

Figura 9. A ação de mostrar o texto da explicação

Configuração de âncoras

As âncoras podem ser definidas uma vez que o Editor de modelo é aberto no Gerenciador de modelos e podem ser encontradas entre as opções do Modo de seleção.

Ao definir ou editar um modelo de nível de página, embora seja opcional, a primeira coisa que precisa ser executada é a seleção de informações de correspondência da página 1. Esta etapa é obrigatória apenas para modelos de formulários fixos.

Situada no lado esquerdo da tela, a seleção de informações de correspondência da página 1 requer uma entrada de texto (somente tokens são aceitos) da primeira página do modelo que está sempre na mesma posição dentro desse layout de modelo específico e forma um gráfico exclusivo de palavras (considerando distâncias relativas e ângulos entre palavras) em todos os modelos definidos para um determinado tipo de documento.

Em outras palavras, as informações de correspondência da página 1 (e todos os outros campos de informações de correspondência da página) são "impressões digitais" de uma página específica e são amplamente usadas na identificação do modelo de correspondência correto em runtime.

Por esse motivo, para o campo Page 1 Matching Info , é altamente recomendável selecionar de 10 a 20 palavras, de preferência mais longas, espalhadas por toda a área da página.

Os outros campos de Informações de correspondência da página (um para cada página de modelo) devem ser preenchidos apenas se você estiver tentando extrair dados dessa página específica e não exigir mais exclusividade entre modelos. Se nenhum campo precisar ser extraído de uma página específica, não é obrigatório definir as informações de correspondência de nível de página para essa página.

Configurando campos simples

Para todos os campos exceto Tabelas, a configuração do modelo consiste em selecionar uma Área personalizada e atribuí-la a um determinado campo.

Para configurações de formulário fixo, os campos de dados só podem ser configurados usando as seleções de Área personalizada.

Para um campo, você pode definir uma ou mais dessas Áreas personalizadas, usando a opção Adicionar. Se duas ou mais Áreas personalizadas forem definidas para um único campo, no runtime, se o campo for definido na Taxonomia como Valor único, todos os valores serão concatenados em um único valor relatado. Se o campo for definido como Valor múltiplo, cada valor será relatado individualmente.

O ícone ao lado de cada campo indica o tipo de seleção compatível: Tokens ou área personalizada.

Figura 10. Imagem animada mostrando os tipos de seleções compatíveis com campos de amostra

Observação:

Se uma área vazia for selecionada, a seleção será automaticamente definida como Área personalizada.Se texto for detectado dentro da área selecionada, você será solicitado a escolher o tipo de seleção entre Tokens ou Área personalizada.

Use a funcionalidade de modo seleção da Estação de Validação para bloquear sua seleção entre Tokens e Áreas personalizadas.

Configurando tabelas

Conforme mencionado acima, há campos nos quais as informações podem ser adicionadas apenas por meio de Tokens (como os campos de Informação de correspondência de página) ou apenas usando uma Área personalizada (como os campos simples). Para campos de tabela, você pode fazer o seguinte:

  • Defina cada célula uma por uma, assim que o Editor de tabela for expandido, adicionando seleção Área personalizada a cada célula individualmente.
  • Use a funcionalidade de marcação de tabela, marcando a área da tabela, separadores de linha de desenho e coluna e, em seguida, atribuindo a tabela assim marcada ao campo. Certifique-se de que a área extraída tenha o mesmo número de colunas e linhas que a área do modelo.
Para usar a funcionalidade de marcação de tabela:
  1. Selecione Mais opções para o campo de tabela
  2. Selecione Extrair nova tabela.
  3. Selecione a tabela que você deseja extrair.
  4. Para cada campo acima de cada coluna de tabela, selecione o nome da coluna que você deseja que ele represente.

    Você também pode optar por Extrair cabeçalho.

  5. Por fim, selecione Salvar nova tabela.
Figura 11. Imagem animada de um exemplo usando a funcionalidade de marcação de tabela

Configuração das âncoras

Um método distinto de definir os limites de uma área personalizada da qual os dados devem ser extraídos é usar âncoras no nível do campo. Isso permite direcionar a extração de dados com base em configurações de nível de campo, possibilitando assim mais flexibilidade ao definir suas regras de extração de formulário.

Consequentemente, no tempo de execução, o Intelligent Form Extractor sabe como realizar o seguinte:

  • identificar se um modelo de nível de página corresponde e extrair informações de acordo com a melhor correspondência de modelo de nível de página que ele reconhece;
  • identificar se alguma configuração baseada em âncora corresponde e extrair informações de acordo com sua aplicação no documento a ser processado;
  • calcule pontuações de confiança apropriadas para todas as correspondências possíveis para poder relatar o melhor resultado (a correspondência de maior probabilidade) de todas as opções disponíveis.
Criando uma nova configuração de âncora
  1. Certifique-se de estar no modo Seleção de Âncora .
  2. Desenhe uma caixa ao redor da área de valor.
  3. Selecione um Rótulo (âncora principal) para sua área de valor usando um dos seguintes métodos:
    • Selecione a primeira palavra e, em seguida, use Ctrl + Selectpara a última palavra da seleção.
    • Selecione, arraste e, em seguida, solte para capturar um intervalo de palavras.
      Observação: um rótulo só pode conter palavras consecutivas da mesma linha visual.
  4. Selecione qualquer âncora adicional que identificaria exclusivamente seu rótulo. O mesmo princípio de seleção se aplica.
  5. Atribua sua construção de âncora ao campo apropriado selecionando Extrair valor para um campo em específico.
    Figura 12. Exemplo de criação de várias âncoras para um campo

    Observação: você também pode usar os exemplos anteriores desta página para saber como criar um modelo e definir áreas e âncoras de extração.
Edite uma configuração de âncora existente
  1. Destaque sua configuração de âncora.
  2. Faça alterações (exclua quaisquer âncoras, o rótulo, até mesmo a área de valor, se desejar, adicione novos elementos, etc.).
  3. Selecione Mais opções para uma âncora de campo e, em seguida, use a opção Alterar valor extraído para atualizar sua associação de campo.
    Figura 13. Exemplo de alteração do valor extraído para um campo

    Observação:
    • Se você excluir a área de destino, todas as âncoras serão excluídas e o processo deve ser reiniciado.
    • Se você excluir o rótulo (âncora principal), a primeira âncora na ordem em que foi criada se tornará o novo rótulo.
Excluir uma configuração de âncora existente

Para excluir uma configuração de âncora, você pode:

  • Selecione Mais opções para uma âncora de campo e use a opção Marcar como Ausente para um valor salvo.
    Figura 14. Exemplo de uso da opção Marcar como ausente para excluir uma configuração de âncora

  • Selecione Mais opções para uma âncora de campo e use a opção Remover valor, caso de uma lista de âncoras definidas para um determinado campo.
    Figure 15. Example of using the Remove Value option to delete an anchor setting

Configurações de combinação e junção

Você pode definir quantos modelos quiser para o mesmo tipo de documento. Você pode ter vários modelos de nível de página, várias âncoras para o mesmo campo, até mesmo modelos contendo âncoras de nível de página e de campo.

Observação:
  • Ao definir âncoras no nível do campo, certifique-se de que seu rótulo esteja próximo à sua área de valor e seja suportado por âncoras adicionais se a mesma construção de texto puder ser encontrada em vários locais no mesmo documento.
  • Quanto maior o comprimento dos seus rótulos e âncoras, mais precisão você recebe.

A área de valor é sempre calculada com base em sua posição relativa em relação ao seu rótulo (âncora principal). Escolha suas âncoras principais adequadamente. Ter âncoras no nível do campo permite que os campos se movam dentro do modelo e ainda sejam capturados, oferecendo mais flexibilidade nas alterações de layout do documento.

Integração de Compreensão de Documentos

A atividade Intelligent Form Extractor faz parte das Document Understanding Solutions. Acesse o Guia do Document Understanding para obter mais informações.

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.