Atividades
Mais recente
falso
Imagem de fundo do banner
Atividades de Document Understanding
Última atualização 29 de abr de 2024

Regex Based Extractor

UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor

Permite criar e usar uma expressão baseada regular personalizada para extrair informações de um documento. Esta atividade só pode ser usada em conjunto com a atividade Data Extraction Scope.

Propriedades

Observação: esta atividade não pode funcionar com os campos set ou boolean .
Comum
  • NomeDeExibição - o nome de exibição da atividade.
Entrada
  • Configuração - Especifica o valor de configuração para o extrator como uma string de escape JSON . Use o assistente do extrator para gerar a configuração. Você pode manter a configuração no painel Propriedades , como uma string, ou pode defini-la usando o assistente e vinculá-la a uma variável. É aconselhável editar o campo Configuração usando o assistente e não o painel Propriedades .
  • Tempo limite - especifica o valor do tempo limite para qualquer pesquisa Regex, em milissegundos. Um tempo limite de 0, ou negativo, é interpretado como infinito. O valor padrão é 2000.
  • UseVisualAlignment - Se selecionado, as expressões regulares são aplicadas a uma versão de texto gerada com base em alinhamentos visuais de palavras (um alinhamento visual de palavras inclui palavras separadas por um único caractere de espaço, linhas separadas por um único caractere de nova linha e páginas separadas por dois caracteres de linha) . O valor padrão é Falso. Esta opção pode ser usada para layouts complexos, onde é mais fácil para os usuários escrever expressões regulares com base em como as palavras são organizadas visualmente nas linhas, ignorando qualquer frase, parágrafo ou grupo de layout identificado de outra forma no documento.
Diversos
  • Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.

Usando o Assistente para configurar expressões regulares

  1. Adicione uma atividade RegEx Based Extractor ao seu fluxo de trabalho, dentro de uma atividade Data Extraction Scope.
  2. Configure suas expressões regulares clicando no botão Configurar expressões.

    • A Janela do Assistente é exibida.



  3. Expanda uma entrada de tipo de documento para ver todos os campos definidos e para começar a configurar suas expressões regulares. Os tipos de documento e seus respectivos campos são lidos automaticamente a partir da Taxonomia do projeto. A opção de configuração de RegEx está disponível para todos os campos da taxonomia.

    • tipo de documento expandido mostrando um único campo regular:



    • Tipo de documento expandido e campo de tabela, exibindo opções de configuração para uma tabela:



      Para um campo simples, apenas uma única expressão regular pode ser definida usando o assistente RegEx que é aberto quando você clica na opção "Editar" ao lado desse campo.

      Para um campo de tabela, há várias configurações e opções disponíveis para definição:

    • A atividade Table Value RegEx pode ser usada para capturar uma área inteira da tabela. Se nenhum valor for adicionado na linha do campo Tabela, todo o conteúdo de texto do documento será considerado para processamento da tabela.
    • A atividade Rows Value RegEx pode ser usada para capturar uma linha inteira de uma determinada captura de tabela. Se nenhum valor for adicionado no campo Linhas, a área da tabela será dividida por fim de linha. Cada valor capturado é considerado a partir deste ponto como uma linha na qual a extração da coluna será aplicada.
    • A atividade Column Value RegEx pode ser usada para capturar o valor de uma coluna específica, de cada linha capturada.

      Cenários de uso de RegEx de Tabela, Linhas e Coluna:

    • Se você deixar os campos Table RegEx e Rows RegEx vazios, todas as linhas na versão de texto do documento serão usadas para aplicar as expressões regulartes de nível de coluna para identificação do valor da célula.
    • Se você definir um RegEx para capturar a área da tabela, mas deixar Rows RegEx vazio, todas as linhas na captura da tabela serão processadas individualmente usando cada Column RegEx para capturar os valores da célula.
    • Se você deixar o Table RegEx vazio, mas definir um Rows RegEx, todo o texto capturado com o Rows RegEx será usado e os Column RegExes serão aplicados para capturar valores de célula para cada linha.
    • Se você preencher ambos RegEx de Tabela e Linhas, a atividade aplica o RegEx de Tabela para identificar a string da tabela e, em seguida, o RegEx de Linhas para identificar cada linha, seguido pelo RegEx em nível de Coluna para capturar valores de célula.
  4. Adicione sua expressão regular no campo Expressão.

    Observação: você tem a opção de escrever todo o RegEx no campo Expressão ou construí-lo usando o botão Editar.
    Importante: para qualquer uma das expressões regulares que você definir, verifique se tem pelo menos um grupo de captura! Somente as partes capturadas de uma expressão são usadas para relatórios de valor.
  5. Clique na lista suspensa da coluna Opções de Regex. Você pode definir Opções de RegEx a partir desta opção de seleção múltipla.



  6. Há várias opções que você pode escolher:

    • CultureInvariant - Especifica que as diferenças culturais linguísticas são ignoradas.
    • ECMAScript - Ativa o comportamento compatível com ECMA Script para a expressão. Este valor pode ser usado apenas em conjunto com as opções IgnoreCase e Multiline.
    • ExplicitCapture - Especifica que as únicas capturas válidas são aquelas de grupos explicitamente nomeados ou numerados e definidos como (?<name> subexpression). Quaisquer parênteses sem nome devem ser ignorados.
    • IgnoreCase - Especifica que a pesquisa não diferencia maiúsculas de minúsculas.
    • IgnorePatternWhitespace - Elimina o espaço em branco sem caractere de escape do padrão definido e habilita os comentários marcados com #. Esta opção não se aplica a classes de caracteres, quantificadores numéricos ou tokens que marcam o início de um elemento de linguagem RegEx individual.
    • Singleline - Especifica que a pesquisa é iniciada em uma única linha. O ponto (.) corresponde a todos os caracteres, incluindo a exceção \n.
    • Multiline - Especifica que a pesquisa é iniciada em várias linhas. Para esta opção, os caracteres especiais ^ e $ correspondem com o início e o fim de qualquer linha.
    • RightToLeft - Especifica que a pesquisa é realizada da direita para a esquerda.

      Observação: mais informações sobre as opções de expressões regulares podem ser encontradas aqui.

Assistente do Editor RegEx

  1. Clique no botão Editar para editar as opções desse campo e o formato da expressão regular.



  2. Adicione texto no campo Texto de teste para testar os critérios de pesquisa escolhidos em relação ao texto ao qual deseja aplicar o RegEx.



  3. Selecione um dos tipos de fórmula RegEx na lista suspensa. Isso define a expressão regular para corresponder a uma das seguintes características:

    • Literal - Corresponde aos caracteres exatos especificados por você. Esta opção diferencia maiúsculas de minúsculas.
    • Dígito - Corresponde a um dígito.
    • Um de - Corresponde a um único personagem presente no conjunto.
    • Não é um de - Corresponde a um único caractere não presente no conjunto.
    • Qualquer - Corresponde a qualquer caractere, exceto para \n.
    • Qualquer caractere de palavra - Corresponde a quaisquer letras e números.
    • Espaço em branco - Corresponde a um espaço em branco.
    • Começa com - Inicia a busca onde a linha começa.
    • Termina com - Inicia a busca onde a linha termina.
    • Avançado - Requer uma expressão personalizada.
    • E-mail - Corresponde a um endereço de e-mail.
    • URL - Corresponde a um URL
    • Data dos EUA - Corresponde ao formato de data dos EUA.
    • Número de telefone dos EUA - Corresponde ao formato de número de telefone dos EUA.



      Observação: mais informações sobre as expressões regulares no .NET podem ser encontradas aqui.
  4. Use o campo Valor para escrever o valor da expressão regular.
  5. Selecione um quantificador da lista suspensa Quantificadores.

    • Exatamente - Corresponde ao elemento anterior exatamente quantas vezes ele é especificado.Por padrão, é definido como 1.
    • Qualquer (0 ou mais) - Corresponde ao elemento anterior zero ou mais vezes, mas o mínimo possível.
    • Pelo menos um (1 ou mais) - Corresponde ao elemento anterior uma ou mais vezes.
    • Zero ou um - Corresponde ao elemento anterior por zero ou uma vez, mas pelo menor número de vezes possível.
    • Entre x e y vezes - Corresponde ao elemento anterior entre x e y vezes, onde x e y são inteiros, mas o menor número de vezes possível.
  6. Use o botão docs image para adicionar um campo RegEx extra. Mova os campos para cima e para baixo na hierarquia usando os botões docs image e docs image. Use o botão docs image para excluir um campo.
  7. Marque a caixa de seleção para a opção Capturar se você deseja extrair esse campo específico.
  8. O campo Expressão completa mostra toda a expressão, exatamente como personalizada por você.
  9. Selecione uma ou mais opções do menu suspenso Opções de RegEx.



  10. Clique no botão Salvar depois que todas as suas configurações estiverem concluídas para sair do modo Editar e, em seguida, clique em Salvar novamente para fechar o assistente.
Integração de Compreensão de Documentos

A atividade RegEx Based Extractor faz parte das Soluções do Document Understanding.

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.