activities
latest
false
Importante :
A tradução automática foi aplicada parcialmente neste conteúdo.
UiPath logo, featuring letters U and I in white
Atividades de Document Understanding
Last updated 21 de nov de 2024

Regex Based Extractor

UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor

Description

Permite criar e usar uma expressão regular personalizada para extrair informações de um documento. Esta atividade só pode ser usada em conjunto com a atividade Data Extraction Scope .

Observação: esta atividade não pode funcionar com os campos set ou boolean .

Compatibilidade do projeto

Windows-Legacy | Windows

Configuração

Painel do Designer

Configurar expressões - Abre o assistente Configurar expressões regulares.

Painel de Propriedades

Comum

  • NomeDeExibição - o nome de exibição da atividade.

Entrada

  • Configuração - Especifica o valor de configuração para o extrator como uma string de escape JSON . Use o assistente do extrator para gerar a configuração. Você pode manter a configuração no painel Propriedades , como uma string, ou pode defini-la usando o assistente e vinculá-la a uma variável. É aconselhável editar o campo Configuração usando o assistente e não o painel Propriedades .
  • Tempo limite - especifica o valor do tempo limite para qualquer pesquisa Regex, em milissegundos. Um tempo limite de 0, ou negativo, é interpretado como infinito. O valor padrão é 2000.
  • UseVisualAlignment - Se selecionado, as expressões regulares são aplicadas a uma versão de texto gerada com base em alinhamentos visuais de palavras (um alinhamento visual de palavras inclui palavras separadas por um único caractere de espaço, linhas separadas por um único caractere de nova linha e páginas separadas por dois caracteres de linha) . O valor padrão é Falso. Esta opção pode ser usada para layouts complexos, onde é mais fácil para os usuários escrever expressões regulares com base em como as palavras são organizadas visualmente nas linhas, ignorando qualquer frase, parágrafo ou grupo de layout identificado de outra forma no documento.

Diversos

  • Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.

Usando o Assistente para configurar expressões regulares

  1. Adicione uma atividade RegEx Based Extractor ao seu fluxo de trabalho, dentro de uma atividade Data Extraction Scope.
  2. Configure suas expressões regulares selecionando Configurar expressões.

    A Janela do Assistente é exibida.

    Figura 1. Visão geral do assistente Configurar expressões regulares

  3. Expanda uma entrada de tipo de documento para ver todos os campos definidos e para começar a configurar suas expressões regulares. Os tipos de documento e seus respectivos campos são lidos automaticamente a partir da Taxonomia do projeto. A opção Configuração Regex está disponível para cada campo na taxonomia. Verifique as seguintes opções de configuração que você pode encontrar no assistente:
    • Você pode ter um tipo de documento, que, quando o expande, um único campo regular é exibido.

      Para um campo simples, apenas uma única expressão regular pode ser definida usando o assistente Configurar expressões regulares que é aberto quando você seleciona Editar ao lado desse campo.

      Figura 2. Um tipo de documento no assistente Configurar expressões regulares que tem um campo regular definido

    • Você pode ter um tipo de documento que, quando você o expande, um campo de tabela é exibido, mostrando opções de configuração para uma tabela, como Expressão para todo o conteúdo da tabela ou uma Expressão para linhas individuais.
      Verifique a lista a seguir para as várias configurações e opções disponíveis para uma configuração de campo de tabela:
      • A atividade Table Value RegEx pode ser usada para capturar uma área inteira da tabela. Se nenhum valor for adicionado na linha do campo Tabela, todo o conteúdo de texto do documento será considerado posteriormente para processamento de tabelas.
      • A atividade Rows Value RegEx pode ser usada para capturar uma linha inteira de uma determinada captura de tabela. Se nenhum valor for adicionado na linha de campo Linhas, a área da tabela será dividida pelo final de linha. Cada valor capturado é considerado a partir deste ponto como uma linha na qual a extração da coluna será aplicada.
      • A atividade Column Value RegEx pode ser usada para capturar o valor de uma coluna específica, de cada linha capturada.
      Figura 3. Um tipo de documento no assistente Configurar expressões regulares que tem um campo de tabela definido

      Cenários de uso da tabela, linhas e coluna RegEx
      Verifique os seguintes cenários possíveis para usar as opções RegEx da tabela disponíveis:
      • Se você deixar os campos Table RegEx e Rows RegEx vazios, todas as linhas na versão de texto do documento serão usadas para aplicar as expressões regulartes de nível de coluna para identificação do valor da célula.
      • Se você definir um RegEx para capturar a área da tabela, mas deixar Rows RegEx vazio, todas as linhas na captura da tabela serão processadas individualmente usando cada Column RegEx para capturar os valores da célula.
      • Se você deixar o Table RegEx vazio, mas definir um Rows RegEx, todo o texto capturado com o Rows RegEx será usado e os Column RegExes serão aplicados para capturar valores de célula para cada linha.
      • Se você preencher ambos RegEx de Tabela e Linhas, a atividade aplica o RegEx de Tabela para identificar a string da tabela e, em seguida, o RegEx de Linhas para identificar cada linha, seguido pelo RegEx em nível de Coluna para capturar valores de célula.
  4. Adicione sua expressão regular no campo Expressão.

    Você tem a opção de escrever todo o RegEx no campo Expressão ou criá-lo usando a opção Editar.

    Importante: para qualquer uma das expressões regulares que você define, certifique-se de ter pelo menos um grupo de captura. Somente as partes capturadas de uma expressão são usadas para relatórios de valor.
  5. Selecione a lista suspensa na coluna Opções do Regex. Você pode definir várias opções de regex dessa opção de seleção múltipla.

    Você pode escolher entre as seguintes opções:

    • CultureInvariant - Especifica que as diferenças culturais linguísticas são ignoradas.
    • ECMAScript - Habilita o comportamento compatível com ECMA (European Computer Manufacturers Association) para a expressão. Este valor pode ser usado apenas em conjunto com as opções IgnoreCase e Multiline.
    • ExplicitCapture - Especifica que as únicas capturas válidas são aquelas de grupos explicitamente nomeados ou numerados e definidos como (?<name> subexpression). Quaisquer parênteses não nomeados são ignorados.
    • IgnoreCase - Especifica que a pesquisa não diferencia maiúsculas de minúsculas.
    • IgnorePatternWhitespace - Elimina o espaço branco não escapado do padrão definido e permite os comentários marcados com # (símbolo de hashtag). Esta opção não se aplica a classes de caracteres, quantificadores numéricos ou tokens que marcam o início de um elemento de linguagem RegEx individual.
    • Singleline - Especifica que a pesquisa é iniciada em uma única linha. O ponto (.) corresponde a todos os caracteres, incluindo a exceção \n.
    • Multiline - Especifica que a pesquisa é iniciada em várias linhas. Para esta opção, os caracteres especiais ^ e $ correspondem com o início e o fim de qualquer linha.
    • RightToLeft - Especifica que a pesquisa é realizada da direita para a esquerda.
      Observação: acesse RegexOptions Enum para obter mais informações sobre as opções de expressão regular que você pode usar.
    Figura 4. O menu suspenso Opções de Regex expandido mostrando as opções disponíveis

Assistente do Editor RegEx

  1. Selecione Editar para editar as opções desse campo e o formato da expressão regular.

    O assistente Construtor de RegEx é aberto.

    Figura 5. Visão geral do assistente Construtor de RegEx

  2. Insira seu texto desejado no campo Texto do teste. Este é o texto ao qual você deseja aplicar RegEx com base nos critérios de pesquisa que você escolhe. Depois disso, insira um valor no campo Valor do RegEx, que também será destacado no campo Texto do teste.
    Figura 6. Inserção de texto no campo Texto do teste e destacando um certo valor dele usando o campo Valor

  3. Selecione um dos tipos de fórmula RegEx na lista suspensa. Isso define a expressão regular para corresponder a uma das seguintes características:
    • Literal - Corresponde aos caracteres exatos especificados por você. Esta opção diferencia maiúsculas de minúsculas.
    • Dígito - Corresponde a um dígito.
    • Um de - Corresponde a um único personagem presente no conjunto.
    • Não é um de - Corresponde a um único caractere não presente no conjunto.
    • Qualquer - Corresponde a qualquer caractere, exceto para \n.
    • Qualquer caractere de palavra - Corresponde a quaisquer letras e números.
    • Espaço em branco - Corresponde a um espaço em branco.
    • Começa com - Inicia a busca onde a linha começa.
    • Termina com - Inicia a busca onde a linha termina.
    • Avançado - Requer uma expressão personalizada.
    • E-mail - Corresponde a um endereço de e-mail.
    • URL - Corresponde a um URL
    • Data dos EUA - Corresponde ao formato de data dos EUA.
    • Número de telefone dos EUA - Corresponde ao formato de número de telefone dos EUA.
      Figura 7. A lista suspensa mostrando as características disponíveis para a expressão regular

      Observação: acesse Expressões regulares do .NET para obter mais informações sobre expressões regulares no .NET.
  4. Use o campo Valor para escrever o valor da expressão regular.
  5. Selecione um quantificador na lista suspensa Quantificadores. Você pode escolher entre as seguintes opções:
    • Exatamente - Corresponde ao elemento anterior exatamente quantas vezes ele é especificado.Por padrão, é definido como 1.
    • Qualquer (0 ou mais) - Corresponde ao elemento anterior zero ou mais vezes, mas o mínimo possível.
    • Pelo menos um (1 ou mais) - Corresponde ao elemento anterior uma ou mais vezes.
    • Zero ou um - Corresponde ao elemento anterior por zero ou uma vez, mas pelo menor número de vezes possível.
    • Entre x e y vezes - Corresponde ao elemento anterior entre x e y vezes, onde x e y são inteiros, mas o menor número de vezes possível.
  6. Para editar campos, você pode usar as seguintes opções:
    1. Selecione Adicionar Adicionar para adicionar um campo RegEx extra.
    2. Selecione Mover para cimaMover para Cima e Mover para baixoMover para Baixo para mover campos para cima e para baixo na hierarquia.
    3. Selecione Removerremove para excluir o campo.
  7. Marque a caixa de seleção para a opção Capturar se você deseja extrair esse campo específico.
  8. O campo Expressão completa mostra toda a expressão exatamente como você a personalizou.
  9. Selecione uma ou várias opções na lista suspensa Opções do Regex.
    Figura 8. As opções disponíveis na lista suspensa Opções do Regex

  10. Selecione Salvar assim que todas as suas configurações forem feitas para sair do modo Editar.
  11. Selecione Salvar novamente para fechar o assistente.

Integração de Compreensão de Documentos

A atividade RegEx Based Extractor faz parte das Soluções do Document Understanding.

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.