document-understanding

2020.10

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Obsoleto

Guia do usuário do Document Understanding.

ENTREGA:

Última atualização 4 de fev de 2025

Regex Based Extractor

O que é o RegEx Based Extractor

O Regex Based Extractor é a ferramenta perfeita para casos de uso simples, nos quais, para determinados campos, os dados são sempre encontrados em um formato e contexto rigorosos e previsíveis. Em outras palavras, se você tiver um campo para o qual possa definir uma Expressão Regular que seja consistentemente boa quando correspondida, o Regex Based Extractor é uma boa escolha.

A atividade vem com um assistente de configuração que o ajuda a definir as expressões regulares para os campos que você deseja direcionar para extração de dados dessa maneira.

A atividade suporta campos simples e extração de campos de tabela.

Recomenda-se procurar outros métodos de extração, caso haja uma alta variabilidade do contexto e formato dos valores esperados. Nesses casos, um Form Extractor ou um Machine Learning Extractor pode ser mais adequado.

Este extrator não possui recursos de aprendizado (treinamento) e requer configuração antecipada.

Requisitos especiais

Não há requisitos especiais para usar o Regex Based Extractor.

Como configurar

Configuração da atividade

O Regex Based Extractor tem duas configurações principais a serem consideradas:

o assistente Configurar expressões regulares - que permite definir expressões regulares para determinados campos. Este assistente também disponibiliza o assistente Regex Editor, que o auxilia na construção de suas expressões regulares.
a configuração UseVisualAlignment - que permite controlar se as expressões regulares configuradas para um extrator devem ser aplicadas à saída de texto do componente de digitalização ou a uma versão de texto na qual as linhas de texto são organizadas visualmente e as palavras são reorganizadas em linhas com base em seu alinhamento visual.

Assistente para configuração de Expressões Regulares

O assistente para Configurar expressões regulares pode ser usado para definir expressões regulares a serem usadas para capturar dados para campos simples e de tabela.

Adicione uma atividade RegEx Based Extractor ao seu fluxo de trabalho, dentro de uma atividade Data Extraction Scope.
Configure suas expressões regulares clicando no botão Configurar expressões.
- A Janela do Assistente é exibida.
Expanda uma entrada de tipo de documento para ver todos os campos definidos e para começar a configurar suas expressões regulares. Os tipos de documento e seus respectivos campos são lidos automaticamente a partir da Taxonomia do projeto. A opção de configuração de RegEx está disponível para todos os campos da taxonomia.
- tipo de documento expandido mostrando um único campo regular:
- Tipo de documento expandido e campo de tabela, exibindo opções de configuração para uma tabela:
  
  Para um campo simples, apenas uma única expressão regular pode ser definida usando o assistente RegEx que é aberto quando você clica na opção "Editar" ao lado desse campo.
  
  Para um campo de tabela, há várias configurações e opções disponíveis para definição:
- A atividade Table Value RegEx pode ser usada para capturar uma área inteira da tabela. Se nenhum valor for adicionado na linha do campo Tabela, todo o conteúdo de texto do documento será considerado para processamento da tabela.
- A atividade Rows Value RegEx pode ser usada para capturar uma linha inteira de uma determinada captura de tabela. Se nenhum valor for adicionado no campo Linhas, a área da tabela será dividida por fim de linha. Cada valor capturado é considerado a partir deste ponto como uma linha na qual a extração da coluna será aplicada.
- A atividade Column Value RegEx pode ser usada para capturar o valor de uma coluna específica, de cada linha capturada.
  Cenários de uso de RegEx de Tabela, Linhas e Coluna:
- Se você deixar os campos Table RegEx e Rows RegEx vazios, todas as linhas na versão de texto do documento serão usadas para aplicar as expressões regulartes de nível de coluna para identificação do valor da célula.
- Se você definir um RegEx para capturar a área da tabela, mas deixar Rows RegEx vazio, todas as linhas na captura da tabela serão processadas individualmente usando cada Column RegEx para capturar os valores da célula.
- Se você deixar o Table RegEx vazio, mas definir um Rows RegEx, todo o texto capturado com o Rows RegEx será usado e os Column RegExes serão aplicados para capturar valores de célula para cada linha.
- Se você preencher RegEx de Tabela e Linhas, a atividade aplica o RegEx de Tabela para identificar a string da tabela e, em seguida, aplica o RegEx de Linhas para identificar cada linha, seguido pelo RegEx em nível de Coluna para capturar valores de célula.
Adicione sua expressão regular no campo Expressão.

Observação:
Forneça um RegEx ou crie um

Você tem a opção de escrever todo o RegEx no campo Expressão ou para construí-lo usando o botão Editar.

Importante:
Especifique seus grupos de captura!

Para qualquer uma das expressões regulares que você definir, verifique se tem pelo menos um grupo de captura! Somente as partes capturadas de uma expressão são usadas para relatórios de valor.
Clique na lista suspensa da coluna Opções de Regex. Você pode definir Opções de RegEx a partir desta opção de seleção múltipla.
Há várias opções que você pode escolher:

CultureInvariant - Especifica que as diferenças culturais linguísticas são ignoradas.
ECMAScript - Ativa o comportamento compatível com ECMA Script para a expressão. Este valor pode ser usado apenas em conjunto com as opções IgnoreCase e Multiline.
ExplicitCapture - Especifica que as únicas capturas válidas são aquelas de grupos explicitamente nomeados ou numerados e definidos como (?<name> subexpression). Quaisquer parênteses sem nome devem ser ignorados.
IgnoreCase - Especifica que a pesquisa não diferencia maiúsculas de minúsculas.
IgnorePatternWhitespace - Elimina o espaço em branco sem caractere de escape do padrão definido e habilita os comentários marcados com #. Esta opção não se aplica a classes de caracteres, quantificadores numéricos ou tokens que marcam o início de um elemento de linguagem RegEx individual.
Singleline - Especifica que a pesquisa é iniciada em uma única linha. O ponto (.) corresponde a todos os caracteres, incluindo a exceção \n.
Multiline - Especifica que a pesquisa é iniciada em várias linhas. Para esta opção, os caracteres especiais ^ e $ correspondem com o início e o fim de qualquer linha.
RightToLeft - Especifica que a pesquisa é realizada da direita para a esquerda.
Observação: mais informações sobre as Opções de Expressão Regular podem ser encontradas aqui.

Assistente do Editor RegEx

Clique no botão Editar para editar as opções desse campo e o formato da expressão regular.
Adicione texto no campo Texto de teste para testar os critérios de pesquisa escolhidos em relação ao texto ao qual deseja aplicar o RegEx.
Selecione um dos tipos de fórmula RegEx na lista suspensa. Isso define a expressão regular para corresponder a uma das seguintes características:
- Literal - Corresponde aos caracteres exatos especificados por você. Esta opção diferencia maiúsculas de minúsculas.
- Dígito - Corresponde a um dígito.
- Um de - Corresponde a um único personagem presente no conjunto.
- Não é um de - Corresponde a um único caractere não presente no conjunto.
- Qualquer - Corresponde a qualquer caractere, exceto para \n.
- Qualquer caractere de palavra - Corresponde a quaisquer letras e números.
- Espaço em branco - Corresponde a um espaço em branco.
- Começa com - Inicia a busca onde a linha começa.
- Termina com - Inicia a busca onde a linha termina.
- Avançado - Requer uma expressão personalizada.
- E-mail - Corresponde a um endereço de e-mail.
- URL - Corresponde a um URL
- Data dos EUA - Corresponde ao formato de data dos EUA.
- Número de telefone dos EUA - Corresponde ao formato de número de telefone dos EUA.
  
  Observação: Mais informações sobre as Expressões Regulares em .NET podem ser encontradas aqui.
Use o campo Valor para escrever o valor da expressão regular.
Selecione um quantificador da lista suspensa Quantificadores.

Exatamente - Corresponde ao elemento anterior exatamente quantas vezes ele é especificado.Por padrão, é definido como 1.

Qualquer (0 ou mais) - Corresponde ao elemento anterior zero ou mais vezes, mas o mínimo possível.

Pelo menos um (1 ou mais) - Corresponde ao elemento anterior uma ou mais vezes.

Zero ou um - Corresponde ao elemento anterior por zero ou uma vez, mas pelo menor número de vezes possível.

Entre x e y vezes - Corresponde ao elemento anterior entre x e y vezes, onde x e y são inteiros, mas o menor número de vezes possível.

Use o botão para adicionar um campo RegEx extra. Mova os campos para cima e para baixo na hierarquia usando os botões e . Use o botão para excluir um campo.
Marque a caixa de seleção para a opção Capturar se você deseja extrair esse campo específico.
O campo Expressão Completa mostra toda a expressão, exatamente como foi customizada por você.
Selecione uma ou mais opções do menu suspenso Opções de RegEx.
Clique no botão Salvar depois que todas as suas configurações estiverem concluídas para sair do modo Editar e, em seguida, clique em Salvar novamente para fechar o assistente.