- Introdução
- Componentes do framework
- Document Understanding no AI Center
- Pipelines
- Pacotes de ML
- Gerenciador de Dados
- Serviços de OCR
- Licenciamento
- Referências
Guia do usuário do Document Understanding.
Regex Based Extractor
O Regex Based Extractor é a ferramenta perfeita para casos de uso simples, nos quais, para determinados campos, os dados são sempre encontrados em um formato e contexto rigorosos e previsíveis. Em outras palavras, se você tiver um campo para o qual possa definir uma Expressão Regular que seja consistentemente boa quando correspondida, o Regex Based Extractor é uma boa escolha.
A atividade vem com um assistente de configuração que o ajuda a definir as expressões regulares para os campos que você deseja direcionar para extração de dados dessa maneira.
A atividade suporta campos simples e extração de campos de tabela.
Recomenda-se procurar outros métodos de extração, caso haja uma alta variabilidade do contexto e formato dos valores esperados. Nesses casos, um Form Extractor ou um Machine Learning Extractor pode ser mais adequado.
Este extrator não possui recursos de aprendizado (treinamento) e requer configuração antecipada.
O Regex Based Extractor tem duas configurações principais a serem consideradas:
- o assistente Configurar expressões regulares - que permite definir expressões regulares para determinados campos. Este assistente também disponibiliza o assistente Regex Editor, que o auxilia na construção de suas expressões regulares.
- a configuração UseVisualAlignment - que permite controlar se as expressões regulares configuradas para um extrator devem ser aplicadas à saída de texto do componente de digitalização ou a uma versão de texto na qual as linhas de texto são organizadas visualmente e as palavras são reorganizadas em linhas com base em seu alinhamento visual.
O assistente para Configurar expressões regulares pode ser usado para definir expressões regulares a serem usadas para capturar dados para campos simples e de tabela.
- CultureInvariant - Especifica que as diferenças culturais linguísticas são ignoradas.
- ECMAScript - Ativa o comportamento compatível com ECMA Script para a expressão. Este valor pode ser usado apenas em conjunto com as opções IgnoreCase e Multiline.
- ExplicitCapture - Especifica que as únicas capturas válidas são aquelas de grupos explicitamente nomeados ou numerados e definidos como
(?<name> subexpression)
. Quaisquer parênteses sem nome devem ser ignorados. - IgnoreCase - Especifica que a pesquisa não diferencia maiúsculas de minúsculas.
- IgnorePatternWhitespace - Elimina o espaço em branco sem caractere de escape do padrão definido e habilita os comentários marcados com
#
. Esta opção não se aplica a classes de caracteres, quantificadores numéricos ou tokens que marcam o início de um elemento de linguagem RegEx individual. - Singleline - Especifica que a pesquisa é iniciada em uma única linha. O ponto
(.)
corresponde a todos os caracteres, incluindo a exceção\n
. - Multiline - Especifica que a pesquisa é iniciada em várias linhas. Para esta opção, os caracteres especiais
^
e$
correspondem com o início e o fim de qualquer linha. - RightToLeft - Especifica que a pesquisa é realizada da direita para a esquerda.
Observação: mais informações sobre as Opções de Expressão Regular podem ser encontradas aqui.
- Clique no botão Editar para editar as opções desse campo e o formato da expressão regular.
- Adicione texto no campo Texto de teste para testar os critérios de pesquisa escolhidos em relação ao texto ao qual deseja aplicar o RegEx.
- Selecione um dos tipos de fórmula RegEx na lista suspensa. Isso define a expressão regular para corresponder a uma das seguintes características:
- Literal - Corresponde aos caracteres exatos especificados por você. Esta opção diferencia maiúsculas de minúsculas.
- Dígito - Corresponde a um dígito.
- Um de - Corresponde a um único personagem presente no conjunto.
- Não é um de - Corresponde a um único caractere não presente no conjunto.
- Qualquer - Corresponde a qualquer caractere, exceto para
\n
. - Qualquer caractere de palavra - Corresponde a quaisquer letras e números.
- Espaço em branco - Corresponde a um espaço em branco.
- Começa com - Inicia a busca onde a linha começa.
- Termina com - Inicia a busca onde a linha termina.
- Avançado - Requer uma expressão personalizada.
- E-mail - Corresponde a um endereço de e-mail.
- URL - Corresponde a um URL
- Data dos EUA - Corresponde ao formato de data dos EUA.
- Número de telefone dos EUA - Corresponde ao formato de número de telefone dos EUA.
Observação: Mais informações sobre as Expressões Regulares em .NET podem ser encontradas aqui.
- Use o campo Valor para escrever o valor da expressão regular.
- Selecione um quantificador da lista suspensa Quantificadores.
1
.
Qualquer (0 ou mais) - Corresponde ao elemento anterior zero ou mais vezes, mas o mínimo possível.
Pelo menos um (1 ou mais) - Corresponde ao elemento anterior uma ou mais vezes.
Zero ou um - Corresponde ao elemento anterior por zero ou uma vez, mas pelo menor número de vezes possível.
x
e y
vezes, onde x
e y
são inteiros, mas o menor número de vezes possível.
- Use o botão para adicionar um campo RegEx extra. Mova os campos para cima e para baixo na hierarquia usando os botões e . Use o botão para excluir um campo.
- Marque a caixa de seleção para a opção Capturar se você deseja extrair esse campo específico.
- O campo Expressão Completa mostra toda a expressão, exatamente como foi customizada por você.
- Selecione uma ou mais opções do menu suspenso Opções de RegEx.
- Clique no botão Salvar depois que todas as suas configurações estiverem concluídas para sair do modo Editar e, em seguida, clique em Salvar novamente para fechar o assistente.