- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Detalhes do modelo
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Dados e segurança
- Lógica de licenciamento e carregamento

Document Understanding classic user guide
Regex Based Extractor
O que é o RegEx Based Extractor
O Regex Based Extractor é a ferramenta perfeita para casos de uso simples, nos quais, para determinados campos, os dados são sempre encontrados em um formato e contexto rigorosos e previsíveis. Em outras palavras, se você tiver um campo para o qual possa definir uma Expressão Regular que seja consistentemente boa quando correspondida, o Regex Based Extractor é uma boa escolha.
A atividade vem com um assistente de configuração que o ajuda a definir as expressões regulares para os campos que você deseja direcionar para extração de dados dessa maneira.
A atividade suporta campos simples e extração de campos de tabela.
Recomenda-se procurar outros métodos de extração, caso haja uma alta variabilidade do contexto e formato dos valores esperados. Nesses casos, um Form Extractor ou um Machine Learning Extractor pode ser mais adequado.
Este extrator não possui recursos de aprendizado (treinamento) e requer configuração antecipada.
Requisitos especiais
Não há requisitos especiais para usar o Regex Based Extractor.
Como configurar
Activity configuration
O Regex Based Extractor tem duas configurações principais a serem consideradas:
- o assistente Configurar expressões regulares - que permite definir expressões regulares para determinados campos. Este assistente também disponibiliza o assistente Regex Editor, que o auxilia na construção de suas expressões regulares.
- the UseVisualAlignment setting - which allows you to control whether the regular expressions configured for an extractor should be applied to the text output of the digitization component, or to a text version in which text lines are organized visually, and words are rearranged on lines based on their visual alignment.