- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Digitalizador do Document Understanding
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Notas de versão
- Sobre o pacote de atividades Document Understanding
- Compatibilidade do projeto
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- Sobre o pacote de atividades IntelligentOCR
- Compatibilidade do projeto
- Configuração da autenticação
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Document Understanding Project Classifier
- Intelligent Keyword Classifier
- Create Document Classification Action
- Aguardar ação de classificação do documento e retomar
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Document Understanding Project Extractor
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Regex Based Extractor
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
Permite criar e usar uma expressão regular personalizada para extrair informações de um documento. Esta atividade só pode ser usada em conjunto com a atividade Data Extraction Scope .
set
ou boolean
.
Painel do Designer
Configurar expressões - Abre o assistente Configurar expressões regulares.
Painel de Propriedades
Comum
- NomeDeExibição - o nome de exibição da atividade.
Entrada
- Configuração - Especifica o valor de configuração para o extrator como uma string de escape
JSON
. Use o assistente do extrator para gerar a configuração. Você pode manter a configuração no painel Propriedades , como uma string, ou pode defini-la usando o assistente e vinculá-la a uma variável. É aconselhável editar o campo Configuração usando o assistente e não o painel Propriedades . - Tempo limite - especifica o valor do tempo limite para qualquer pesquisa Regex, em milissegundos. Um tempo limite de
0
, ou negativo, é interpretado como infinito. O valor padrão é2000
. - UseVisualAlignment - Se selecionado, as expressões regulares são aplicadas a uma versão de texto gerada com base em alinhamentos visuais de palavras (um alinhamento visual de palavras inclui palavras separadas por um único caractere de espaço, linhas separadas por um único caractere de nova linha e páginas separadas por dois caracteres de linha) . O valor padrão é Falso. Esta opção pode ser usada para layouts complexos, onde é mais fácil para os usuários escrever expressões regulares com base em como as palavras são organizadas visualmente nas linhas, ignorando qualquer frase, parágrafo ou grupo de layout identificado de outra forma no documento.
Diversos
- Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
- Adicione uma atividade RegEx Based Extractor ao seu fluxo de trabalho, dentro de uma atividade Data Extraction Scope.
- Configure suas expressões regulares selecionando Configurar expressões.
A Janela do Assistente é exibida.
Figura 1. Visão geral do assistente Configurar expressões regulares
- Expanda uma entrada de tipo de documento para ver todos os campos definidos e para começar a configurar suas expressões regulares. Os tipos de documento e seus respectivos campos são lidos automaticamente a partir da Taxonomia do projeto. A opção Configuração Regex está disponível para cada campo na taxonomia. Verifique as seguintes opções de configuração que você pode encontrar no assistente:
- Você pode ter um tipo de documento, que, quando o expande, um único campo regular é exibido.
Para um campo simples, apenas uma única expressão regular pode ser definida usando o assistente Configurar expressões regulares que é aberto quando você seleciona Editar ao lado desse campo.
Figura 2. Um tipo de documento no assistente Configurar expressões regulares que tem um campo regular definido
- Você pode ter um tipo de documento que, quando você o expande, um campo de tabela é exibido, mostrando opções de configuração para uma tabela, como Expressão para todo o conteúdo da tabela ou uma Expressão para linhas individuais.
Verifique a lista a seguir para as várias configurações e opções disponíveis para uma configuração de campo de tabela:
- A atividade Table Value RegEx pode ser usada para capturar uma área inteira da tabela. Se nenhum valor for adicionado na linha do campo Tabela, todo o conteúdo de texto do documento será considerado posteriormente para processamento de tabelas.
- A atividade Rows Value RegEx pode ser usada para capturar uma linha inteira de uma determinada captura de tabela. Se nenhum valor for adicionado na linha de campo Linhas, a área da tabela será dividida pelo final de linha. Cada valor capturado é considerado a partir deste ponto como uma linha na qual a extração da coluna será aplicada.
- A atividade Column Value RegEx pode ser usada para capturar o valor de uma coluna específica, de cada linha capturada.
Figura 3. Um tipo de documento no assistente Configurar expressões regulares que tem um campo de tabela definido
Cenários de uso da tabela, linhas e coluna RegEx
Verifique os seguintes cenários possíveis para usar as opções RegEx da tabela disponíveis:- Se você deixar os campos Table RegEx e Rows RegEx vazios, todas as linhas na versão de texto do documento serão usadas para aplicar as expressões regulartes de nível de coluna para identificação do valor da célula.
- Se você definir um RegEx para capturar a área da tabela, mas deixar Rows RegEx vazio, todas as linhas na captura da tabela serão processadas individualmente usando cada Column RegEx para capturar os valores da célula.
- Se você deixar o Table RegEx vazio, mas definir um Rows RegEx, todo o texto capturado com o Rows RegEx será usado e os Column RegExes serão aplicados para capturar valores de célula para cada linha.
- Se você preencher ambos RegEx de Tabela e Linhas, a atividade aplica o RegEx de Tabela para identificar a string da tabela e, em seguida, o RegEx de Linhas para identificar cada linha, seguido pelo RegEx em nível de Coluna para capturar valores de célula.
- Você pode ter um tipo de documento, que, quando o expande, um único campo regular é exibido.
- Adicione sua expressão regular no campo Expressão.
Você tem a opção de escrever todo o RegEx no campo Expressão ou criá-lo usando a opção Editar.
Importante: para qualquer uma das expressões regulares que você define, certifique-se de ter pelo menos um grupo de captura. Somente as partes capturadas de uma expressão são usadas para relatórios de valor. - Selecione a lista suspensa na coluna Opções do Regex. Você pode definir várias opções de regex dessa opção de seleção múltipla.
Você pode escolher entre as seguintes opções:
- CultureInvariant - Especifica que as diferenças culturais linguísticas são ignoradas.
- ECMAScript - Habilita o comportamento compatível com ECMA (European Computer Manufacturers Association) para a expressão. Este valor pode ser usado apenas em conjunto com as opções IgnoreCase e Multiline.
- ExplicitCapture - Especifica que as únicas capturas válidas são aquelas de grupos explicitamente nomeados ou numerados e definidos como
(?<name> subexpression)
. Quaisquer parênteses não nomeados são ignorados. - IgnoreCase - Especifica que a pesquisa não diferencia maiúsculas de minúsculas.
- IgnorePatternWhitespace - Elimina o espaço branco não escapado do padrão definido e permite os comentários marcados com
#
(símbolo de hashtag). Esta opção não se aplica a classes de caracteres, quantificadores numéricos ou tokens que marcam o início de um elemento de linguagem RegEx individual. - Singleline - Especifica que a pesquisa é iniciada em uma única linha. O ponto
(.)
corresponde a todos os caracteres, incluindo a exceção\n
. - Multiline - Especifica que a pesquisa é iniciada em várias linhas. Para esta opção, os caracteres especiais
^
e$
correspondem com o início e o fim de qualquer linha. - RightToLeft - Especifica que a pesquisa é realizada da direita para a esquerda.
Observação: acesse RegexOptions Enum para obter mais informações sobre as opções de expressão regular que você pode usar.
Figura 4. O menu suspenso Opções de Regex expandido mostrando as opções disponíveis
- Selecione Editar para editar as opções desse campo e o formato da expressão regular.
O assistente Construtor de RegEx é aberto.
Figura 5. Visão geral do assistente Construtor de RegEx
- Insira seu texto desejado no campo Texto do teste. Este é o texto ao qual você deseja aplicar RegEx com base nos critérios de pesquisa que você escolhe. Depois disso, insira um valor no campo Valor do RegEx, que também será destacado no campo Texto do teste.
Figura 6. Inserção de texto no campo Texto do teste e destacando um certo valor dele usando o campo Valor
- Selecione um dos tipos de fórmula RegEx na lista suspensa. Isso define a expressão regular para corresponder a uma das seguintes características:
- Literal - Corresponde aos caracteres exatos especificados por você. Esta opção diferencia maiúsculas de minúsculas.
- Dígito - Corresponde a um dígito.
- Um de - Corresponde a um único personagem presente no conjunto.
- Não é um de - Corresponde a um único caractere não presente no conjunto.
- Qualquer - Corresponde a qualquer caractere, exceto para
\n
. - Qualquer caractere de palavra - Corresponde a quaisquer letras e números.
- Espaço em branco - Corresponde a um espaço em branco.
- Começa com - Inicia a busca onde a linha começa.
- Termina com - Inicia a busca onde a linha termina.
- Avançado - Requer uma expressão personalizada.
- E-mail - Corresponde a um endereço de e-mail.
- URL - Corresponde a um URL
- Data dos EUA - Corresponde ao formato de data dos EUA.
- Número de telefone dos EUA - Corresponde ao formato de número de telefone dos EUA.
Figura 7. A lista suspensa mostrando as características disponíveis para a expressão regular
Observação: acesse Expressões regulares do .NET para obter mais informações sobre expressões regulares no .NET.
- Use o campo Valor para escrever o valor da expressão regular.
- Selecione um quantificador na lista suspensa Quantificadores. Você pode escolher entre as seguintes opções:
- Exatamente - Corresponde ao elemento anterior exatamente quantas vezes ele é especificado.Por padrão, é definido como
1
. - Qualquer (0 ou mais) - Corresponde ao elemento anterior zero ou mais vezes, mas o mínimo possível.
- Pelo menos um (1 ou mais) - Corresponde ao elemento anterior uma ou mais vezes.
- Zero ou um - Corresponde ao elemento anterior por zero ou uma vez, mas pelo menor número de vezes possível.
- Entre x e y vezes - Corresponde ao elemento anterior entre
x
ey
vezes, ondex
ey
são inteiros, mas o menor número de vezes possível.
- Exatamente - Corresponde ao elemento anterior exatamente quantas vezes ele é especificado.Por padrão, é definido como
- Para editar campos, você pode usar as seguintes opções:
- Selecione Adicionar para adicionar um campo RegEx extra.
- Selecione Mover para cima e Mover para baixo para mover campos para cima e para baixo na hierarquia.
- Selecione Remover para excluir o campo.
- Marque a caixa de seleção para a opção Capturar se você deseja extrair esse campo específico.
- O campo Expressão completa mostra toda a expressão exatamente como você a personalizou.
- Selecione uma ou várias opções na lista suspensa Opções do Regex.
Figura 8. As opções disponíveis na lista suspensa Opções do Regex
- Selecione Salvar assim que todas as suas configurações forem feitas para sair do modo Editar.
- Selecione Salvar novamente para fechar o assistente.