- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Digitalizador do Document Understanding
- Document Understanding ML
- Document Understanding OCR Local Server
- Processo do Document Understanding - Modelo do Studio
- Document Understanding
- Notas de versão
- About the Document Understanding activity package
- Compatibilidade do projeto
- Dados do documento
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- About the IntelligentOCR activity package
- Compatibilidade do projeto
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Intelligent Keyword Classifier
- Present Classification Station
- Create Document Classification Action
- Wait For Document Classification Action And Resume
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Regex Based Extractor
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
Permite criar e usar uma expressão baseada regular personalizada para extrair informações de um documento. Esta atividade só pode ser usada em conjunto com a atividade Data Extraction Scope.
set
ou boolean
.
Comum
- NomeDeExibição - o nome de exibição da atividade.
Entrada
- Configuração - Especifica o valor de configuração para o extrator como uma string de escape
JSON
. Use o assistente do extrator para gerar a configuração. Você pode manter a configuração no painel Propriedades , como uma string, ou pode defini-la usando o assistente e vinculá-la a uma variável. É aconselhável editar o campo Configuração usando o assistente e não o painel Propriedades . - Tempo limite - especifica o valor do tempo limite para qualquer pesquisa Regex, em milissegundos. Um tempo limite de
0
, ou negativo, é interpretado como infinito. O valor padrão é2000
. - UseVisualAlignment - Se selecionado, as expressões regulares são aplicadas a uma versão de texto gerada com base em alinhamentos visuais de palavras (um alinhamento visual de palavras inclui palavras separadas por um único caractere de espaço, linhas separadas por um único caractere de nova linha e páginas separadas por dois caracteres de linha) . O valor padrão é Falso. Esta opção pode ser usada para layouts complexos, onde é mais fácil para os usuários escrever expressões regulares com base em como as palavras são organizadas visualmente nas linhas, ignorando qualquer frase, parágrafo ou grupo de layout identificado de outra forma no documento.
Diversos
- Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
- Adicione uma atividade RegEx Based Extractor ao seu fluxo de trabalho, dentro de uma atividade Data Extraction Scope.
-
Configure suas expressões regulares clicando no botão Configurar expressões.
-
A Janela do Assistente é exibida.
-
-
Expanda uma entrada de tipo de documento para ver todos os campos definidos e para começar a configurar suas expressões regulares. Os tipos de documento e seus respectivos campos são lidos automaticamente a partir da Taxonomia do projeto. A opção de configuração de RegEx está disponível para todos os campos da taxonomia.
-
tipo de documento expandido mostrando um único campo regular:
-
Tipo de documento expandido e campo de tabela, exibindo opções de configuração para uma tabela:
Para um campo simples, apenas uma única expressão regular pode ser definida usando o assistente RegEx que é aberto quando você clica na opção "Editar" ao lado desse campo.
Para um campo de tabela, há várias configurações e opções disponíveis para definição:
- A atividade Table Value RegEx pode ser usada para capturar uma área inteira da tabela. Se nenhum valor for adicionado na linha do campo Tabela, todo o conteúdo de texto do documento será considerado para processamento da tabela.
- A atividade Rows Value RegEx pode ser usada para capturar uma linha inteira de uma determinada captura de tabela. Se nenhum valor for adicionado no campo Linhas, a área da tabela será dividida por fim de linha. Cada valor capturado é considerado a partir deste ponto como uma linha na qual a extração da coluna será aplicada.
-
A atividade Column Value RegEx pode ser usada para capturar o valor de uma coluna específica, de cada linha capturada.
Cenários de uso de RegEx de Tabela, Linhas e Coluna:
- Se você deixar os campos Table RegEx e Rows RegEx vazios, todas as linhas na versão de texto do documento serão usadas para aplicar as expressões regulartes de nível de coluna para identificação do valor da célula.
- Se você definir um RegEx para capturar a área da tabela, mas deixar Rows RegEx vazio, todas as linhas na captura da tabela serão processadas individualmente usando cada Column RegEx para capturar os valores da célula.
- Se você deixar o Table RegEx vazio, mas definir um Rows RegEx, todo o texto capturado com o Rows RegEx será usado e os Column RegExes serão aplicados para capturar valores de célula para cada linha.
- Se você preencher ambos RegEx de Tabela e Linhas, a atividade aplica o RegEx de Tabela para identificar a string da tabela e, em seguida, o RegEx de Linhas para identificar cada linha, seguido pelo RegEx em nível de Coluna para capturar valores de célula.
-
-
Adicione sua expressão regular no campo Expressão.
Observação: você tem a opção de escrever todo o RegEx no campo Expressão ou construí-lo usando o botão Editar.Importante: para qualquer uma das expressões regulares que você definir, verifique se tem pelo menos um grupo de captura! Somente as partes capturadas de uma expressão são usadas para relatórios de valor. -
Clique na lista suspensa da coluna Opções de Regex. Você pode definir Opções de RegEx a partir desta opção de seleção múltipla.
-
Há várias opções que você pode escolher:
- CultureInvariant - Especifica que as diferenças culturais linguísticas são ignoradas.
- ECMAScript - Ativa o comportamento compatível com ECMA Script para a expressão. Este valor pode ser usado apenas em conjunto com as opções IgnoreCase e Multiline.
- ExplicitCapture - Especifica que as únicas capturas válidas são aquelas de grupos explicitamente nomeados ou numerados e definidos como
(?<name> subexpression)
. Quaisquer parênteses sem nome devem ser ignorados. - IgnoreCase - Especifica que a pesquisa não diferencia maiúsculas de minúsculas.
- IgnorePatternWhitespace - Elimina o espaço em branco sem caractere de escape do padrão definido e habilita os comentários marcados com
#
. Esta opção não se aplica a classes de caracteres, quantificadores numéricos ou tokens que marcam o início de um elemento de linguagem RegEx individual. - Singleline - Especifica que a pesquisa é iniciada em uma única linha. O ponto
(.)
corresponde a todos os caracteres, incluindo a exceção\n
. - Multiline - Especifica que a pesquisa é iniciada em várias linhas. Para esta opção, os caracteres especiais
^
e$
correspondem com o início e o fim de qualquer linha. -
RightToLeft - Especifica que a pesquisa é realizada da direita para a esquerda.
Observação: mais informações sobre as opções de expressões regulares podem ser encontradas aqui.
-
Clique no botão Editar para editar as opções desse campo e o formato da expressão regular.
-
Adicione texto no campo Texto de teste para testar os critérios de pesquisa escolhidos em relação ao texto ao qual deseja aplicar o RegEx.
-
Selecione um dos tipos de fórmula RegEx na lista suspensa. Isso define a expressão regular para corresponder a uma das seguintes características:
- Literal - Corresponde aos caracteres exatos especificados por você. Esta opção diferencia maiúsculas de minúsculas.
- Dígito - Corresponde a um dígito.
- Um de - Corresponde a um único personagem presente no conjunto.
- Não é um de - Corresponde a um único caractere não presente no conjunto.
- Qualquer - Corresponde a qualquer caractere, exceto para
\n
. - Qualquer caractere de palavra - Corresponde a quaisquer letras e números.
- Espaço em branco - Corresponde a um espaço em branco.
- Começa com - Inicia a busca onde a linha começa.
- Termina com - Inicia a busca onde a linha termina.
- Avançado - Requer uma expressão personalizada.
- E-mail - Corresponde a um endereço de e-mail.
- URL - Corresponde a um URL
- Data dos EUA - Corresponde ao formato de data dos EUA.
-
Número de telefone dos EUA - Corresponde ao formato de número de telefone dos EUA.
Observação: mais informações sobre as expressões regulares no .NET podem ser encontradas aqui.
- Use o campo Valor para escrever o valor da expressão regular.
-
Selecione um quantificador da lista suspensa Quantificadores.
- Exatamente - Corresponde ao elemento anterior exatamente quantas vezes ele é especificado.Por padrão, é definido como
1
. - Qualquer (0 ou mais) - Corresponde ao elemento anterior zero ou mais vezes, mas o mínimo possível.
- Pelo menos um (1 ou mais) - Corresponde ao elemento anterior uma ou mais vezes.
- Zero ou um - Corresponde ao elemento anterior por zero ou uma vez, mas pelo menor número de vezes possível.
- Entre x e y vezes - Corresponde ao elemento anterior entre
x
ey
vezes, ondex
ey
são inteiros, mas o menor número de vezes possível.
- Exatamente - Corresponde ao elemento anterior exatamente quantas vezes ele é especificado.Por padrão, é definido como
- Use o botão para adicionar um campo RegEx extra. Mova os campos para cima e para baixo na hierarquia usando os botões e . Use o botão para excluir um campo.
- Marque a caixa de seleção para a opção Capturar se você deseja extrair esse campo específico.
- O campo Expressão completa mostra toda a expressão, exatamente como personalizada por você.
-
Selecione uma ou mais opções do menu suspenso Opções de RegEx.
- Clique no botão Salvar depois que todas as suas configurações estiverem concluídas para sair do modo Editar e, em seguida, clique em Salvar novamente para fechar o assistente.
Integração de Compreensão de Documentos
A atividade RegEx Based Extractor faz parte das Soluções do Document Understanding.