- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- FieldValue Class
- FieldValueResult Class
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- FieldValueDetails Class
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Classe BasicDataPoint - visualização
- Classe ExtractionResultHandler — visualização
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Notas de versão
- Sobre o pacote de atividades Document Understanding
- Compatibilidade do projeto
- Configuração da conexão externa
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- Sobre o pacote de atividades IntelligentOCR
- Compatibilidade do projeto
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Document Understanding Project Classifier
- Intelligent Keyword Classifier
- Create Document Classification Action
- Create Document Validation Artifacts
- Recuperar artefatos de validação de documento
- Aguardar ação de classificação do documento e retomar
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Document Understanding Project Extractor
- Document Understanding Project Extractor Trainer
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Rasurar documento
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Machine Learning Extractor
- Machine Learning Extractor Trainer
- Machine Learning Classifier
- Machine Learning Classifier Trainer
- Classificador Generativo
- Extrator Generativo
- Configuração da autenticação
- Validação de documentos com ações de aplicativos
- Validação manual para digitalizar documentos
- Extração de dados baseada em âncora usando a atividade Intelligent Form Extractor
- Validation Station
- Atividades generativas — Boas práticas
- Extrator generativo — boas práticas
- Classificador generativo — Boas práticas
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Atividades do Document Understanding
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
Description
Permite criar e usar uma expressão regular personalizada para extrair informações de um documento. Esta atividade só pode ser usada em conjunto com a atividade Data Extraction Scope .
This activity cannot work with set or boolean fields.
Compatibilidade do projeto
Windows-Legacy | Windows
Configuração
Painel do Designer
Configurar expressões - Abre o assistente Configurar expressões regulares .
Painel de Propriedades
Comum
- DisplayName - O nome de exibição da atividade.
Entrada
- Configuration - Specifies the configuration value for the extractor as a
JSONescaped string. Use the extractor wizard to generate the configuration. You can keep the configuration in the Properties panel, as a string, or you can define it by using the wizard and bind it to a variable. It is advisable to edit the Configuration field by using the wizard and not the Properties panel. - Timeout - Specifies the timeout value for any Regex search, in milliseconds. A timeout of
0, or negative, is interpreted as infinite. The default value is2000. - UseVisualAlignment - If selected, the regular expressions are applied to a text version generated based on visual word alignments (a visual word alignment includes words separated by a single space character, lines separated by a single newline character, and pages separated by two lines characters). The default value is False. This option can be used for complex layouts where it is easier for users to write regular expressions based on how words are visually organized on lines, ignoring any sentence, paragraph, or layout group otherwise identified in the document.
Diversos
- Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
Usando o Assistente para configurar expressões regulares
-
Add a RegEx Based Extractor activity to your workflow, within a Data Extraction Scope activity.
-
Configure suas expressões regulares selecionando Configurar expressões. A Janela do Assistente é exibida.
Figura 1. Visão geral do assistente Configurar expressões regulares
-
Expanda uma entrada de tipo de documento para ver todos os campos definidos e para começar a configurar suas expressões regulares. Os tipos de documento e seus respectivos campos são lidos automaticamente a partir da Taxonomia do projeto. A opção Configuração Regex está disponível para cada campo na taxonomia. Verifique as seguintes opções de configuração que você pode encontrar no assistente:
- Você pode ter um tipo de documento, que, quando o expande, um único campo regular é exibido. Para um campo simples, apenas uma única expressão regular pode ser definida usando o assistente Configurar expressões regulares que é aberto quando você seleciona Editar ao lado desse campo.
Figura 2. Um tipo de documento no assistente Configurar expressões regulares que tem um campo regular definido
- Você pode ter um tipo de documento que, quando você o expande, um campo de tabela é exibido, mostrando opções de configuração para uma tabela, como Expressão para todo o conteúdo da tabela ou uma Expressão para linhas individuais. Verifique a lista a seguir para as várias configurações e opções disponíveis para uma configuração de campo de tabela:
- A atividade Table Value RegEx pode ser usada para capturar uma área inteira da tabela. Se nenhum valor for adicionado na linha do campo Tabela, todo o conteúdo de texto do documento será considerado posteriormente para processamento de tabelas.
- A atividade Rows Value RegEx pode ser usada para capturar uma linha inteira de uma determinada captura de tabela. Se nenhum valor for adicionado na linha de campo Linhas, a área da tabela será dividida pelo final de linha. Cada valor capturado é considerado a partir deste ponto como uma linha na qual a extração da coluna será aplicada.
- The Column Value RegEx can be used for capturing the value of a particular column, from each captured row.
Figura 3. Um tipo de documento no assistente Configurar expressões regulares que tem um campo de tabela definido
Cenários de uso da tabela, linhas e coluna RegEx
Verifique os seguintes cenários possíveis para usar as opções RegEx da tabela disponíveis:
- If you leave the Table RegEx and the Rows RegEx fields empty, all lines in the text version of the document are used to apply the Column Level Regexes for cell value identification.
- If you define a RegEx to capture the table area, but leave the Rows RegEx empty, all lines in the table capture are individually processed using each Column RegEx to capture the cell values.
- If you leave the Table RegEx empty but define a Rows RegEx, then all text captured with the Rows RegEx is used and the Column RegExes are applied to capture cell values for each row.
- If you fill in both Table and Rows RegEx, the activity applies the Table RegEx to identify the table string, then apply the Rows RegEx to identify each line, followed by the Column Level RegEx for capturing cell values.
-
Adicione sua expressão regular no campo Expressão . Você tem a opção de escrever todo o RegEx no campo Expressão ou criá-lo usando a opção Editar .
Importante:Para qualquer uma das expressões regulares que você definir, certifique-se de ter pelo menos um grupo de captura. Apenas as partes capturadas de uma expressão são usadas para relatórios de valor.
-
Selecione a lista suspensa na coluna Opções do Regex. Você pode definir várias opções de regex dessa opção de seleção múltipla.
Você pode escolher entre as seguintes opções:
-
CultureInvariant - Specifies that the linguistic cultural differences are ignored.
-
ECMAScript - Habilita o comportamento compatível com ECMA (Associação Europeia de Fabricantes de Computadores) para a expressão. Este valor pode ser usado apenas em conjunto com as opções IgnoreCase e Multiline .
-
ExplicitCapture - Especifica que as únicas capturas válidas são aquelas de grupos explicitamente nomeados ou numerados e definidos como
(?<name> subexpression). Quaisquer parênteses não nomeados são ignorados. -
IgnoreCase - Specifies that the search is not case sensitive.
-
IgnorePatternWhitespace - Elimina o espaço em branco sem caractere de escape do padrão definido e habilita os comentários marcados com
#(símbolo de hashtag). Esta opção não se aplica a classes de caracteres, quantificadores numéricos ou tokens que marcam o início de um elemento de linguagem RegEx individual. -
Singleline - Specifies that the search is initiated in a single line. The dot
(.)matches all characters, including the exception\n. -
Multiline - Specifies that the search is initiated in multiple lines. For this option, the special characters
^and$match the beginning and the ending of any line. -
RightToLeft - Specifies that the search is performed from right to left.
Observação:Acesse RegexOptions Enum para obter mais informações sobre as opções de expressão regular que você pode usar.
-
Figura 4. O menu suspenso Opções de Regex expandido mostrando as opções disponíveis
Assistente do Editor RegEx
-
Selecione Editar para editar as opções desse campo e o formato da expressão regular. O assistente Construtor de RegEx é aberto.
Figura 5. Visão geral do assistente Construtor de RegEx
-
Insira seu texto desejado no campo Texto do teste. Este é o texto ao qual você deseja aplicar RegEx com base nos critérios de pesquisa que você escolhe. Depois disso, insira um valor no campo Valor do RegEx, que também será destacado no campo Texto do teste.
Figura 6. Inserção de texto no campo Texto do teste e destacando um certo valor dele usando o campo Valor
-
Selecione um dos tipos de fórmula RegEx na lista suspensa. Isso define a expressão regular para corresponder a uma das seguintes características:
- Literal - Matches the exact characters specified by you. This option is case sensitive.
- Digit - Matches a digit.
- One of - Matches a single character present in the set.
- Not one of - Matches a single character not present in the set.
- Anything - Matches any character, except for
\n. - Any word character - Matches any letters and numbers.
- Whitespace - Matches one white space.
- Starts with - Initiates the search where the line starts.
- Ends with - Initiates the search where the line ends.
- Advanced - Requires a custom expression.
- Email - Matches an email address.
- URL - Matches an URL.
- US date - Matches the US date format.
- US phone number - Matches the US phone number format.
Figura 7. A lista suspensa mostrando as características disponíveis para a expressão regular
Observação:Acesse Expressões regulares do .NET para obter mais informações sobre expressões regulares no .NET.
-
Use the Value field for writing the value of the regular expression.
-
Selecione um quantificador na lista suspensa Quantificadores. Você pode escolher entre as seguintes opções:
- Exactly - Matches the preceding element exactly how many times it is specified. By default, it is set to
1. - Any (0 or more) - Matches the preceding element for zero or more times, but as few times as possible.
- At least one (1 or more) - Matches the preceding element for one or more times.
- Zero or one - Matches the preceding element for zero or one time but for as few times as possible.
- Between x and y times - Matches the preceding element between
xandytimes, wherexandyare integers, but as few times as possible.
- Exactly - Matches the preceding element exactly how many times it is specified. By default, it is set to
-
Para editar campos, você pode usar as seguintes opções:
- Select Add
to add an extra RegEx field. - Select Move up
and Move down
to move fields up and down in the hierarchy. - Select Remove
to delete the field.
- Select Add
-
Select the check box for the Capture option if you want to extract that specific field.
-
O campo Expressão completa mostra toda a expressão exatamente como você a personalizou.
-
Selecione uma ou várias opções na lista suspensa Opções do Regex.
Figura 8. As opções disponíveis na lista suspensa Opções do Regex
-
Selecione Salvar assim que todas as suas configurações forem feitas para sair do modo de edição .
-
Selecione Salvar novamente para fechar o assistente.
Integração de Compreensão de Documentos
A atividade RegEx Based Extractor faz parte das Soluções do Document Understanding.