- Vue d'ensemble (Overview)
- Document Processing Contracts
- Notes de publication
- À propos des contrats de traitement de documents
- Classe Zone
- Interface ActivitéIPersisted
- Classe PrettyBoxConverter
- Interface ActivitéIClassifier
- Interface FournisseurIClassifieurCapacités
- Classe TypeDocumentClassifieur
- Classe RésultatClassifieur
- Classe ActivitéCodeClassifieur
- Classe ActivitéClassifieurNatif
- Classe ActivitéClassifieurCodeAsync
- Classe CapacitéClassifieurTypeDocument
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Classe ActivitéExtracteurCodeAsync
- Classe ActivitéExtracteurCode
- Classe ExtracteurTypeDocument
- Classe ExtracteurDocumentTypeCapacités
- Classe ExtracteurChampCapacités
- Classe ActivitéExtracteurNatif
- Classe ExtracteurRésultat
- FieldValue Class
- FieldValueResult Class
- Interface FournisseurICapabilities
- Interface ActivitéIExtractor
- Classe ChargeUtileExtracteur
- Énumération PrioritéActionDocument
- Classe DocumentActionData
- Énumération StatutActionDocument
- Énumération TypeActionDocument
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe DonnéesUtilisateur
- Classe Documents
- Classe RésultatDivisionDocument
- Classe ExtensionDom
- Classe Page
- Classe SectionPage
- Classe Polygone
- Classe ConvertisseurPolygones
- Classe de métadonnées
- Classe GroupeMot
- Classe Mot
- Énumération SourceTraitement
- Classe CelluleRésultatsTable
- Classe ValeurTableRésultats
- Classe InformationsColonnesTableRésultats
- Classe TableRésultats
- Énumération Rotation
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Énumération TypeSection
- Énumération TypeGroupeMot
- ProjectionTexteIDocument Interface
- Classe RésultatClassification
- Classe RésultatExtraction
- Classe ResultatsDocument
- Classe ResultatsLimitesDocument
- Classe ResultatsDonnéesPoint
- Classe RésultatsValeur
- Classe ResultatsContenuRéference
- Classe ResultatsValeurJetons
- Classe ResultatsChampDérivé
- Énumération ResultatsSourceDonnées
- Classe ResultatsConstantes
- Classe ChampValeurSimple
- Classe ValeurChampTable
- Classe GroupeDocument
- Classe DocumentTaxonomie
- Classe TypeDocument
- Classe Champ
- Énumération TypeChamp
- FieldValueDetails Class
- Classe InfoLangage
- Classe SaisieMétadonnées
- Énumération TypeTexte
- Classe TypeFieldTypeField Class
- Interface ActivitéISuivi
- ITrainableActivity Interface
- Interface ActivitéClassifieurITrainable
- Interface ActivitéExtracteurITrainable
- Classe ActivitéFormationClassifieurCodeAsync
- Classe ActivitéFormationClassifieurCode
- Classe ActivitéFormationClassifieurNatif
- Classe ActivitéFormationExtracteurCodeAsync
- Classe ActivitéFormationExtracteurCode
- Classe ActivitéFormationExtracteurNative
- Classe BasicDataPoint : aperçu
- Classe GestionnaireRésultatExtraction - aperçu
- Document Understanding ML
- Serveur local OCR Document Understanding
- Document Understanding
- Notes de publication
- À propos du package d’activités Document Understanding
- Compatibilité du projet
- Configuration de la connexion externe
- Définir le mot de passe du PDF
- Merge PDFs
- Get PDF Page Count
- Extraire le texte PDF (Extract PDF Text)
- Extract PDF Images
- Extract PDF Page Range
- Extraire les données du document
- Create Validation Task and Wait
- Attendre la tâche de validation et reprendre
- Create Validation Task
- Classer un document (Classify Document)
- Créer une tâche de validation de classification (Create Classification Validation Task)
- Créer une tâche de validation de classification et attendre (Create Classification Validation Task and Wait)
- Attendre la tâche de validation de la classification et reprendre
- IntelligentOCR
- Notes de publication
- À propos du package d'activités IntelligentOCR
- Compatibilité du projet
- Load Taxonomy
- Digitize Document
- Classify Document Scope
- Keyword Based Classifier
- Classifieur de projet Document Understanding (Document Understanding Project Classifier)
- Intelligent Keyword Classifier
- Create Document Classification Action
- Créer une action de validation de document (Create Document Validation Action)
- Retrieve Document Validation Artifacts
- Attendre l'action de classification du document et reprendre
- Tester l'étendue des classifieurs
- Outil d'entraînement de classifieur basé sur des mots-clés
- Intelligent Keyword Classifier Trainer
- Data Extraction Scope
- Extracteur de projet Document Understanding (Document Understanding Project Extractor)
- Entraîneur d’extracteur de projet Document Understanding
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Caviarder le document
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Tester l'étendue des extracteurs
- Export Extraction Results
- Extracteur d'apprentissage automatique
- Machine Learning Extractor Trainer
- Machine Learning Classifier
- Machine Learning Classifier Trainer
- Classifieur génératif
- Extracteur génératif
- Configuration de l'authentification
- Valider des documents avec des actions App
- Valider manuellement des documents numérisés
- Extraction de données basée sur des ancres à l'aide de l'Extracteur de formulaires intelligent
- Station de validation
- Activités génératives - Bonnes pratiques
- Extracteur génératif - Bonnes pratiques
- Classifieur génératif - Bonnes pratiques
- Services ML
- OCR
- Contrats OCR
- Notes de publication
- À propos des contrats OCR
- Compatibilité du projet
- Interface ActivitéIOCR
- Classe OCRCodeAsync
- Classe ActivitéCodeOCR
- Classe ActivitéOCRNatif
- Classe Caractère
- Classe RésultatOCR
- Classe Mot
- Énumération StylesPolice
- Énumération RotationOCR
- Classe OCRCapabilities
- Classe BaseCaptureOCR
- Classe UsineCaptureOCR
- Classe BaseContrôleCapture
- Énumération UtilisationCaptureMoteur
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Non listé] Abbyy
- Notes de publication
- À propos du package d'activités Abbyy
- Compatibilité du projet
- Reconnaissance optique des caractères ABBYY (ABBYY OCR)
- Reconnaissance optique des caractères ABBYY Cloud (ABBYY Cloud OCR)
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Classer un document (Classify Document)
- Traiter le document (Process Document)
- Valider le document (Validate Document)
- Exporter le document (Export Document)
- Obtenir le champ (Get Field)
- Obtenir la table (Get Table)
- Prepare Validation Station Data
- [Non listé] Abbyy intégré
Activités Document Understanding
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
Description
Vous permet de créer et d'utiliser une expression régulière personnalisée pour extraire des informations d'un document. Cette activité ne peut être utilisée qu’avec l’activité Data Extraction Scope .
This activity cannot work with set or boolean fields.
Compatibilité du projet
Windows - Héritage | Windows
Configuration
Module Designer
Configurer des expressions : ouvre l’assistant Configurer des expressions régulières.
Panneau propriétés
Commun
- NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
- Configuration - Specifies the configuration value for the extractor as a
JSONescaped string. Use the extractor wizard to generate the configuration. You can keep the configuration in the Properties panel, as a string, or you can define it by using the wizard and bind it to a variable. It is advisable to edit the Configuration field by using the wizard and not the Properties panel. - Timeout - Specifies the timeout value for any Regex search, in milliseconds. A timeout of
0, or negative, is interpreted as infinite. The default value is2000. - UseVisualAlignment - If selected, the regular expressions are applied to a text version generated based on visual word alignments (a visual word alignment includes words separated by a single space character, lines separated by a single newline character, and pages separated by two lines characters). The default value is False. This option can be used for complex layouts where it is easier for users to write regular expressions based on how words are visually organized on lines, ignoring any sentence, paragraph, or layout group otherwise identified in the document.
Divers
- Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
L'assistant de configuration d'expressions régulières
-
Ajoutez une activité Extracteur basé sur Regex (RegEx Based Extractor) à votre workflow dans une activité Étendue de l'extraction de données (Data Extraction Scope).
-
Configurez vos expressions régulières en sélectionnant Configurer les expressions (Configure Expressions). La fenêtre de l'assistant (Wizard) s'ouvre.
Figure 1. Présentation de l’ assistant de configuration d’expressions régulières
-
Développez une entrée de type de document afin de voir tous les champs définis et de commencer à configurer vos expressions régulières. Les types de documents et leurs champs respectifs sont automatiquement lus à partir de la taxonomie du projet. L’option de configuration Regex est disponible pour chaque champ de la taxonomie. Vous pouvez rencontrer les options de configuration suivantes dans l’assistant :
- Vous pouvez avoir un type de document pour lequel un seul champ régulier s’affichera lorsque vous le développez. Pour un champ simple, une seule expression régulière peut être définie à l’aide de l’assistant Configurer des expressions régulières qui s’ouvre lorsque vous sélectionnez Modifier à côté de ce champ.
Image 2. Un type de document dans l’assistant de configuration d’expressions régulières avec un champ régulier défini
- Vous pouvez avoir un type de document qui affichera un champ de table une fois développé, présentant des options de configuration de table telles qu’une Expression pour l’ensemble du contenu de la table ou une Expression pour des lignes individuelles. Consultez la liste suivante afin de connaître les multiples paramètres et options disponibles pour configurer un champ de table :
- L'expression régulière de la valeur de table (Table Value RegEx) peut être utilisée pour capturer une zone de table entière. Si aucune valeur n’est ajoutée dans la ligne de champ Table, l’intégralité du contenu textuel du document sera alors prise en compte dans le cadre du traitement de la table.
- L'expression régulière de la valeur des lignes (Rows Value RegEx) peut être utilisée pour capturer une ligne entière à partir d'une capture de table donnée. Si aucune valeur n’est ajoutée sur la ligne du champ Lignes, la zone de la table sera divisée par fin de ligne. Chaque valeur capturée est désormais considérée comme une ligne sur laquelle l’extraction de colonne doit être appliquée.
- Le RegEx de valeur de colonne (Column Value RegEx) peut être utilisé pour capturer la valeur d'une colonne particulière, à partir de chaque ligne capturée.
Graphique 3. Un type de document dans l’assistant de configuration d’expressions régulières avec un champ de table défini
Scénarios d’utilisation de l’expression régulière Table, Rows et Column
Consultez les scénarios potentiels suivants pour utiliser les options d’expression régulière de table disponibles :
- Si vous laissez les champs Expressions régulières de tableau (Table RegEx) et Expressions régulières de ligne (Rows RegEx) vides, toutes les lignes de la version texte du document sont utilisées pour appliquer les expressions régulières de niveau colonne (Column Level Regexes) pour l'identification de la valeur de la cellule.
- Si vous définissez une expression régulière pour capturer la zone de tableau, mais laissez RegEx Rows vide, toutes les lignes de la capture de table sont traitées individuellement à l'aide de chaque Column RegEx pour capturer les valeurs de cellule.
- Si vous laissez Table RegEx vide mais définissez une Rows RegEx, alors tout le texte capturé avec Rows RegEx est utilisé et les Column RegExes sont appliquées pour capturer les valeurs des cellules pour chaque ligne.
- Si vous remplissez à la fois Table RegEx et Rows RegEx, l'activité applique la Table RegEx pour identifier la chaîne du tableau, puis applique la Rows RegEx pour identifier chaque ligne, suivie de Column Level RegEx pour capturer les valeurs des cellules.
-
Ajoutez votre expression régulière (Regular Expression) dans le champ Expression. Vous avez la possibilité d’écrire l’intégralité de l’expression régulière dans le champ Expression ou de la créer en utilisant le bouton Modifier (Edit).
Important :Pour toutes les expressions régulières que vous définissez, assurez-vous d’avoir au moins un groupe de capture. Seules les parties capturées d’une expression sont utilisées dans le cadre du rapport de valeur.
-
Sélectionnez la liste déroulante dans la colonne Options de RegEx. Vous pouvez définir différentes options de RegEx à partir de cette option à sélection multiple.
Choisissez une des options suivantes :
-
CultureInvariant - Indique que les différences culturelles linguistiques sont ignorées.
-
ScriptECMA : active le comportement conforme au script ECMA (European Computer Manufacturers Association) pour l’expression. Cette valeur ne peut être utilisée qu'avec les options IgnoreCase et Multiline.
-
ExplicitCapture - Spécifie que les seules captures valides sont celles des groupes explicitement nommés ou numérotés et définis comme
(?<name> subexpression). Toutes les parenthèses sans nom seront ignorées. -
IgnoreCase - Spécifie que la recherche n'est pas sensible à la casse.
-
IgnorePatternWhitespace - Élimine l'espace blanc non échappé du modèle défini et active les commentaires marqués avec
#(symbole de hachage). Cette option ne s’applique pas aux classes de caractères, aux quantificateurs numériques ou aux jetons marquant le début d’un élément de langage RegEx individuel. -
Singleline - Spécifie que la recherche est lancée sur une seule ligne. Le point
(.)correspond à tous les caractères, y compris l'exception\n. -
Multiline - Spécifie que la recherche est lancée sur plusieurs lignes. Pour cette option, les caractères spéciaux
^et$correspondent au début et à la fin de n'importe quelle ligne. -
RightToLeft - Spécifie que la recherche est effectuée de droite à gauche.
Remarque :Consultez Énumération Regex pour plus d’informations sur les options d’expression régulière que vous pouvez utiliser.
-
Graphique 4. La liste déroulante étendue des Options de Regex affichant les options disponibles
L'assistant de l'éditeur d'expressions régulières
-
Sélectionnez Modifier (Edit) pour modifier les options de ce champ et le format de l’expression régulière. L’assistant Générateur de RegEx s’ouvre.
Image 5. Présentation de l’assistant Générateur de RegEx
-
Saisissez le texte de votre choix dans le champ Texte de test. Il s’agit du texte auquel vous souhaitez appliquer l’expression régulière en fonction des critères de recherche que vous choisissez. Ensuite, insérez une valeur dans le champ Valeur de l’expression régulière, qui sera ensuite également surlignée dans le champ Texte de test.
Figure 6. Saisir du texte dans le champ Texte de test et mettre en évidence une valeur spécifique via le champ Valeur
-
Sélectionnez l’un des types de formule RegEx dans la liste déroulante. Cela définit l’expression régulière pour qu’elle corresponde à l’une des caractéristiques suivantes :
- Littéral (Literal) - Correspond aux caractères exacts que vous avez spécifiés. Cette option est sensible à la casse.
- Chiffre (Digit) - Correspond à un chiffre.
- Un de (One of) - Correspond à un caractère unique présent dans l'ensemble.
- Pas un de (Not one of) - Correspond à un caractère unique absent de l'ensemble.
- N'importe quoi (Anything) - Correspond à n'importe quel caractère, à l'exception de
\n. - N'importe quel caractère de mot (Any word character) - Correspond à toutes les lettres et tous les chiffres.
- Espace blanc (Whitespace) - Correspond à un espace blanc.
- Commence par (Starts with) - Lance la recherche là où la ligne commence.
- Se termine par (Ends with) - Lance la recherche là où la ligne se termine.
- Avancé (Advanced) - Nécessite une expression personnalisée.
- Email - Correspond à une adresse e-mail.
- URL - Correspond à une URL.
- Date US (US date) - Correspond au format de date US.
- Numéro de téléphone américain (US phone number) - Correspond au format du numéro de téléphone américain.
Image 7. La liste déroulante présentant les caractéristiques disponibles pour l’expression régulière
Remarque :Consultez la section Expressions régulières .NET pour plus d’informations sur les expressions régulières dans .NET.
-
Utilisez le champ Valeur Value pour écrire la valeur de l'expression régulière.
-
Sélectionnez un quantificateur dans la liste déroulante Quantificateurs. Choisissez une des options suivantes :
- Exactement (Exactly) - Correspond exactement à l'élément précédent selon le nombre de fois où il est spécifié. Par défaut, ce paramètre est configuré sur
1. - Tout (0 ou plus) (Any (0 or more)) - Correspond à l'élément précédent zéro ou plusieurs fois, mais aussi peu de fois que possible.
- Au moins un (1 ou plusieurs) (At least one (1 or more)) - Correspond à l'élément précédent une ou plusieurs fois.
- Zéro ou un (Zero or one) - Correspond à l'élément précédent zéro ou une fois, mais aussi peu de fois que possible.
- Entre x et y fois (Between x and y times) - Correspond à l'élément précédent entre
xetyfois, oùxetysont des entiers, mais aussi peu de fois que possible.
- Exactement (Exactly) - Correspond exactement à l'élément précédent selon le nombre de fois où il est spécifié. Par défaut, ce paramètre est configuré sur
-
Vous pouvez utiliser les options suivantes pour modifier les champs :
- Select Add
to add an extra RegEx field. - Select Move up
and Move down
to move fields up and down in the hierarchy. - Select Remove
to delete the field.
- Select Add
-
Cochez la case de l'option Capturer (Capture) si vous souhaitez extraire ce champ spécifique.
-
Le champ Expression complète affiche l’expression entière exactement comme vous l’avez personnalisée.
-
Sélectionnez une ou plusieurs options dans la liste déroulante Options Regex.
Image 8. Les options disponibles dans la liste déroulante Options de Regex
-
Sélectionnez Enregistrer une fois que toutes vos configurations sont terminées pour quitter le mode Modifier.
-
Sélectionnez à nouveau Enregistrer pour fermer l’assistant.
Intégration de Document Understanding
L’activité Extracteur basé sur les RegEx (RegEx Based Extractor) fait partie des Solutions Document Understanding.