Activités (Activities)
Plus récente (Latest)
False
Image de fond de la bannière
Activités Document Understanding
Dernière mise à jour 10 avril. 2024

Regex Based Extractor

UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor

Vous permet de créer et d'utiliser une expression régulière personnalisée pour extraire des informations d'un document. Cette activité ne peut être utilisée qu’avec l’activité Data Extraction Scope.

Propriétés

Remarque : cette activité ne peut pas fonctionner avec les champs set ou boolean .
Commun
  • NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
  • Configuration (Configuration) : spécifie la valeur de configuration de l'extracteur sous la forme d'une chaîne d'échappement JSON . Utilisez l'assistant d'extraction pour générer la configuration. Vous pouvez conserver la configuration dans le panneau Propriétés , sous forme de chaîne, ou la définir à l'aide de l'assistant et la lier à une variable. Il est conseillé de modifier le champ Configuration à l'aide de l'assistant et non du panneau Propriétés .
  • Délai d'attente (Timeout ) - Spécifie la valeur du délai d'attente pour toute recherche Regex, en millisecondes. Un délai d'attente de 0, ou négatif, est interprété comme infini. La valeur par défaut est 2000.
  • UtiliserAlignementVisuel - Lorsque cette case est cochée, les expressions régulières sont appliquées à une version de texte générée sur la base d'alignements visuels des mots. Le texte d'alignement visuel des mots contient des mots séparés par un seul espace, des lignes séparées par un seul caractère de nouvelle ligne et des pages séparées par deux caractères de nouvelle ligne. La valeur par défaut est False. Cette option peut être utilisée pour des mises en page complexes, permettant aux utilisateurs d’écrire plus facilement des expressions régulières basées sur la façon dont les mots sont organisés visuellement sur les lignes, ignorant toute phrase, tout paragraphe ou tout groupe de mise en page autrement identifié dans le document.
Divers
  • Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).

L'assistant de configuration d'expressions régulières

  1. Ajoutez une activité Extracteur basé sur Regex (RegEx Based Extractor) à votre workflow dans une activité Étendue de l'extraction de données (Data Extraction Scope).
  2. Configurez vos expressions régulières en cliquant sur le bouton Configurer les expressions (Configure Expressions).

    • La fenêtre de l'assistant (Wizard) s'ouvre.



  3. Développez une entrée de type de document afin de voir tous les champs définis et de commencer à configurer vos expressions régulières. Les types de documents et leurs champs respectifs sont automatiquement lus à partir de la taxonomie du projet. L'option de configuration Regex est disponible pour chaque champ de la taxonomie.

    • type de document étendu affichant un seul champ régulier :



    • Type de document et champ de table étendus affichant les options de configuration d'un tableau :



      Pour un champ simple, une seule expression régulière peut être définie à l'aide de l'assistant d'expression régulière qui s'ouvre lorsque vous cliquez sur l'option Modifier (Edit) à côté de ce champ.

      Plusieurs paramètres et options peuvent être configurés par champ de table :

    • L'expression régulière de la valeur de table (Table Value RegEx) peut être utilisée pour capturer une zone de table entière. Si aucune valeur n'est ajoutée sur la ligne de champ Table (Table), l'intégralité du contenu textuel du document est alors pris en compte dans le cadre du traitement de la table.
    • L'expression régulière de la valeur des lignes (Rows Value RegEx) peut être utilisée pour capturer une ligne entière à partir d'une capture de table donnée. Si aucune valeur n'est ajoutée sur la ligne du champ Lignes (Rows), la zone du tableau est divisée par fin de ligne. Chaque valeur capturée est désormais considérée comme une ligne sur laquelle l'extraction de colonne doit être appliquée.
    • Le RegEx de valeur de colonne (Column Value RegEx) peut être utilisé pour capturer la valeur d'une colonne particulière, à partir de chaque ligne capturée.

      Scénarios d'utilisation de l'expression régulière Table, Rows et Column :

    • Si vous laissez les champs Expressions régulières de tableau (Table RegEx) et Expressions régulières de ligne (Rows RegEx) vides, toutes les lignes de la version texte du document sont utilisées pour appliquer les expressions régulières de niveau colonne (Column Level Regexes) pour l'identification de la valeur de la cellule.
    • Si vous définissez une expression régulière pour capturer la zone de tableau, mais laissez RegEx Rows vide, toutes les lignes de la capture de table sont traitées individuellement à l'aide de chaque Column RegEx pour capturer les valeurs de cellule.
    • Si vous laissez Table RegEx vide mais définissez une Rows RegEx, alors tout le texte capturé avec Rows RegEx est utilisé et les Column RegExes sont appliquées pour capturer les valeurs des cellules pour chaque ligne.
    • Si vous remplissez à la fois Table RegEx et Rows RegEx, l'activité applique la Table RegEx pour identifier la chaîne du tableau, puis applique la Rows RegEx pour identifier chaque ligne, suivie de Column Level RegEx pour capturer les valeurs des cellules.
  4. Ajoutez votre expression régulière (Regular Expression) dans le champ Expression.

    Remarque : vous avez la possibilité d'écrire l'intégralité de RegEx dans le champ Expression ou de le créer en utilisant le bouton Modifier (Edit).
    Attention : pour toutes les expressions régulières que vous définissez, assurez-vous d'avoir au moins un groupe de capture ! Seules les parties capturées d'une expression sont utilisées dans le cadre du rapport de valeur.
  5. Cliquez sur la liste déroulante de la colonne Options de RegEx (Regex Options). Vous pouvez définir les options de RegEx à partir de cette option à sélection multiple.



  6. Vous avez le choix entre plusieurs options :

    • CultureInvariant - Indique que les différences culturelles linguistiques sont ignorées.
    • ECMAScript - Active le comportement conforme au Script ECMA pour l'expression. Cette valeur ne peut être utilisée qu'avec les options IgnoreCase et Multiline.
    • ExplicitCapture - Spécifie que les seules captures valides sont celles des groupes explicitement nommés ou numérotés et définis comme (?<name> subexpression). Toutes les parenthèses sans nom doivent être ignorées.
    • IgnoreCase - Spécifie que la recherche n'est pas sensible à la casse.
    • IgnorePatternWhitespace - Élimine l'espace blanc non échappé du modèle défini et active les commentaires marqués avec #. Cette option ne s'applique pas aux classes de caractères, aux quantificateurs numériques ou aux jetons marquant le début d'un élément de langage RegEx individuel.
    • Singleline - Spécifie que la recherche est lancée sur une seule ligne. Le point (.) correspond à tous les caractères, y compris l'exception \n.
    • Multiline - Spécifie que la recherche est lancée sur plusieurs lignes. Pour cette option, les caractères spéciaux ^ et $ correspondent au début et à la fin de n'importe quelle ligne.
    • RightToLeft - Spécifie que la recherche est effectuée de droite à gauche.

      Remarque : vous trouverez plus d'informations sur les options d'expression régulière ici.

L'assistant de l'éditeur d'expressions régulières

  1. Cliquez sur le bouton Modifier (Edit) pour modifier les options de ce champ et le format de l'expression régulière.



  2. Ajoutez du texte dans le champ Texte de test (Test Text) pour tester les critères de recherche que vous choisissez avec le texte auquel vous souhaitez appliquer RegEx.



  3. Sélectionnez l'un des types de formule RegEx dans la liste déroulante. Cela définit l'expression régulière pour qu'elle corresponde à l'une des caractéristiques suivantes :

    • Littéral (Literal) - Correspond aux caractères exacts que vous avez spécifiés. Cette option est sensible à la casse.
    • Chiffre (Digit) - Correspond à un chiffre.
    • Un de (One of) - Correspond à un caractère unique présent dans l'ensemble.
    • Pas un de (Not one of) - Correspond à un caractère unique absent de l'ensemble.
    • N'importe quoi (Anything) - Correspond à n'importe quel caractère, à l'exception de \n.
    • N'importe quel caractère de mot (Any word character) - Correspond à toutes les lettres et tous les chiffres.
    • Espace blanc (Whitespace) - Correspond à un espace blanc.
    • Commence par (Starts with) - Lance la recherche là où la ligne commence.
    • Se termine par (Ends with) - Lance la recherche là où la ligne se termine.
    • Avancé (Advanced) - Nécessite une expression personnalisée.
    • Email - Correspond à une adresse e-mail.
    • URL - Correspond à une URL.
    • Date US (US date) - Correspond au format de date US.
    • Numéro de téléphone américain (US phone number) - Correspond au format du numéro de téléphone américain.



      Remarque : vous trouverez plus d'informations sur les options d'expression régulière ici.
  4. Utilisez le champ Valeur Value pour écrire la valeur de l'expression régulière.
  5. Sélectionnez un quantificateur dans la liste déroulante Quantificateurs (Quantifiers).

    • Exactement (Exactly) - Correspond exactement à l'élément précédent selon le nombre de fois où il est spécifié. Par défaut, elle est définie sur 1 .
    • Tout (0 ou plus) (Any (0 or more)) - Correspond à l'élément précédent zéro ou plusieurs fois, mais aussi peu de fois que possible.
    • Au moins un (1 ou plusieurs) (At least one (1 or more)) - Correspond à l'élément précédent une ou plusieurs fois.
    • Zéro ou un (Zero or one) - Correspond à l'élément précédent zéro ou une fois, mais aussi peu de fois que possible.
    • Entre x et y fois (Between x and y times) - Correspond à l'élément précédent entre x et y fois, où x et y sont des entiers, mais aussi peu de fois que possible.
  6. Utilisez le bouton docs image pour ajouter un champ RegEx supplémentaire. Déplacez les champs vers le haut et vers le bas dans la hiérarchie à l'aide des boutons docs image et docs image. Utilisez le bouton docs image pour supprimer le champ.
  7. Cochez la case de l'option Capturer (Capture) si vous souhaitez extraire ce champ spécifique.
  8. Le champ Expression complète (Full Expression) affiche l'expression entière exactement comme vous l'avez personnalisée.
  9. Sélectionnez une ou plusieurs options dans la liste déroulante Options Regex (Regex Options).



  10. Cliquez sur le bouton Enregistrer (Save) une fois toutes vos configurations terminées pour quitter le mode Édition (Edit), puis cliquez à nouveau sur Enregistrer (Save) pour fermer l'assistant.
Intégration de Document Understanding

L’activité Extracteur basé sur les RegEx (RegEx Based Extractor) fait partie des Solutions Document Understanding.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.