Communications Mining
Plus récente (Latest)
False
Guide de l'utilisateur de Communications Mining
Last updated 2 juil. 2024

Building custom regex general fields

Autorisations requises : « Modifier les ensembles de données ».

What are Custom Regex General Fields?

A Custom Regex General Field can be used to extract and format spans of text that have a known repetitive structure, such as IDs or reference numbers.

This is a useful option for simple, structured general fields with little variation, whereas for those with significant variation and where context has a big influence on predictions, a machine-learning based general field would be the right choice. Combinations of the two can be used in any dataset within Communications Mining.

A broader Regex (i.e. set of rules to define the general field) can also be used as the base of a custom general field. This combines the rules with contextual, machine learning based refinement through training within Communications Mining to create sophisticated custom general fields. This provides the most optimal performance as well as the necessary restrictions on values extracted for automation.

Modèle de RegEx personnalisés

A Custom Regex General Field is made up of one or more Custom Regex Templates. Each template expresses one way to extract (and format) the general field.

Combined together, these templates offer a flexible and powerful way to cover multiple representations of the same general field type.

Un modèle est composé de deux parties :

  1. The regex (regular expression), which describes the constraints that need to be met by a span of text to be extracted as a general field
  2. Le formatage, qui exprime comment normaliser la chaîne extraite dans un format plus standard

Par exemple, si vos ID client peuvent être soit le mot « ID » suivi de 7 chiffres, soit une chaîne alphanumérique de 9 caractères, voici à quoi ressembleront vos deux modèles :



Validation par saisie

Lorsque vous tapez dans la zone de texte pour l'expression régulière ou le formatage, l'interface fournit des commentaires immédiats sur la validité de l'entrée. Par exemple, l'entrée non valide Regex ID\d{} affichera :

Aperçu de l’extraction

The Custom Regex Template can be tested on text to ensure that it behaves as expected. Any general field that would be extracted with the Template will be shown in a list, with its value, as well as the position of the start and end characters.

Par exemple, si l'expression régulière est \d{4} et le formatage ID-{$}, la chaîne de test suivante affichera une extraction :


Regex

The regex is the pattern used to extract general fields in the text. See here for the syntax documentation.

Les groupes de capture nommés peuvent être utilisés pour identifier une section spécifique de la chaîne extraite en vue d'un formatage ultérieur. Les noms des groupes de capture doivent être uniques dans tous les modèles et ne doivent contenir que des lettres ou des chiffres minuscules.

Formatting

Formatting can be provided to post-process the extracted general field.

Par défaut, aucun formatage n'est appliqué et la chaîne renvoyée par la plateforme sera la chaîne extraite par l'expression régulière. Cependant, si nécessaire, des transformations plus complexes peuvent être définies, en utilisant les règles suivantes.

Variables

Tout groupe de capture nommé défini dans l'expression régulière pourra être utilisé dans la logique de formatage en tant que variable préfixée avec le symbole $ . Notez que le symbole $ représente à lui seul la correspondance complète de l'expression régulière.
Les variables peuvent ensuite être utilisées dans la chaîne de formatage pour insérer la portée extraite correspondante dans la valeur renvoyée par la plateforme ; le nom de la variable doit être entouré d'accolades { et } .
Par exemple, si nous voulons extraire sept chiffres comme ID et renvoyer ces sept chiffres avec le préfixe ID- , l'expression régulière et le formatage seraient :


Ou, en utilisant un groupe de capture nommé :


Later on, if the platform is given the text: My identification number is 1234567, it will return one general field: My identification number is 1234567, it will return one general field: ID-1234567

Opérations de chaînes

Des chaînes brutes peuvent être utilisées, et les chaînes peuvent être concaténées à l'aide du symbole & .
Regex(?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b)
Formatting{$id1 & "-" & $id2}
TexteLe premier identifiant est 123 et le second est 4567
General Field returned by the platform123-4567

Fonctions

Certaines fonctions peuvent également être utilisées dans le formatage pour transformer la chaîne extraite. Les noms des fonctions et leurs signatures sont basés sur Excel.

Supérieur

Convertit tous les caractères en majuscules dans la plage extraite :

Regex\w{3}
Formatting{upper($)}
Texteabc
General Field returned by the platformABC

Inférieur

Convertit tous les caractères de la plage extraite en minuscules :

Regex\w{3}
Formatting{lower($)}
TexteAbC
General Field returned by the platformabc

Bonne

Met en majuscule la plage extraite :

Regex\w+\s\w+
Formatting{proper($)}
TexteAlerteInstantané
General Field returned by the platformAlerte-contacts

Bloc-notes

Remplit la plage extraite à une taille donnée avec un caractère donné.

Arguments de fonction :

  1. Le texte contenant les caractères à remplir
  2. Taille de la chaîne remplie
  3. Caractère à utiliser pour le remplissage
Regex\d{2,5}
Formatting{pad($, 5, "0")}
Texte123
General Field returned by the platform00123

Remplacer

Remplace les caractères par d'autres caractères.

Arguments de fonction :

  1. Texte contenant les caractères à remplacer
  2. Quels caractères remplacer
  3. Par quoi les anciens caractères doivent être remplacés
Regexab
Formatting{substitute($, "a", "12")}
Texteab
General Field returned by the platform12b

Gauche

Renvoie les premiers n caractères de l'étendue.

Arguments de fonction :

  1. Le texte contenant les caractères à extraire
  2. Le nombre de caractères à renvoyer
Regex\w{4}
Formatting{left($, 2)}
TexteABCD
General Field returned by the platformAB

Droite

Renvoie les derniers n caractères de l'étendue.

Arguments de fonction :

  1. Le texte contenant les caractères à extraire
  2. Le nombre de caractères à renvoyer
Regex\w{4}
Formatting{right($, 2)}
TexteABCD
General Field returned by the platformCD

Milieu

Renvoie n caractères après la position spécifiée dans l'étendue.

Arguments de fonction :

  1. Le texte contenant les caractères à extraire
  2. La position du premier caractère à renvoyer
  3. Le nombre de caractères à renvoyer
Regex\w{5}
Formatting{mid($, 2, 3)}
TexteABCDE
General Field returned by the platformBCD

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.