- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- General fields (previously Entities)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Préparation des données en vue du téléchargement du fichier .CSV
- Entraînement et maintenance du modèle
- Understanding labels, general fields and metadata
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Comprendre le statut de votre jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Defining and setting up your general fields
- Understanding general fields
- Which pre-trained general fields are available?
- Enabling, disabling, updating and creating general fields
- General field filtering
- Reviewing and applying general fields
- Validation for general fields
- Improving general field performance
- Building custom regex general fields
- Extraction générative
- Utilisation des analyses et de la surveillance
- Automatisations et Communications Mining
- FAQ et plus encore
![](https://docs.uipath.com/_next/static/media/grid.05ebd128.png?w=3840&q=100)
Building custom regex general fields
Autorisations requises : « Modifier les ensembles de données ».
A Custom Regex General Field can be used to extract and format spans of text that have a known repetitive structure, such as IDs or reference numbers.
This is a useful option for simple, structured general fields with little variation, whereas for those with significant variation and where context has a big influence on predictions, a machine-learning based general field would be the right choice. Combinations of the two can be used in any dataset within Communications Mining.
A broader Regex (i.e. set of rules to define the general field) can also be used as the base of a custom general field. This combines the rules with contextual, machine learning based refinement through training within Communications Mining to create sophisticated custom general fields. This provides the most optimal performance as well as the necessary restrictions on values extracted for automation.
A Custom Regex General Field is made up of one or more Custom Regex Templates. Each template expresses one way to extract (and format) the general field.
Combined together, these templates offer a flexible and powerful way to cover multiple representations of the same general field type.
Un modèle est composé de deux parties :
- The regex (regular expression), which describes the constraints that need to be met by a span of text to be extracted as a general field
- Le formatage, qui exprime comment normaliser la chaîne extraite dans un format plus standard
Par exemple, si vos ID client peuvent être soit le mot « ID » suivi de 7 chiffres, soit une chaîne alphanumérique de 9 caractères, voici à quoi ressembleront vos deux modèles :
ID\
d{}
affichera :
The Custom Regex Template can be tested on text to ensure that it behaves as expected. Any general field that would be extracted with the Template will be shown in a list, with its value, as well as the position of the start and end characters.
\d{4}
et le formatage ID-{$}
, la chaîne de test suivante affichera une extraction :
The regex is the pattern used to extract general fields in the text. See here for the syntax documentation.
Les groupes de capture nommés peuvent être utilisés pour identifier une section spécifique de la chaîne extraite en vue d'un formatage ultérieur. Les noms des groupes de capture doivent être uniques dans tous les modèles et ne doivent contenir que des lettres ou des chiffres minuscules.
Formatting can be provided to post-process the extracted general field.
Par défaut, aucun formatage n'est appliqué et la chaîne renvoyée par la plateforme sera la chaîne extraite par l'expression régulière. Cependant, si nécessaire, des transformations plus complexes peuvent être définies, en utilisant les règles suivantes.
$
. Notez que le symbole $
représente à lui seul la correspondance complète de l'expression régulière.
{
et }
.
ID-
, l'expression régulière et le formatage seraient :
My identification number is 1234567
, it will return one general field: ID-1234567
&
.
Regex | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
Formatting | {$id1 & "-" & $id2} |
Texte | Le premier identifiant est 123 et le second est 4567 |
General Field returned by the platform | 123-4567 |
Certaines fonctions peuvent également être utilisées dans le formatage pour transformer la chaîne extraite. Les noms des fonctions et leurs signatures sont basés sur Excel.
Convertit tous les caractères en majuscules dans la plage extraite :
Regex | \w{3} |
Formatting | {upper($)} |
Texte | abc |
General Field returned by the platform | ABC |
Convertit tous les caractères de la plage extraite en minuscules :
Regex | \w{3} |
Formatting | {lower($)} |
Texte | AbC |
General Field returned by the platform | abc |
Met en majuscule la plage extraite :
Regex | \w+\s\w+ |
Formatting | {proper($)} |
Texte | AlerteInstantané |
General Field returned by the platform | Alerte-contacts |
Remplit la plage extraite à une taille donnée avec un caractère donné.
Arguments de fonction :
- Le texte contenant les caractères à remplir
- Taille de la chaîne remplie
- Caractère à utiliser pour le remplissage
Regex | \d{2,5} |
Formatting | {pad($, 5, "0")} |
Texte | 123 |
General Field returned by the platform | 00123 |
Remplace les caractères par d'autres caractères.
Arguments de fonction :
- Texte contenant les caractères à remplacer
- Quels caractères remplacer
- Par quoi les anciens caractères doivent être remplacés
Regex | ab |
Formatting | {substitute($, "a", "12")} |
Texte | ab |
General Field returned by the platform | 12b |
Renvoie les premiers n caractères de l'étendue.
Arguments de fonction :
- Le texte contenant les caractères à extraire
- Le nombre de caractères à renvoyer
Regex | \w{4} |
Formatting | {left($, 2)} |
Texte | ABCD |
General Field returned by the platform | AB |
Renvoie les derniers n caractères de l'étendue.
Arguments de fonction :
- Le texte contenant les caractères à extraire
- Le nombre de caractères à renvoyer
Regex | \w{4} |
Formatting | {right($, 2)} |
Texte | ABCD |
General Field returned by the platform | CD |
Renvoie n caractères après la position spécifiée dans l'étendue.
Arguments de fonction :
- Le texte contenant les caractères à extraire
- La position du premier caractère à renvoyer
- Le nombre de caractères à renvoyer
Regex | \w{5} |
Formatting | {mid($, 2, 3)} |
Texte | ABCDE |
General Field returned by the platform | BCD |