- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux (anciennement entités)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Create or delete a data source in the GUI
- Téléchargement d’un fichier CSV dans une source
- Préparation des données en vue du téléchargement du fichier .CSV
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Comprendre les exigences de données
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Utilisation des analyses et de la surveillance
- Automatisations et Communications Mining
- Informations de licence
- FAQ et plus encore
Guide de l'utilisateur de Communications Mining
Utilisation de champs généraux
Un guide de configuration et d'entraînement des champs généraux dans la plate-forme.
Il est important de définir les points de données clés (c'est-à-dire les champs) que vous souhaitez extraire de vos données Communications Mining. Ceux-ci facilitent généralement l'automatisation en aval, mais peuvent également être utiles pour l'analyse, notamment pour évaluer le taux de réussite potentiel et les avantages des opportunités d'automatisation.
- Les champs généraux sont des champs que vous souhaitez extraire, qui peuvent être trouvés dans plusieurs sujets/libellés différents dans un ensemble de données.
- Les champs d'extraction sont les champs conditionnés et créés sur une étiquette spécifique. En d'autres termes, elle est liée à un libellé spécifique que vous souhaitez automatiser.
Consultez la documentation officielle pour en savoir plus sur l ' Extraction générative et les champs Général vs extraction. Si l’extraction générative n’est pas disponible dans votre région, continuez à utiliser les champs généraux comme d’habitude. Le reste de cette section fournit des conseils sur l’utilisation des champs généraux.
Au final, les prédictions de champ général, combinées à des libellés, peuvent faciliter l'automatisation en fournissant les points de données structurés nécessaires pour terminer une tâche ou un processus spécifique. Il est beaucoup plus efficace d'entraîner des champs généraux dans votre ensemble de données conjointement avec des libellés, plutôt que de se concentrer sur l'un et l'autre (c'est-à-dire entraîner des champs généraux après avoir entraîné une taxonomie complète de libellés).
Consultez la documentation officielle pour en savoir plus sur l ' Extraction générative et les champs Général vs extraction. Si l’extraction générative n’est pas disponible dans votre région, continuez à utiliser les champs généraux comme d’habitude. Le reste de cette section fournit des conseils sur l’utilisation des champs généraux.
Que sont les champs généraux ?
Les champs généraux sont des éléments supplémentaires des données structurées qui peuvent être extraits des messages de votre jeu de données. Les champs généraux comprennent les points de données tels que les quantités monétaires, les dates, les codes de devise, les adresses e-mail, les URL, ainsi que de nombreuses autres catégories spécifiques à l'industrie (voir ci-dessous pour un exemple).
La plate-forme est capable de prédire la plupart des champs généraux (sauf ceux entraînés à partir de zéro) dès qu’ils sont activés, car elle peut les identifier en fonction de leur format standard, ou dans certains cas très spécifique, et d’un ensemble d’entraînement de champs généraux similaires.
Comme les libellés, les utilisateurs sont en mesure d’accepter ou de rejeter les champs généraux correctement ou incorrectement prédits, améliorant la capacité du modèle à les identifier à l’avenir.
Types de champs généraux
Il existe actuellement deux principaux types de champs généraux :
- Champs généraux pré-entraînés qui sont généralement basés sur un ensemble de règles standard ou personnalisées - par ex. Quantité monétaire, URL et Date
- Les champs généraux entraînés à partir de zéro par un utilisateur (comme ils entraîneraient des libellés) qui sont basés sur l'apprentissage automatique
Champs généraux entraînables ou non entraînables
Tous les champs généraux sont soit entraînables par nature (champs généraux entraînés à partir de zéro), soit peuvent être rendus entraînables lorsqu'ils sont activés (tous les autres types de champ général).
Les champs généraux pouvant être formés sont ceux qui seront mis à jour en direct sur la plate-forme en fonction de la formation fournie par les utilisateurs. Pour plus de détails sur l’entraînement des champs généraux, voir ici.
Si vous activez l’entraînement sur un champ général pré-entraîné généralement basé sur un ensemble de règles standard ou personnalisées, vous pouvez affiner la compréhension de ce champ général par la plate-forme dans les paramètres de ces règles. De manière générale, une formation plus approfondie sur ces éléments réduira l’étendue de ce que la plate-forme peut considérer comme champ général, mais ne l’augmentera pas.
En effet, plusieurs de ces champs généraux, comme les dates (par ex. pour « demain ») et des quantités monétaires (par ex. 20 inclus, doivent être normalisés dans un format de données structuré pour les systèmes en aval. De plus, pour les champs généraux comme les IIN ou CUSIP, ceux-ci doivent avoir un format défini, de sorte que la plate-forme ne doit pas apprendre à prédire tout ce qui n'est pas conforme à leurs formats définis.
Lorsque des champs généraux pouvant être entraînés sont attribués, la plate-forme examine à la fois le texte du champ général, ainsi que le contexte du champ général dans le reste de la communication, c'est-à-dire ce qui se passe avant et après la valeur du champ général (dans le même paragraphe, et celui ci-dessus et ci-dessous). Il apprend à mieux prédire le champ général en fonction des valeurs elles-mêmes, ainsi que la façon dont la valeur apparaît dans le contexte de la communication.
Si un champ général pré-entraîné n’est pas défini comme pouvant être entraîné, vous pouvez toujours accepter ou rejeter les prédictions de champ général que vous voyez dans votre ensemble de données. Ceux-ci sont mis à jour et affinés hors ligne à l'aide de ces commentaires sur la plate-forme fournis par les utilisateurs. Il vous est utile d’accepter ou de rejeter ces champs généraux lors de la révision des messages. Pour en savoir plus sur l’activation des champs généraux dans un ensemble de données, consultez la page Activation, désactivation, mise à jour et création de champs généraux .
Lors de la configuration des types de champ général, vous pouvez choisir parmi l'une des options prédéfinies suivantes, via l'option de modèle lors de la sélection du type de données pour le type de champ.
Type de champ général | Description |
---|---|
E-mail (Email) | Une adresse e-mail. |
Devise | Un code de devise, par exemple GBP, CHF ou USD. |
URL | Un localisateur de ressources uniformes (c’est-à-dire adresse Web). |
SEDOL | Un identifiant de sécurité financière, court pour Stock Exchange Daily Official List, qui comprend 7 caractères. |
Code BIC | Un code d'identification commerciale (BIC) est une norme mondiale ISO 9362 pour le routage des transactions commerciales et l'identification des parties commerciales. Le code BIC comprend 8 à 11 caractères. |
LEI | A Legal Entity Identifier (LEI) is a unique global identifier of legal entities participating in financial transactions. LEI is formatted as a 20-character alpha-numeric code. |
est dans | Un numéro d'identification des valeurs sécurisées (IIN) identifie de manière unique une sécurité financière. L'ISIN est un code alphanumérique à 12 caractères. |
Marquer vers la mise sur le marché (MTM ou M2M) | Marquer par rapport au marché fait référence à la juste valeur d'une ressource ou d'une responsabilité. La valeur de marché (Mark to Market) est basée sur le cours actuel, le prix d'actifs et de passifs similaires ou sur une autre valeur juste obsédée**. |
CUSIP | Un CUSIP est un nombre à 9 chiffres ou un code alphanumérique à 9 caractères qui identifie une sécurité financière nord-ancienne |
Autorisations utilisateur requises : « Afficher les sources » ET « Modifier les ensembles de données » OU « Administrateur d'ensembles de données ».
Activation des champs généraux sur un nouvel ensemble de données
Pour activer les champs généraux sur un nouvel ensemble de données que vous souhaitez créer, il vous suffit de les sélectionner lors du processus de configuration.
Cliquez sur le bouton + dans la case indiquée ci-dessous pour faire apparaître un menu déroulant de tous les champs généraux que vous pouvez activer pour cet ensemble de données. Cliquez simplement sur tous les champs généraux que vous souhaitez activer avant de créer l'ensemble de données. Si vous ajoutez une erreur, vous pouvez cliquer sur l'icône « X » à côté du nom de champ général pour la supprimer.
Pour en savoir plus sur la création d'un nouvel ensemble de données, cliquez ici.
Activation, mise à jour et désactivation des champs généraux sur un ensemble de données existant
Si vous souhaitez activer, mettre à jour ou désactiver les champs généraux pour un ensemble de données existant, vous pouvez le faire à partir de l'onglet des paramètres de la barre de navigation supérieure, puis en sélectionnant l'onglet Libellés et champs d'extraction (Labels and extraction fields).
Activation des champs généraux :
Pour activer les champs généraux existants, cliquez sur à l'intérieur de la case Champs généraux (General Fields) et sélectionnez les champs généraux que vous souhaitez activer dans le menu déroulant. Une fois que vous êtes satisfait de vos sélections, sélectionnez Mettre à jour les champs généraux (UpdateGeneral Fields) (comme indiqué ci-dessous).
Ces champs généraux auront leurs paramètres présélectionnés pour vous. Vous pouvez ensuite les mettre à jour, y compris en les rendant entraînables, comme indiqué ci-dessous.
Mise à jour des champs généraux :
Pour mettre à jour un champ général activé, cliquez sur le champ général dans la zone de champ général comme indiqué dans les images ci-dessus. Le modal « Modifier le champ général » (ci-dessous) s'affichera.
Ici, vous pouvez mettre à jour le champ général de base, le titre du champ général et le nom de l'API (ces concepts sont décrits en détail ci-dessous), ainsi que rendre le champ général « entraînable ».
Si vous avez déjà examiné les champs généraux pour un type de champ général qui n'a pas été défini sur « entraînable », ces informations sont toujours stockées.
Désactivation des champs généraux :
Pour supprimer des champs généraux sélectionnés, cliquez simplement sur l'icône « X » à côté du nom du champ général, puis cliquez sur Mettre à jour les champs généraux (UpdateGeneral Fields).
Si vous supprimez un champ général et cliquez sur Mettre à jour les champs généraux (UpdateGeneral Fields), cela supprimera également les données d'entraînement de ce champ général pour cet ensemble de données. Si vous avez choisi de réactiver le champ général, vous devrez le réentraîner.
Si vous faites une erreur lors de la mise à jour des champs généraux, cliquez sur « Réinitialiser » avant de cliquer sur Mettre à jour les champs généraux et vos modifications ne seront pas appliquées.
Créer de nouveaux champs généraux
Les sections ci-dessus expliquent comment activer et mettre à jour les champs généraux pré-entraînés existants pour les ensembles de données nouveaux et existants. Dans chaque instance, pour un ensemble de données nouveau ou existant, vous pouvez également créer de nouveaux champs généraux.
Les champs généraux nouvellement créés peuvent être basés sur un champ général pré-entraîné existant ou peuvent être entraînés à partir de zéro (comme une nouvelle étiquette).
Vous pouvez le faire en cliquant sur l'icône « + » dans la zone de champ général, soit dans le flux « Créer un ensemble de données », soit sur la page des paramètres de l'ensemble de données (comme indiqué ci-dessus).
Cela affichera le modal « Ajouter un nouveau champ général » comme indiqué ci-dessous.
Ici, vous pouvez définir les types de champ, le titre et le nom de l'API, ainsi que sélectionner si le champ général peut être entraîné ou non (ceux-ci peuvent être mis à jour ultérieurement , comme indiqué ci-dessus).
Après avoir rempli chacun des champs (voir ci-dessous), cliquez simplement sur 'Créer '.
Field types
- Cela servira d'état initial à votre nouveau champ général, et la liste déroulante contiendra une liste de tous les champs généraux pré-entraînés à votre disposition
- Par exemple, si vous sélectionnez « Date » comme champ général de base, tous les champs généraux prédits pour ce type seront des dates, et vous pourrez alors entraîner la plate-forme à ne reconnaître que des dates spécifiques
-
Si vous souhaitez entraîner un champ général entièrement à partir de zéro, vous pouvez sélectionner « Aucun - Entraîner à partir de zéro », puis commencer essentiellement par une zone de dessin vierge lors de l'entraînement du champ général. Les prédictions de la plateforme pour ce domaine général seront entièrement basées sur les exemples de formation que vous fournissez
Titre du champ général
- Le titre du champ général est le nom du champ général qui s’affichera dans l’interface utilisateur de la plate-forme
ApiName
- Le nom de l'API du champ général est ce qui sera renvoyé via l'API lorsqu'il fournit des prédictions pour les messages
- Le nom de l’API ne peut contenir ni espaces ni ponctuations, à l’exception des tirets ( - ) et des traits de soulignement ( _ )
Autorisations utilisateur requises : Afficher les sources ET Afficher les champs généraux.
De même que pour les libellés, vous pouvez filtrer les messages selon qu'ils ont des champs généraux prédits ou attribués, à la fois dans Parcourir (Explore) et dans Rapports (Reports).
Vous pouvez appliquer n’importe quelle combinaison les éléments ET ( AND), TOUT ( ANY DE ) et PAS (NO) lorsque vous appliquez plusieurs filtres de champ général. Ces filtres peuvent vous offrir beaucoup plus de flexibilité lors de l'apprentissage et de l'interprétation de vos données, et peuvent fournir des informations beaucoup plus détaillées sur ce qui se passe dans vos canaux de communication.
Voici certaines des choses que vous pouvez désormais faire lors du filtrage par prédictions de champ général :
- Appliquer plusieurs filtres de champ général à la fois, à la fois dans Parcourir et Rapports
- Filtrer les messages pour lesquels un nombre de champs généraux sélectionnés est prédit (c’est-à-dire, TOUT du champ général X et champ général Y ET ...)
- Filtrer les messages qui ont plusieurs champs généraux différents (c'est-à-dire, le champ général X et le champ général Y ET ...)
- Filtrer les messages pour lesquels aucun champ général n'est prévu (c'est-à-dire, PAS le champ général Y)
- Rechercher des champs généraux contenant des termes de recherche spécifiques, tout en ayant des filtres de champ général appliqués
Tous les champs généraux que vous avez activés dans votre ensemble de données apparaîtront comme indiqué ci-dessous dans la barre de filtre. L’attribution de champs généraux est couverte en détail dans la section Révision et application de champs généraux.
Il existe maintenant deux façons d’appliquer des filtres de champ général, et vous pouvez les utiliser en combinaison pour créer le bon type de requête.
L'état par défaut est indiqué ci-dessus, où aucun filtre n'est appliqué et tous les messages seront affichés (sauf si un autre filtre est appliqué).
Pour mettre à jour le filtre de champ général, utilisez les boutons expliqués ci-dessous. Ils changent de couleur lorsqu'ils sont sélectionnés :
Afficher les messages contenant tout champ général annoté. | |
Afficher les messages censés contenir un champ général |
Si vous souhaitez filtrer les messages qui ont des champs généraux annotés ou qui sont censés contenir un champ général, utilisez les boutons en haut (comme indiqué ci-dessus). Si vous souhaitez filtrer les messages avec des champs généraux spécifiques annotés ou prévus, pointez le champ général en question et les deux mêmes boutons apparaîtront à droite.
Si vous souhaitez filtrer vers un champ général attribué ou prévu, sélectionnez le nom du champ général afin qu’il affiche les messages contenant l’un ou l’autre.
Pour supprimer votre sélection, sélectionnez à nouveau le bouton, et pour supprimer plusieurs sélections, sélectionnez Tout ( All). Vous pouvez également sélectionner Tout effacer (Clear All) en haut de la barre de filtre, mais cela effacera tous les filtres que vous avez sélectionnés, et pas seulement les filtres de champ général.
La taxonomie des champs généraux fonctionne comme une barre de filtre normale et vous permet de sélectionner plusieurs champs généraux à la fois en un seul clic pour chacun.
La sélection de plusieurs champs généraux dans la liste crée une requête de type N’importe qui.
Si vous avez sélectionné Champ général A, Champ général B et Champ général C dans la barre de champ Général, cela va créer une requête Afficher les messages avec le champ général A, le champ général B ou le champ général C.
Lors du filtrage vers des champs généraux spécifiques, vous pouvez effectuer plusieurs sélections. Par exemple, vous pouvez filtrer pour voir les messages qui ont un champ général de ligne d'adresse attribué OU un champ général de ville prédit (comme indiqué ci-dessous).
La deuxième option de filtre est le bouton + Ajouter un filtre de champ général au-dessus de la barre de champ général.
Cela active une barre de champ général déroulante qui vous permet de sélectionner des filtres plus complexes, tels que l’ exclusion de certains champs généraux de la prise en compte.
Dans cette liste déroulante, vous pouvez sélectionner plusieurs champs généraux à inclure ou à exclure en cliquant sur le nom du champ général (pour attribué et prédit) ou sur les boutons individuels (y compris moins lorsque ce champ général n’est ni attribué ni prédit).
Le résultat ressemble à cet exemple, qui renvoie des messages censés avoir le champ général ID de facture (Invoice ID), mais pas le champ général ID de produit (Prod ID) attribué ou prévu :
Vous pouvez sélectionner + Ajouter un filtre de champ général plusieurs fois pour ajouter des couches supplémentaires à votre requête. Deux filtres de champ général distincts créent une requête de type « AND », tandis que plusieurs champs généraux sélectionnés dans le même filtre de champ général créent une requête de type « Tout » (ANY DE).
Dans l’exemple ci-dessous, plusieurs filtres de champ général ont été appliqués individuellement. Cela crée un filtre qui renverra les messages censés contenir l’un des trois champs généraux dans le premier filtre, mais qui ont également le champ général Numéro de politique (Policy Number) et n’ont pas de champ général Code postal du Royaume-Uni (Customer Postcode) prévu ou attribué.
Nous recommandons qu'en sélectionnant & connecter dans un filtre individuel contenant plusieurs champs généraux, vous puissiez automatiquement les diviser en filtres individuels. Cela modifierait la requête de TOUT (NO) (c'est-à-dire l’un de ces champs généraux prévus) à « AND » (c’est-à-dire tous ces champs généraux sont prévus).
Il est possible de combiner des filtres de la barre de champ général et des filtres de champ général ajoutés individuellement. Les filtres appliqués dans la barre de champ général sont traités comme une requête « AND » avec tous les filtres de champ général appliqués individuellement.
Par exemple, dans l'image ci-dessous, cette requête combinée renvoyait tous les messages pour lesquels un ID ORDER ou un ID PROD était prédit.
Combiner le filtre de champ général à l’aide de la barre de champ général et des filtres de champ général ajoutés individuellement.
Ce que ces nouveaux filtres signifient également, c’est que vous pouvez maintenant appliquer des filtres de champ général et trier par un champ général spécifique pour un mode d’entraînement.
Autorisations utilisateur requises : « Afficher les sources » ET « Révision et libellé ».
Les champs généraux prévus apparaissent sous forme de texte surligné en couleur, comme dans la première ligne du message ci-dessous, avec une couleur différente apparaissant pour chaque type de champ général. Une fois qu'un champ général a été confirmé par un utilisateur, en l'appliquant manuellement ou en acceptant une prédiction, le champ général apparaîtra sous forme de texte mis en surbrillance avec un contour plus gras et plus sombre, comme indiqué ci-dessous.
Si un paragraphe a des champs généraux attribués, ignorés ou appliqués, il apparaîtra surligné en gris, comme indiqué dans le corps du message ci-dessous.
Comment la plate-forme effectue-t-elle des prédictions de champs généraux pour les champs généraux entraînables ?
Lors de l'examen des champs généraux nécessitant une formation, il est important de se souvenir que la plate-forme apprendra à la fois à partir des valeurs de champ général que vous attribuez, ainsi que du contexte où ils apparaissent dans les communications, c'est-à-dire l'autre langue utilisée pour les valeurs elles-mêmes.
La plate-forme prendra en compte le contexte de la langue dans le même paragraphe que la valeur de champ général, ainsi que les paragraphes uniques (signalés par une nouvelle ligne séparée) directement avant et après le paragraphe dans lequel se trouve le champ général.
Remarque : pour les champs généraux qui ne sont pas définis sur « entraînables », les prédictions de la plate-forme sont entièrement basées sur les règles définies dans la plate-forme pour ce champ général. Cela peut être utile lorsqu'un champ général doit absolument suivre un format défini pour une automatisation en aval, avec des valeurs incorrectes provoquant un échec ou une exception.
Lorsque la plate-forme prédit quels champs généraux s'appliquent à une communication, elle attribue à chaque prédiction un score de confiance (%) pour montrer la confiance que le champ général s'applique à la plage de texte mise en surbrillance. Vous pouvez afficher le score de confiance d'un champ général en pointant sur le champ général.
Ce score de confiance est également mis à disposition via l'API afin qu'il puisse informer les actions automatisées entreprises en aval.
Une fois les champs généraux activés (voir ici), la plateforme commencera automatiquement à les prédire dans les messages de votre ensemble de données. Les utilisateurs peuvent alors accepter les prédictions qui sont correctes ou les rejeter lorsqu'elles sont incorrectes. Chacune de ces actions envoie des messages d'entraînement qui seront utilisés pour améliorer la compréhension de la plate-forme dans ce domaine général.
Pour les champs généraux pré-entraînés qui sont entraînés hors ligne (par ex. quantité monétaire, URL, etc.), il est plus important, dans une perspective d'amélioration, pour les utilisateurs de rejeter ou de corriger les prédictions erronées que d'accepter les prédictions correctes.
Pour les champs généraux qui s'entraînent en direct dans la plate-forme, il est tout aussi important d'accepter les prédictions correctes et de rejeter les prédictions incorrectes. Cependant, vous n'avez pas besoin de continuer à accepter de nombreux exemples corrects de chaque champ général unique pour ces types (par ex. Exemple (Banque ltd. est un champ général unique d'organisation) si vous ne trouvez pas de cas prédits de manière incorrecte.
La clé mise en garde est que, si vous examinez un champ général dans un paragraphe, vous devez examiner tous les autres champs généraux de ce paragraphe.
Pour examiner une prédiction de champ général, pointez la souris sur la prédiction et le modal de révision du champ général apparaîtra, comme illustré dans l'exemple ci-dessous. Pour l’accepter, cliquez sur « Confirmer » (Confirm), pour le rejeter, cliquez sur « Ignorer ».
Les champs généraux et les libellés peuvent être entraînés indépendamment les uns des autres. L’examen des libellés d’un message ne signifie pas que vous devez examiner les champs généraux de ce même message. Il est cependant recommandé de faire les deux en même temps, afin d'utiliser le plus efficacement votre temps lors de l'entraînement du modèle.
Remarque : il est très important lors de l'entraînement des champs généraux de suivre les meilleures pratiques expliquées ci-dessous, notamment en ce qui concerne la non-annotation partielle des paragraphes.
Pour comprendre comment la plate-forme est capable de prédire chaque champ général activé pour un ensemble de données (en particulier ceux qui peuvent être entraînés), voir ici.
Il est important que vous rejetiez les prédictions de champ général incorrectes, mais si le texte mis en surbrillance était en fait un champ général différent (cela serait plus courant pour les champs généraux liés à la date), vous appliquez ensuite le bon (voir ci-dessous pour savoir comment appliquer les champs).
Pour appliquer un champ général à un texte où la plateforme ne l'a peut-être pas prédit, les utilisateurs doivent simplement mettre en surbrillance la section de test comme vous le feriez si vous alliez le copier.
Un menu déroulant s'affiche, comme indiqué ci-dessous, contenant tous les champs généraux que vous avez activés pour votre jeu de données. Cliquez simplement sur la bonne option pour l'appliquer ou appuyez sur le raccourci clavier correspondant.
Le raccourci clavier par défaut pour chaque champ général est la lettre qui commence par. Si plusieurs champs généraux commencent par la même lettre, l’un sera attribué de façon aléatoire à l’autre.
Une fois qu'un champ général a été appliqué, il sera surligné en couleur avec un contour gras (voir ci-dessous). Chaque type de champ général aura sa propre couleur spécifique.
Une valeur d'un type de champ général donné ne peut pas être divisée sur plusieurs paragraphes. La valeur complète doit être contenue dans un paragraphe pour être extraite en tant que valeur de champ générale.
Il y a deux bonnes pratiques très importantes à retenir lors de l'acceptation, du rejet ou de l'application de champs généraux dans les messages :
1. Ne divisez pas les mots
Il est important de ne pas diviser les mots : le champ général mis en évidence doit couvrir le mot entier (ou plusieurs) en question, pas seulement une partie (voir l'exemple incorrect à gauche ci-dessous et l'application correcte à droite)
2. N’annotation pas partiellement les paragraphes
Lors de l'annotation, si un utilisateur attribue un libellé à un message, il doit appliquer TOUS les libellés qui pourraient s'appliquer à ce message, sinon vous apprenez au modèle que ces autres libellés ne doivent pas s'appliquer. Pour les champs généraux, il en va de même pour les champs généraux, sauf que les champs généraux sont révisés ou appliqués au niveau du paragraphe, plutôt que comme le message entier.
Les paragraphes d'un message sont séparés par de nouvelles lignes. La ligne d'objet d'un message électronique est considérée comme son propre paragraphe unique.
Assurez-vous de passer en revue ou d'appliquer tous les champs généraux d'un paragraphe dans tous les types de champs généraux si vous examinez ou appliquez l'un d'entre eux. L'application, l'acceptation ou le rejet de champs généraux dans un paragraphe signifie que le paragraphe est traité comme « révisé » par la plateforme du point de vue des champs généraux. Par conséquent, il est important d'accepter ou de rejeter TOUTES les prédictions de ce paragraphe.
L'exemple ci-dessous montre les différents paragraphes qui ont été révisés dans le message électronique.
Le message affiché ci-dessous montre le même exemple où l'utilisateur n'a pas accepté ou rejeté toutes les prédictions de champ général dans un seul paragraphe. Ceci est incorrect car le modèle traitera à tort le champ général de la quantité monétaire comme une prédiction incorrecte.
La plate-forme affiche les statistiques de validation, les avertissements et les actions recommandées pour les champs généraux activés sur la page Validation (Validation), comme pour chaque libellé de votre taxonomie.
Pour les afficher, accédez à la page Validation (Validation) et sélectionnez l'onglet Champs généraux ( General fields ) en haut, comme indiqué dans l'image ci-dessous.
Le processus dans lequel la plate-forme valide sa capacité à prédire correctement les champs généraux est très similaire à ce qu'il fait pour les libellés.
Les messages sont divisés (80:20) en un ensemble d'apprentissage et un ensemble de test (déterminé de manière aléatoire par l'ID de message de chaque message) lorsqu'ils sont ajoutés pour la première fois à l'ensemble de données. Tous les champs généraux qui ont été attribués (prédictions acceptées ou corrigées) seront inclus dans l’ensemble d’entraînement ou dans l’ensemble de test, en fonction de l’ensemble auquel le message dans lequel ils se trouvent a été attribué à l’origine.
Comme il peut parfois y avoir un très grand nombre de champs généraux dans un message et aucune garantie qu'un message se trouve dans l'ensemble d'apprentissage ou dans l'ensemble de test, vous pouvez voir une grande différence entre le nombre de champs généraux dans chaque ensemble.
Il peut également y avoir des cas où tous les champs généraux attribués rentrent dans l'ensemble d'apprentissage. Comme au moins un exemple est requis dans l’ensemble de tests pour calculer les scores de validation, ce champ général nécessitera davantage d’exemples attribués jusqu’à ce que certains d’entre eux soient présents dans l’ensemble de tests.
Les statistiques individuelles de précision et de rappel de chaque champ général avec des données d'apprentissage suffisantes sont calculées d'une manière très similaire à celle des libellés :
Précision = Nombre de champs généraux correspondants/Nombre de champs généraux prédits
Rappel = Nombre de champs généraux correspondants/Nombre de champs généraux réels
Un « champ général correspondant » correspond à l'endroit où la plateforme a prédit exactement le champ général (c'est-à-dire pas de correspondances partielles)
Le score F1 est simplement la moyenne Utiliser la précision et le rappel.
Il convient de noter que les statistiques de précision et de rappel affichées sur cette page sont très utiles pour les champs généraux qui peuvent être entraînés en direct dans la plate-forme (affichés dans la deuxième colonne ci-dessus), car tous les champs généraux examinés pour ces types de champs généraux seront directement avoir un impact sur la capacité de la plate-forme à prédire ces champs généraux.
Par conséquent, accepter les bons champs généraux et corriger ou rejeter les mauvais champs généraux doit être fait dans la mesure du possible.
Pour les champs généraux pré-entraînés via des types de champ modèle, afin que les statistiques de validation fournissent une représentation précise des performances, les utilisateurs doivent s’assurer qu’ils acceptent un nombre considérable de prédictions correctes, ainsi que pour corriger les prédictions erronées.
S'ils ne devaient corriger que les prédictions erronées, les ensembles d'entraînement et de test seraient artificiellement remplis uniquement avec les instances où la plate-forme a du mal à prédire un champ général, et non avec celles où elle est le mieux capable de les prédire. Comme la correction des prédictions erronées pour ces champs généraux ne conduit pas à une mise à jour en temps réel de ces champs généraux (ils sont mis à jour périodiquement hors ligne), les statistiques de validation peuvent ne pas changer pendant un certain temps et peuvent être artificiellement faibles.
Accepter beaucoup de prédictions correctes peut ne pas toujours être pratique, car ces champs généraux sont prédits correctement plus souvent qu'un autre. Mais si la majorité des prédictions sont correctes pour ces champs généraux, il est probable que vous n'ayez pas à vous soucier de leurs statistiques de précision et de rappel dans la page Validation.
Les statistiques récapitulatives (précision moyenne, rappel moyen et score F1 moyen) sont simplement des moyennes de chacun des scores de champ général individuels.
Comme pour les libellés, seuls les champs généraux qui ont des données d'entraînement suffisantes sont inclus dans les scores moyens. Ceux qui n'ont pas suffisamment de données d'entraînement à inclure ont une icône d'avertissement à côté de leur nom.
La page Validation des champs généraux (General fields Validation) affiche les statistiques de performances moyennes des champs généraux, ainsi qu'un graphique montrant le score F1 moyen de chaque champ général par rapport à la taille de leur ensemble d'apprentissage. Le graphique signale également les champs généraux qui comportent des avertissements de performances orange ou rouge.
Les statistiques générales sur les performances des champs indiquées sont les suivantes :
- Score F1 moyen (Average F1 Score) : moyenne des scores F1 dans tous les champs généraux avec des données suffisantes pour estimer avec précision les performances. Ce score tient compte du rappel et de la précision. Un modèle avec un score F1 élevé produit moins de faux positifs et négatifs.
- Précision moyenne (Average Précision) : moyenne des scores de précision dans tous les champs généraux avec des données suffisantes pour estimer avec précision les performances. Un modèle avec une haute précision produit moins de faux positifs.
- Rappel moyen (Average Recall) : moyenne des scores de rappel dans tous les champs généraux avec des données suffisantes pour estimer avec précision les performances. Un modèle avec un rappel élevé produit moins de faux négatifs.
Le graphique des performances des champs généraux affiché dans l'onglet Métriques (Metrics) de la page Validation (Validation) (voir ci-dessus) donne une indication visuelle immédiate des performances de chaque champ général individuel.
Pour qu'un champ général apparaisse sur ce graphique, il doit avoir au moins 20 exemples épinglés présents dans l'ensemble d'entraînement utilisé par la plateforme lors de la validation. Pour s'assurer que cela se produise, les utilisateurs doivent s'assurer qu'ils fournissent au moins 25 exemples épinglés (souvent plus) par champ général provenant de 25 messages différents.
Chaque champ général sera tracé comme l'une des trois couleurs, en fonction de la compréhension par le modèle des performances du champ général. Nous expliquons ci-dessous ce que cela signifie :
Indicateurs de performance de champ généraux :
- Les champs généraux affichés en bleu sur le graphique ont un niveau de performance satisfaisant . Cela est basé sur de nombreux facteurs contributifs, notamment le nombre et la variété des exemples, ainsi que la précision moyenne pour ce domaine général
- Les champs généraux indiqués en forme d' orange ont des performances légèrement inférieures à satisfaisantes . Ils peuvent avoir une précision moyenne relativement faible ou pas assez d'exemples d'entraînement. Ces champs généraux nécessitent un peu d’entraînement/de correction pour améliorer leurs performances
- Les champs généraux affichés en rouge sont peu performants. Ils peuvent avoir une précision moyenne très faible ou ne pas avoir assez d'exemples d'entraînement. Ces domaines généraux peuvent nécessiter beaucoup plus d’entraînement/de corrections pour porter leurs performances à un niveau satisfaisant
Les utilisateurs peuvent sélectionner des champs généraux individuels à partir de la barre de filtre des champs généraux (ou en cliquant sur la représentation du champ général dans le graphique Tous les champs généraux (All général fields) ).
La vue du champ général spécifique affichera également les avertissements de performances et les meilleures suggestions d'actions recommandées pour améliorer ses performances.
Autorisations utilisateur requises : Réviser (Review) et Annoter (Annotate).
Comme les libellés d'entraînement, l'entraînement des champs généraux constitue le processus par lequel un utilisateur apprend à la plateforme quels champs généraux s'appliquent à un message donné en utilisant différents modes d'entraînement.
Comme pour les libellés, les modes «Enseigner», «Vérifier» et «Missé» sont disponibles pour aider à entraîner et améliorer les performances des champs généraux. Ils sont accessibles soit 1) sur la page Explorer (Explore) avec la liste déroulante des entraînements, soit 2) en en suivant les actions recommandées dans l'onglet Champs Généraux (General fields) de la page Validation.
Si un champ général spécifique comporte un avertissement de performances, la plateforme recommande la prochaine action qui selon elle permettra de résoudre cet avertissement, dans l'ordre de priorité. Cela s'affichera lorsque vous sélectionnez un champ général spécifique dans la taxonomie ou le graphique Tous les champs généraux (All général field).
Les meilleures suggestions d’actions suivantes agissent comme des liens sur lesquels vous pouvez cliquer pour vous accéder directement à la vue d’entraînement suggérée par la plate-forme afin d’améliorer les performances du champ général. Les suggestions sont intelligemment classées avec l' action de priorité la plus élevée pour améliorer le champ général répertorié en premier.
Il s'agit de l' outil le plus important pour vous aider à comprendre les performances de vos champs généraux. Il doit régulièrement être utilisé comme guide lorsque vous essayez d'améliorer les performances des champs généraux.
Le tableau suivant récapitule les cas où la plate-forme recommande chaque mode d'entraînement des champs généraux :
Apprendre au champ général | Vérifier le champ général | Champ général manquant |
- Afficher les prédictions pour une étiquette où le modèle est le plus confus s'il s'applique ou non - Pour l'entraînement des champs généraux sur les messages non examinés |
- Affiche les messages où la plate-forme suppose que le champ général peut avoir été mal appliqué - Pour l'entraînement des champs généraux sur les messages examinés pour essayer de trouver et de corriger les incohérences |
- Affiche les messages qui, selon la plate-forme, peuvent manquer le champ général sélectionné - Pour l'entraînement des champs généraux sur les messages examinés pour essayer de trouver et de corriger les incohérences |
L'utilisation de l'option Activer le champ général (TeachGeneral) améliore les performances du champ général, car le modèle reçoit de nouvelles informations sur les messages pour lesquels il n'est pas sûr, par opposition à ceux pour lesquels il a déjà des prédictions très fiables.
La plate-forme recommande l'apprentissage des champs généraux lorsque :
- Il y a un avertissement de performances à côté d'un champ général (comme vu ci-dessous - lorsque le min. 25 exemples n'ont pas été fournis).
- Le score F1 d'un champ général donné est faible
- Le contexte n'est pas toujours visible dans le texte d'un champ général, ou bien il y a beaucoup de variations dans les valeurs de champ général d'un type donné
L'utilisation de vérifier le champ général permet d'identifier les incohérences dans l'ensemble révisé, tout en améliorant la compréhension du champ général par le modèle, en garantissant que le modèle dispose d'exemples corrects et cohérents pour faire des prédictions. Cela améliorera le rappel d'un champ général.
La plate-forme recommande les champs « Vérifier les champs généraux » lorsque :
- Faible rappel, mais haute précision
- Les prédictions de la plate-forme sont très précises, mais la plupart du temps où le champ général a été appliqué, elles ne détectent pas ces exemples
(Pour plus de détails sur les calculs de validation de champ général, reportez-vous ici)
L'utilisation du champ général manqué permet de trouver des exemples dans l'ensemble révisé qui devraient avoir le champ général sélectionné, mais qui n'en a pas. Cela aidera également à identifier les messages partiellement annotés, ce qui peut empêcher le modèle de prédire un champ général. Cela améliorera la précision d'un champ général et garantira que le modèle dispose d'exemples corrects et cohérents pour faire des prédictions.
La plate-forme recommande le champ général manquant lorsque :
- Rappel élevé, mais faible précision
- Nous prédisons beaucoup de champs généraux de manière incorrecte, mais lorsque nous les faisons correctement, nous détectons la plupart des exemples qui devraient être présents
Pour plus de détails sur les calculs aux fins de la validation des champs généraux, consultez la page Validation pour les champs généraux .
Autorisations requises : Modifier les ensembles de données.
Utilisez les champs généraux Regex personnalisés pour extraire et formater des étendues de texte qui ont une structure répétitive connue, telle que des identifiants ou des numéros de référence.
Il s’agit d’une option utile pour les champs généraux simples et structurés présentant peu de variations. Dans le cas de champs généraux avec des variations importantes et où le contexte a une grande influence sur les prédictions, un champ général basé sur l’apprentissage automatique est le bon choix. Vous pouvez utiliser des combinaisons des deux dans n’importe quel ensemble de données de Communications Mining.
Une expression régulière plus large (c'est-à-dire un ensemble de règles pour définir le champ général) peut également être utilisée comme base d'un champ général personnalisé. Cela combine les règles à un affinement contextuel basé sur l’apprentissage automatique via l’entraînement dans Communications Mining afin de créer des champs généraux personnalisés complexes. Cela fournit les performances les plus optimales ainsi que les restrictions nécessaires sur les valeurs extraites pour l'automatisation.
Un champ général Regex personnalisé est constitué d'un type de champ avec le type de données Regex, qui à son tour a un ou plusieurs modèles Regex personnalisés. Chaque modèle exprime une façon d’extraire (et de formater) le champ général.
Combinés ensembles, ces modèles offrent un moyen flexible et puissant de couvrir plusieurs représentations du même type de champ général.
Un modèle est composé de deux parties :
- L'expression régulière (regex), qui décrit les contraintes devant être respectées par une période de texte à extraire en tant que champ général.
- Le formatage, qui exprime comment normaliser la chaîne extraite dans un format plus standard.
ID\
d{}
affichera :
Le modèle d'expression régulière personnalisée peut être testé sur le texte pour s'assurer qu'il se comporte comme prévu. Tout champ général qui serait extrait avec le modèle s'affichera dans une liste, avec sa valeur, ainsi que la position des caractères de début et de fin.
\d{4}
et le formatage ID-{$}
, la chaîne de test suivante affichera une extraction :
L’expression régulière est le modèle utilisé pour extraire les champs généraux du texte. Consultez la documentation relative à la syntaxe.
Les groupes de capture nommés peuvent être utilisés pour identifier une section spécifique de la chaîne extraite en vue d'un formatage ultérieur. Les noms des groupes de capture doivent être uniques dans tous les modèles et ne doivent contenir que des lettres ou des chiffres minuscules.
Le formatage peut être fourni pour post-traiter le champ général extrait.
Par défaut, aucun formatage n'est appliqué et la chaîne renvoyée par la plateforme sera la chaîne extraite par l'expression régulière. Cependant, si nécessaire, des transformations plus complexes peuvent être définies, en utilisant les règles suivantes.
$
. Notez que le symbole $
représente à lui seul la correspondance complète de l'expression régulière.
{
et }
.
ID-
, l'expression régulière et le formatage seraient :
ID-1234567
&
.
Regex | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
Formatting | {$id1 & "-" & $id2} |
Texte | Le premier identifiant est 123 et le second est 4567 |
Champ général renvoyé par la plateforme | 123-4567 |
Certaines fonctions peuvent également être utilisées dans le formatage pour transformer la chaîne extraite. Les noms des fonctions et leurs signatures sont basés sur Excel.
Convertit tous les caractères en majuscules dans la plage extraite :
Regex | \w{3} |
Formatting | {upper($)} |
Texte | abc |
Champ général renvoyé par la plateforme | ABC |
Convertit tous les caractères de la plage extraite en minuscules :
Regex | \w{3} |
Formatting | {lower($)} |
Texte | AbC |
Champ général renvoyé par la plateforme | abc |
Met en majuscule la plage extraite :
Regex | \w+\s\w+ |
Formatting | {proper($)} |
Texte | AlerteInstantané |
Champ général renvoyé par la plateforme | Alerte-contacts |
Remplit la plage extraite à une taille donnée avec un caractère donné.
Arguments de fonction :
- Le texte contenant les caractères à remplir
- Taille de la chaîne remplie
- Caractère à utiliser pour le remplissage
Regex | \d{2,5} |
Formatting | {pad($, 5, "0")} |
Texte | 123 |
Champ général renvoyé par la plateforme | 00123 |
Remplace les caractères par d'autres caractères.
Arguments de fonction :
- Texte contenant les caractères à remplacer
- Quels caractères remplacer
- Par quoi les anciens caractères doivent être remplacés
Regex | ab |
Formatting | {substitute($, "a", "12")} |
Texte | ab |
Champ général renvoyé par la plateforme | 12b |
Renvoie les premiers n caractères de l'étendue.
Arguments de fonction :
- Le texte contenant les caractères à extraire
- Le nombre de caractères à renvoyer
Regex | \w{4} |
Formatting | {left($, 2)} |
Texte | ABCD |
Champ général renvoyé par la plateforme | AB |
Renvoie les derniers n caractères de l'étendue.
Arguments de fonction :
- Le texte contenant les caractères à extraire
- Le nombre de caractères à renvoyer
Regex | \w{4} |
Formatting | {right($, 2)} |
Texte | ABCD |
Champ général renvoyé par la plateforme | CD |
Renvoie n caractères après la position spécifiée dans l'étendue.
Arguments de fonction :
- Le texte contenant les caractères à extraire
- La position du premier caractère à renvoyer
- Le nombre de caractères à renvoyer
Regex | \w{5} |
Formatting | {mid($, 2, 3)} |
Texte | ABCDE |
Champ général renvoyé par la plateforme | BCD |
- Définir et configurer vos champs
- Comprendre les champs généraux
- Quels modèles prédéfinis sont disponibles pour les champs généraux ?
- Types de champ de modèle standard pour les champs généraux
- Activer, désactiver, mettre à jour et créer des champs généraux
- Filtrage des champs généraux
- Application de filtres de prédiction avancés
- Barre des champs généraux
- Ajouter un filtre de champ général
- Combinaison de filtres de barre de champ généraux et de filtres de champ généraux ajoutés
- Combinaison des filtres de champ général et du tri par champ général pour l'entraînement
- Réviser et appliquer des champs généraux
- Identification des prédictions de champ général
- Comment la plate-forme effectue-t-elle des prédictions de champs généraux pour les champs généraux entraînables ?
- Score de confiance des champs généraux
- Accepter et rejeter les prédictions de champ général
- Appliquer des champs généraux
- Best Practice
- Validation pour les champs généraux
- Introduction
- Comment fonctionne la validation de champ générale ?
- Comment les scores sont-ils calculés ?
- Champs généraux pouvant être entraînés
- Champs généraux pré-entraînés
- Que signifie les statistiques récapitulatives ?
- Métriques
- Comprendre les performances générales
- Performances individuelles dans un champ général
- Amélioration des performances générales
- Vue d'ensemble (Overview)
- Actions recommandées pour le champ général
- Modes d'entraînement des champs généraux
- Utilisation du champ Apprendre Général
- Utilisation de la fonction Vérifier les champs généraux
- Utilisation du champ général manquant
- Création de champs généraux de regex personnalisés
- Que sont les champs généraux Regex personnalisés ?
- Modèle de RegEx personnalisés
- Validation par saisie
- Aperçu de l’extraction
- Regex
- Formatting
- Variables
- Opérations de chaînes
- Fonctions
- Supérieur
- Inférieur
- Bonne
- Bloc-notes
- Remplacer
- Gauche
- Droite
- Milieu