communications-mining

latest

false

Important :

Ce contenu a été traduit à l'aide d'une traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Communications Mining

Dernière mise à jour 10 févr. 2025

Vue d'ensemble (Overview)

Étapes clés

La page Explorer (Explore) propose différents modes d'entraînement, et cette phase se concentre principalement sur trois d'entre eux :

' Mélanger (Then') - affiche une sélection aléatoire de messages à annoter par les utilisateurs. Il est essentiel de terminer une partie importante de l'entraînement dans Mélanger afin de créer un ensemble d'entraînement d'exemples représentatif de l'ensemble de données plus large.

« Teach »(pour les messages non révisés) : dès que la plate-forme fait des prédictions raisonnables pour un libellé, vous pouvez améliorer sa capacité à prédire le libellé pour des exemples plus divers en examinant les messages dans le mode Teach par défaut (pour les messages non révisés des messages). Cela vous affichera des messages dans lesquels la plate-forme ne sait pas si le libellé sélectionné s'applique ou non.

'Low Confidence' - affiche les messages qui ne sont pas bien couverts par les prédictions d'étiquette informatives. Ces messages n'auront aucune prédiction ou n'auront que très peu de confiance pour les libellés que la plate-forme comprend comme étant informatifs.

Cette section de la Base de connaissances couvrira également l'entraînement à l'aide de RechercherdansExplorer , qui est très similaire à l'entraînement à l'aide de Rechercher dans Découvrir.

Il existe un autre mode d'entraînement dans Parcourir (Explore) - En savoir plus (pour les messages révisés) - qui est expliqué dans la section « Affinage des modèles et utilisation de la validation » de la base de connaissances ici.

Mise en page

Mise en page expliquée :

A	Ajuster la plage de dates ou la période des messages affichés
B	Ajouter divers autres filtres basés sur les métadonnées des messages, par exemple score ou expéditeur
C	Ajouter un filtre de champ général
D	Basculez de tous les messages vers des messages révisés ou non révisés, ajuste également le nombre de libellés épinglés par rapport au nombre prédit
E	Ajouter un filtre de libellé
F	Rechercher des libellés spécifiques dans votre taxonomie
G	Ajouter des libellés supplémentaires
H	Développer les métadonnées du message
I	Actualiser la requête actuelle
J	Basculez entre différents modes d'entraînement, tels que Récent (Recent), Mélangez ((Mandatory), Apprentissage (Team) et Faible confiance (Low Confiance), et sélectionnez le libellé à trier
K	Rechercher dans le jeu de données des messages contenant des mots ou des phrases spécifiques
L	Téléchargez tous les messages sur cette page ou exportez l’ensemble de données avec les filtres appliqués sous forme de fichier CSV

Quelle quantité d’entraînement devez-vous effectuer pour chaque libellé ?

Le nombre d'exemples requis pour prédire avec précision chaque libellé peut varier beaucoup en fonction de l'étendue ou de la spécificité d'un concept de libellé.

Il est possible qu'un libellé soit généralement associé à des mots, des phrases ou des intentions très spécifiques et facilement identifiables, et que la plate-forme soit capable de le prédire de manière cohérente avec relativement peu d'exemples d'entraînement. Il est possible qu'une étiquette capture un sujet général avec de nombreuses variations de langue différentes qui lui seraient associées, auquel cas, cela pourrait nécessiter beaucoup plus d'exemples d'entraînement pour permettre à la plate-forme d'identifier systématiquement les instances auxquelles l'étiquette doit s'appliquer.

La plate-forme peut souvent commencer à faire des prédictions pour une étiquette avec seulement cinq exemples, mais pour estimer avec précision les performances d'une étiquette (la capacité de la plate-forme à la prédire), chaque étiquette nécessite au moins 25 exemples.

Lors de l'annotation dans Explorer, les petits disques rouges (exemples illustrés ci-dessous) à côté de chaque libellé indiquent si d'autres exemples sont nécessaires pour estimer avec précision les performances du libellé. Le sélecteur commence à disparaître au fur et à mesure que vous fournissez plus d'exemples d'entraînement et disparaîtra complètement une fois que vous atteignez 25.

Numéros d'entraînement des libellés

Cela ne signifie pas qu'avec 25 exemples, la plate-forme sera en mesure de prédire avec précision chaque libellé, mais elle sera au moins en mesure de valider sa capacité à prédire chaque libellé et à vous alerter si une formation supplémentaire est requise.

Pendant la phase Explorer (Explore), vous devez donc vous assurer d'avoir fourni au moins 25 exemples pour tous les libellés qui vous intéressent, en utilisant une combinaison des étapes mentionnées ci-dessus (essentiellement Mélanger (Then).

Pendant la phase d' affinement, il peut devenir clair que davantage d'entraînement est nécessaire pour que certains libellés améliorent leurs performances, et cela est expliqué en détail ici.

Avertissements relatifs aux performances des libellés

Dans l'exploration, une fois que vous avez atteint 25 exemples épinglés pour une étiquette, vous pouvez voir l'un des indicateurs de performance de l'étiquette ci-dessous à la place du disque d'entraînement :

Le cercle gris est un indicateur que la plate-forme calcule les performances de ce libellé ; il sera mis à jour pour disparaître ou pour faire apparaître un cercle ambine ou rouge une fois calculé
L' orange est un indicateur que le libellé a des performances légèrement inférieures à satisfaisantes et qu'il pourrait être amélioré
Le rouge est un indicateur que le libellé fonctionne mal et nécessite une formation/des actions correctives supplémentaires pour l'améliorer
S'il n'y a pas de cercle, cela signifie que l'étiquette fonctionne à un niveau satisfaisant (mais peut encore nécessiter une amélioration en fonction du cas d'utilisation et des niveaux de précision souhaités)
Pour en savoir plus sur les performances des libellés et comment les améliorer, vous pouvez commencer ici

Indicateurs de performance des libellés

Nombre de libellés prévu vs nombre de libellés épinglés

Si vous cliquez sur l'icône en forme de coche (comme indiqué ci-dessous) en haut de la barre de filtre du libellé pour filtrer les messages révisés, le nombre de messages révisés auxquels ce libellé est appliqué s'affichera.

Si vous cliquez sur l'icône de l'ordinateur pour filtrer les messages non examinés, le nombre total de prédictions pour ce libellé s'affichera (qui inclut également le nombre d'exemples examinés).

Dans Explorer ( Explore), lorsque ni Révisé (Reviewed) ni Non révisé (Unreviewed) n'est sélectionné, la plate-forme affiche le nombre total de messages épinglés pour un libellé par défaut. Dans Rapports(Reports), la valeur par défaut est d'afficher le total prédit.

Remarque : le nombre prédit est un agrégat de toutes les probabilités que la plateforme calcule pour ce libellé. Par exemple, 2 messages avec un niveau de confiance de 50 % seront comptés comme 1 libellé prédit.

Conseils utiles pour l'utilisation de l'exploration

Le modèle peut commencer à faire des prédictions avec seulement quelques messages annotés, mais pour qu'il fasse des prédictions fiables, vous devez annoter au moins 25 messages par libellé. Certains nécessiteront plus que cela, cela dépendra de la complexité des données, du libellé et de la cohérence avec laquelle les libellés ont été appliqués
Dans Explorer (Explore), vous devez également essayer de trouver des messages où le modèle a prédit un libellé de manière incorrecte. Vous devez supprimer les libellés incorrects et appliquer ceux qui sont corrects. Ce processus empêche le modèle de faire une prédiction incorrecte similaire à l'avenir

Attention : pendant cette phase, vous appliquerez beaucoup d'étiquettes. N'oubliez donc pas d'adhésion à la clé annotant les meilleures pratiques d'ajout de tous les étiquettes qui s'appliquent, de les appliquer de manière cohérente et d'annoter ce que vous voyez devant vous

Sommaire de la page