- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux (anciennement entités)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Supprimer une source
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Préparation des données en vue du téléchargement du fichier .CSV
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Utilisation des analyses et de la surveillance
- Automatisations et Communications Mining
- Informations de licence
- FAQ et plus encore
Hiérarchie des libellés et bonnes pratiques
Avant de commencer l'entraînement du modèle, il esttrès important de comprendre comment aborder la création de votre taxonomie, y compris le nommage et la structuration de vos libellés , et ce que ces libellés doivent réellement capturer. Cet article couvrira chacun de ces sujets, en commençant par l'affectation de noms aux libellés.
L'article suivant explique pourquoi il est si important de structurer correctement votre taxonomie pour répondre à vos objectifs commerciaux (ici).
Décider des noms pour vos libellés peut sembler une perspective redoutable ou longue - mais ce n'est pas nécessaire.
Pour un début, peu importe le nom d'une étiquette, pour nos modèles, le nom de l'étiquette lui-même n'est qu'un nombre. Ce qui est important, c'est que le nom du libellé sert à des fins commerciales et qu'il soit une description utile du concept spécifique qu'il est destiné à capturer.
Vous pouvez renommer les libellés à tout moment (voir comment), ainsi qu'ajouter des niveaux de hiérarchie si nécessaire, alors ne passez pas trop de temps lors de la construction de votre modèle en pensant au nom parfait.
La dénomination d'une étiquette détermine en partie sa hiérarchie dans votre taxonomie. Les étiquettes peuvent avoir plusieurs niveaux de hiérarchie, simplement séparés par '> ', pour capturer lorsqu'un concept d'étiquette est un sous-ensemble d'un concept parent plus large.
Les structures d'étiquettes potentielles peuvent donc ressembler à ceci (voir également l'exemple dans l'image ci-dessous) :
- [Libellé du parent]
- [Libellé du parent] > [Libellé des enfants]
- [Libellé parent] > [Libellé de la branche] > [Libellé des enfants]
Vous pouvez ajouter plus de trois niveaux de hiérarchie, mais nous vous déconseillons de le faire souvent, car l'entraînement devient de plus en plus complexe. Cela peut être nécessaire dans certains cas, mais cela ne doit pas être considéré comme une bonne pratique.
Conceptuellement, il est important que chaque libellé imbriqué sous un autre libellé soit un sous- ensemble du libellé situé au-dessus. Cette imbrication (niveau de hiérarchie) est créée à l'aide de '>' lors de la saisie du nom de l'étiquette.
Le visuel ci-dessous illustre ce point à l'aide d'un diagramme Venn :
De nouveau, vous pouvez ajouter des niveaux de hiérarchie supplémentaires en renommant vos libellés à une étape ultérieure du processus d'entraînement du modèle.
Pour comprendre cela, prenons comme exemple «Libellé enfant X » du visuel ci-dessus.
Lorsque le modèle prévoit que « Child Label X » s'applique à un message, il prévoit également que «Branch Label C » et «Parent Label 1 »en même temps. En effet, « Child Label X » en est un sous- ensemble .
Cependant, comme chaque niveau de hiérarchie ajoute un niveau de spécificité croissant, le modèle peut être plus sûr qu'une étiquette parente ou de branche s'applique qu'une étiquette enfant plus spécifique. Cela signifie que le modèle peut attribuer différentes probabilités à différentes prédictions de libellé au sein de la même hiérarchie.
Ainsi, pour un message particulier, le modèle pourrait être :
- 99 % de confiance pour que le «Libellé parent 1 »s'applique
- 88 % de confiance que le «Browse Label C » s'applique
- 75 % de confiance que «Child Label X » s’applique.
Il convient de noter que si un libellé enfant est prévu pour un message, le modèle doit toujours prédire le libellé parent (et le libellé de la branche , le cas échéant) avec au moins la même confiance que le libellé enfant, voire une version supérieure.
Le fait que le modèle prédit chaque libellé indépendamment est l'une des principales raisons pour lesquelles il est important que les libellés parents capturent des sujets ou des concepts réels, plutôt que des concepts abstraites.
Par exemple, un libellé parent tel que «Processus » utilisé pour regrouper des libellés enfants liés à des processus spécifiques est un mauvais choix pour un libellé parent. Le « processus » est en lui-même un concept abstraite et ce n'est pas quelque chose que le modèle prédit bien de façon autonome. Dans un contexte commercial, le nom du processus spécifique auquel quelque chose se rapporte (et qui peut être identifié à partir du texte d'un message) serait un libellé parent utile. Des libellés de branche et d'enfant utiles pourraient alors être des sous-processus du processus parent principal.
Comment choisir quels concepts doivent être des libellés parents et lesquels doivent être des libellés enfants ?
Vous devrez peut-être parfois faire des choix difficiles concernant la structure de votre taxonomie. Par exemple, il peut être difficile de choisir si un libellé doit être un libellé parent ou un libellé enfant, car il pourrait logiquement s'agir d'une large catégorie parente avec ses propres sous-catégories, ou d'une sous-catégorie spécifique d'une autre catégorie parente plus étendue.
Par exemple, imaginons qu'un ensemble de données composé d'avis d' avis d'hôtel . Il pourrait y avoir de nombreux avis qui commentent les prix de différents aspects de leurs vacances et de l' directement, c'est-à-dire le restaurant, le bar, les salles, les activités, etc.
Vous pouvez logiquement avoir « Pricing » comme libellé parent, et chaque aspect spécifique de la tarification (par ex. restaurant) en tant que libellés enfants.
Vous pouvez également, cependant, avoir des libellés parents relatifs à des aspects spécifiques tels que « Restaurant » et « Champs », et avoir « Pricing » comme libellé enfant sous chacun.
Alors, lequel choisir ?
Il est utile de prendre en compte quelques éléments avant de prendre une décision :
- Y aura-t-il potentiellement un nombre important d'autres concepts que vous aimeriez capturer liés à ce sujet plus large ? Si oui, il doit probablement s'agir d'un libellé parent
- Quelle est la chose la plus importante à suivre du point de vue de l'IA ou de la production de rapports ? D'après notre exemple, est-il plus utile de pouvoir voir clairement dans les analyses de Communications Mining combien de personnes parlez de prix et de sous-catégories ? Ou est-il plus utile de voir les statistiques globales sur les informations relatives aux salles, au(x) restaurant(s), aux activités, etc., parmi lesquelles les prix ?
Il n'y a pas nécessairement de bonne ou de mauvaise réponse dans ces situations - cela dépend de ce qui est le plus important pour vous et votre entreprise.
Jusqu'à présent, nous avons expliqué comment nommer les libellés et les structurer en hiérarchies, mais vous vous demandez peut-être toujours ce que doit capturer une étiquette?
Il est important de garder à l'esprit que Communications Mining est un outil de traitement des langages naturels . La plate-forme lit et interprète chaque message auquel une étiquette est attribuée, et commence à comprendre comment identifier ce concept d'étiquette en se basant principalement sur le texte qu'il contient.
Au fur et à mesure que vous ajoutez des exemples plus divers et cohérents pour chaque étiquette, le modèle améliore sa compréhension de ce concept d'étiquette. L'ajout de plus de libellés est un processus avec des retours décroissants, cependant, une fois qu'un libellé fonctionne bien. Accepter beaucoup de prédictions de confiance élevées pour une étiquette ne donne pas au modèle de nouvelles informations et est une pratique à éviter.
Comme Communications Mining utilise la langue du message pour comprendre et identifier ce qui constitue un concept d'étiquette, l'étiquette doit être clairement identifiable à partir du texte (c'est-à-dire la langue) des messages auxquels ils sont appliqués. Pour un message électronique , cela inclut l’objet ET le corps de l’e-mail.
Consultez cet exemple d'e-mail ci-dessous, auquel l'étiquette «Annulation (Cancellation) > Confirmation > Fin d'exécution » (Termination) a été appliquée. Ce libellé est clairement déduit de l' objet et du corps de l'e-mail.
Bien que le modèle soit capable de prendre en compte certaines propriétés de métadonnées lors de l'entraînement, en particulier des éléments comme le score NPS (pour les ensembles de données de commentaires des clients) qui peuvent aider à comprendre le sentiment, c'est le texte du message qui est de loin la donnée la plus importante prise en compte par Modèles Communications Mining.
Le modèle ne prend pas en compte l' expéditeur ou l'adresse du destinataire spécifiques d'un e-mail, il ne doit donc pas être utilisé lors de la détermination du libellé à appliquer à un e-mail.
Cela signifie qu'il est important que chaque étiquette soit spécifique dans ce qu'il essaie de capturer, sinon le modèle ne sera pas en mesure d'identifier les tendances et les modèles dans la langue qui l'aident à prédire un concept d'étiquette.
Des libellés extrêmement généraux tels que «Requête générale » ou «Tout le reste » peuvent être très inutiles s’ils sont utilisés pour regrouper de nombreux sujets distincts et qu’il n’y a pas de modèle ou de communauté commune entre les exemples fournis au modèle.
Si le modèle doit bien prédire une étiquette, il a besoin de plusieurs exemples similaires des différentes expressions de chaque concept capturés par une étiquette. Les étiquettes extrêmement larges nécessitent donc de très grands nombres d'exemples pour être correctement prédites.
Il est généralement beaucoup plus pratique de diviser les libellés généraux en libellés distincts, même si vous disposez de l'option 'Everyone Else > [Var Insérers enfants] '.
Si le modèle est mieux capable d'identifier une étiquette enfant, car elle est plus spécifique et clairement identifiable (par rapport à une catégorie parente très large), il peut en fait améliorer considérablement sa capacité à prédire également son étiquette parent.
L'une des meilleures façons de conserver la cohérence des étiquettes tout au long du processus de construction du modèle est d'ajouter des descriptions de concept à chacune de vos étiquettes, ce qui peut être fait dans la page Paramètres de l'ensemble de données sous Étiquettes et champs généraux. Ceci est particulièrement utile si plusieurs personnes vont entraîner votre modèle, ce qui permet de s'assurer que tout le monde a la même compréhension d'une étiquette donnée et de son concept associé. Ce paramètre est également utile si vous devez transmettre le modèle à une autre personne.