communications-mining
latest
false
Important :
Ce contenu a été traduit à l'aide d'une traduction automatique.
UiPath logo, featuring letters U and I in white
Guide de l'utilisateur de Communications Mining
Last updated 19 nov. 2024

Hiérarchie des libellés et bonnes pratiques

Introduction

Avant de commencer l'entraînement du modèle, il esttrès important de comprendre comment aborder la création de votre taxonomie, y compris le nommage et la structuration de vos libellés , et ce que ces libellés doivent réellement capturer. Cet article couvrira chacun de ces sujets, en commençant par l'affectation de noms aux libellés.

L'article suivant explique pourquoi il est si important de structurer correctement votre taxonomie pour répondre à vos objectifs commerciaux (ici).

Libellés d'affectation de noms

Décider des noms pour vos libellés peut sembler une perspective redoutable ou longue - mais ce n'est pas nécessaire.

Pour un début, peu importe le nom d'une étiquette, pour nos modèles, le nom de l'étiquette lui-même n'est qu'un nombre. Ce qui est important, c'est que le nom du libellé sert à des fins commerciales et qu'il soit une description utile du concept spécifique qu'il est destiné à capturer.

Vous pouvez renommer les libellés à tout moment (voir comment), ainsi qu'ajouter des niveaux de hiérarchie si nécessaire, alors ne passez pas trop de temps lors de la construction de votre modèle en pensant au nom parfait.

Hiérarchies de libellés

La dénomination d'une étiquette détermine en partie sa hiérarchie dans votre taxonomie. Les étiquettes peuvent avoir plusieurs niveaux de hiérarchie, simplement séparés par '> ', pour capturer lorsqu'un concept d'étiquette est un sous-ensemble d'un concept parent plus large.

Les structures d'étiquettes potentielles peuvent donc ressembler à ceci (voir également l'exemple dans l'image ci-dessous) :

  1. [Libellé du parent]
  2. [Libellé du parent] > [Libellé des enfants]
  3. [Libellé parent] > [Libellé de la branche] > [Libellé des enfants]

Vous pouvez ajouter plus de trois niveaux de hiérarchie, mais nous vous déconseillons de le faire souvent, car l'entraînement devient de plus en plus complexe. Cela peut être nécessaire dans certains cas, mais cela ne doit pas être considéré comme une bonne pratique.

Conceptuellement, il est important que chaque libellé imbriqué sous un autre libellé soit un sous- ensemble du libellé situé au-dessus. Cette imbrication (niveau de hiérarchie) est créée à l'aide de '>' lors de la saisie du nom de l'étiquette.

Le visuel ci-dessous illustre ce point à l'aide d'un diagramme Venn :

Exemple de fonctionnement conceptuel des hiérarchies de libellésdocs image

De nouveau, vous pouvez ajouter des niveaux de hiérarchie supplémentaires en renommant vos libellés à une étape ultérieure du processus d'entraînement du modèle.

Comment fonctionnent ces hiérarchies dans la pratique ?

Pour comprendre cela, prenons comme exemple «Libellé enfant X » du visuel ci-dessus.

Lorsque le modèle prévoit que « Child Label X » s'applique à un message, il prévoit également que «Branch Label C » et «Parent Label 1 »en même temps. En effet, « Child Label X » en est un sous- ensemble .

Cependant, comme chaque niveau de hiérarchie ajoute un niveau de spécificité croissant, le modèle peut être plus sûr qu'une étiquette parente ou de branche s'applique qu'une étiquette enfant plus spécifique. Cela signifie que le modèle peut attribuer différentes probabilités à différentes prédictions de libellé au sein de la même hiérarchie.

Ainsi, pour un message particulier, le modèle pourrait être :

  • 99 % de confiance pour que le «Libellé parent 1 »s'applique
  • 88 % de confiance que le «Browse Label C » s'applique
  • 75 % de confiance que «Child Label X » s’applique.

Il convient de noter que si un libellé enfant est prévu pour un message, le modèle doit toujours prédire le libellé parent (et le libellé de la branche , le cas échéant) avec au moins la même confiance que le libellé enfant, voire une version supérieure.

Le fait que le modèle prédit chaque libellé indépendamment est l'une des principales raisons pour lesquelles il est important que les libellés parents capturent des sujets ou des concepts réels, plutôt que des concepts abstraites.

Par exemple, un libellé parent tel que «Processus » utilisé pour regrouper des libellés enfants liés à des processus spécifiques est un mauvais choix pour un libellé parent. Le « processus » est en lui-même un concept abstraite et ce n'est pas quelque chose que le modèle prédit bien de façon autonome. Dans un contexte commercial, le nom du processus spécifique auquel quelque chose se rapporte (et qui peut être identifié à partir du texte d'un message) serait un libellé parent utile. Des libellés de branche et d'enfant utiles pourraient alors être des sous-processus du processus parent principal.

Comment choisir quels concepts doivent être des libellés parents et lesquels doivent être des libellés enfants ?

Vous devrez peut-être parfois faire des choix difficiles concernant la structure de votre taxonomie. Par exemple, il peut être difficile de choisir si un libellé doit être un libellé parent ou un libellé enfant, car il pourrait logiquement s'agir d'une large catégorie parente avec ses propres sous-catégories, ou d'une sous-catégorie spécifique d'une autre catégorie parente plus étendue.

Par exemple, imaginons qu'un ensemble de données composé d'avis d' avis d'hôtel . Il pourrait y avoir de nombreux avis qui commentent les prix de différents aspects de leurs vacances et de l' directement, c'est-à-dire le restaurant, le bar, les salles, les activités, etc.

Vous pouvez logiquement avoir « Pricing » comme libellé parent, et chaque aspect spécifique de la tarification (par ex. restaurant) en tant que libellés enfants.

Vous pouvez également, cependant, avoir des libellés parents relatifs à des aspects spécifiques tels que « Restaurant » et « Champs », et avoir « Pricing » comme libellé enfant sous chacun.

Alors, lequel choisir ?

Il est utile de prendre en compte quelques éléments avant de prendre une décision :

  • Y aura-t-il potentiellement un nombre important d'autres concepts que vous aimeriez capturer liés à ce sujet plus large ? Si oui, il doit probablement s'agir d'un libellé parent
  • Quelle est la chose la plus importante à suivre du point de vue de l'IA ou de la production de rapports ? D'après notre exemple, est-il plus utile de pouvoir voir clairement dans les analyses de Communications Mining combien de personnes parlez de prix et de sous-catégories ? Ou est-il plus utile de voir les statistiques globales sur les informations relatives aux salles, au(x) restaurant(s), aux activités, etc., parmi lesquelles les prix ?

Il n'y a pas nécessairement de bonne ou de mauvaise réponse dans ces situations - cela dépend de ce qui est le plus important pour vous et votre entreprise.

Que puis-je réellement capturer avec une étiquette ?

Jusqu'à présent, nous avons expliqué comment nommer les libellés et les structurer en hiérarchies, mais vous vous demandez peut-être toujours ce que doit capturer une étiquette?

Il est important de garder à l'esprit que Communications Mining est un outil de traitement des langages naturels . La plate-forme lit et interprète chaque message auquel une étiquette est attribuée, et commence à comprendre comment identifier ce concept d'étiquette en se basant principalement sur le texte qu'il contient.

Au fur et à mesure que vous ajoutez des exemples plus divers et cohérents pour chaque étiquette, le modèle améliore sa compréhension de ce concept d'étiquette. L'ajout de plus de libellés est un processus avec des retours décroissants, cependant, une fois qu'un libellé fonctionne bien. Accepter beaucoup de prédictions de confiance élevées pour une étiquette ne donne pas au modèle de nouvelles informations et est une pratique à éviter.

Comme Communications Mining utilise la langue du message pour comprendre et identifier ce qui constitue un concept d'étiquette, l'étiquette doit être clairement identifiable à partir du texte (c'est-à-dire la langue) des messages auxquels ils sont appliqués. Pour un message électronique , cela inclut l’objet ET le corps de l’e-mail.

Consultez cet exemple d'e-mail ci-dessous, auquel l'étiquette «Annulation (Cancellation) > Confirmation > Fin d'exécution » (Termination) a été appliquée. Ce libellé est clairement déduit de l' objet et du corps de l'e-mail.

Exemple de message électronique mettant en évidence le texte pris en compte par le modèle lors de ses prédictions

Bien que le modèle soit capable de prendre en compte certaines propriétés de métadonnées lors de l'entraînement, en particulier des éléments comme le score NPS (pour les ensembles de données de commentaires des clients) qui peuvent aider à comprendre le sentiment, c'est le texte du message qui est de loin la donnée la plus importante prise en compte par Modèles Communications Mining.

Remarque :

Le modèle ne prend pas en compte l' expéditeur ou l'adresse du destinataire spécifiques d'un e-mail, il ne doit donc pas être utilisé lors de la détermination du libellé à appliquer à un e-mail.

Cela signifie qu'il est important que chaque étiquette soit spécifique dans ce qu'il essaie de capturer, sinon le modèle ne sera pas en mesure d'identifier les tendances et les modèles dans la langue qui l'aident à prédire un concept d'étiquette.

Pourquoi devrais-je essayer d'éviter d'utiliser des libellés très généraux ?

Des libellés extrêmement généraux tels que «Requête générale » ou «Tout le reste » peuvent être très inutiles s’ils sont utilisés pour regrouper de nombreux sujets distincts et qu’il n’y a pas de modèle ou de communauté commune entre les exemples fournis au modèle.

Si le modèle doit bien prédire une étiquette, il a besoin de plusieurs exemples similaires des différentes expressions de chaque concept capturés par une étiquette. Les étiquettes extrêmement larges nécessitent donc de très grands nombres d'exemples pour être correctement prédites.

Il est généralement beaucoup plus pratique de diviser les libellés généraux en libellés distincts, même si vous disposez de l'option 'Everyone Else > [Var Insérers enfants] '.

Si le modèle est mieux capable d'identifier une étiquette enfant, car elle est plus spécifique et clairement identifiable (par rapport à une catégorie parente très large), il peut en fait améliorer considérablement sa capacité à prédire également son étiquette parent.

Description des libellés

L'une des meilleures façons de conserver la cohérence des étiquettes tout au long du processus de construction du modèle est d'ajouter des descriptions de concept à chacune de vos étiquettes, ce qui peut être fait dans la page Paramètres de l'ensemble de données sous Étiquettes et champs généraux. Ceci est particulièrement utile si plusieurs personnes vont entraîner votre modèle, ce qui permet de s'assurer que tout le monde a la même compréhension d'une étiquette donnée et de son concept associé. Ce paramètre est également utile si vous devez transmettre le modèle à une autre personne.

Exemples de descriptions de libellés dans la page Paramètres du jeu de données (Dataset Settings)

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.