ixp

latest

false

Guide de l’utilisateur de Communications Mining

Dernière mise à jour 10 nov. 2025

Comprendre et augmenter la couverture

Remarque : vous devez avoir attribué les autorisations Source - Lecture et Ensemble de données - Révision en tant qu'utilisateur d'Automation Cloud, ou les autorisations Afficher les sources et Réviser et annoter en tant qu'utilisateur hérité.

La couverture est un terme fréquemment utilisé dans l'apprentissage automatique qui se rapporte à la façon dont un modèle « couvre » les données qu'il utilise pour analyser. Sur la plate-forme, cela se rapporte à la proportion de messages dans l'ensemble de données qui ont des prédictions de libellé informatives, et est présenté dans Validation sous la forme d'un score en pourcentage.

Les libellés informatifs sont ces libellés que la plate-forme comprend comme utiles en tant que libellés autonomes, en examinant la fréquence à laquelle ils sont attribués avec d'autres libellés. Libellés qui sont toujours attribués avec un autre libellé, par exemple les libellés parents qui ne sont jamais attribués seuls ou Urgent s'ils sont toujours attribués avec un autre libellé, sont pondérés lors du calcul du score.

Le graphique suivant donne une indication à quoi ressemblerait une faible couverture par rapport à une couverture élevée sur un ensemble de données complet. Imaginez les cercles grisés sont des messages dont les prédictions de libellé sont informatives.

En tant que mesure, la couverture est un moyen très utile de comprendre si vous avez capturé tous les différents concepts potentiels dans votre ensemble de données et si vous avez fourni suffisamment d'exemples d'entraînement variés pour eux afin que la plate-forme puisse les prédire efficacement.

Dans presque tous les cas, plus la couverture du modèle est élevée, meilleures sont les performances du modèle, mais il ne doit pas être pris en compte comme isolé lors de la vérification des performances du modèle.

Remarque :

Assurez-vous que les libellés de la taxonomie sont sains, ce qui signifie qu'ils ont une précision moyenne élevée et aucun autre avertissement de performance, et que les données d'entraînement sont une représentation équilibrée de l'ensemble de données dans son ensemble.

Si vos libellés sont défectueux ou si les données d’entraînement ne sont pas représentatives de l’ensemble de données, la couverture de votre modèle calculée par la plateforme ne sera pas fiable.

Votre modèle ayant une couverture élevée est particulièrement important si vous l’utilisez pour générer des processus automatisés.

Couverture dans le contexte

Déterminez comment la couverture s’applique dans un cas d’utilisation, par exemple le routage automatique des différentes demandes reçues par une boîte de réception partagée dans une entreprise.

Pour un modèle conçu pour aider à acheminer automatiquement différentes requêtes, une faible couverture signifie que de nombreuses requêtes ont été acheminées de manière inexacte ou envoyées pour un examen manuel, car le modèle n'a pas pu les identifier.

S’il y a 10 processus clés gérés par l’équipe travaillant dans la boîte aux lettres, mais que la taxonomie n’en capture efficacement que 7, cela entraînerait probablement un mauvais score de couverture. Alternativement, le modèle peut prévoir de manière incorrecte les processus restants comme les autres processus, car il n’a pas appris ce qu’ils sont réellement. Cela conduirait à un score de couverture artificiellement élevé.

Lors de l’automatisation, les trois processus restants seraient probablement manquants, envoyés pour une révision manuelle, ou incorrectement classés comme un processus différent et dirigés vers le mauvais endroit.

Il est également important que pour chacun des processus, il existe suffisamment d'exemples d'entraînement variés qui capturent les différentes expressions utilisées lors de la discussion du processus. Si ce n’est pas le cas, le rappel de chaque libellé sera inférieur et la couverture du modèle sera faible.

Le graphique suivant montre à quoi cet exemple pourrait ressembler dans la pratique : nous avons plusieurs clients qui envoient plusieurs types de requêtes par e-mail. Chaque client peut écrire le même type de requête d'une manière différente :

Il y a trois scénarios de modèle différents affichés, chacun avec un impact potentiel différent sur la couverture :

	Tous les types de requêtes, c'est-à-dire les concepts couverts par la taxonomie, sont susceptibles d'avoir une faible couverture
	Tous les types de requête sont couverts, mais certains libellés sont défectueux et peuvent ne pas comporter suffisamment d'exemples : la couverture peut être faible et est susceptible d'être peu fiable
	Tous les types de requêtes couverts et tous les libellés sont sains : couverture élevée susceptible d'être fiable

Vérification de la couverture du modèle

Dans Validation, la fonctionnalité d’évaluation du modèle fournit une répartition détaillée des performances du modèle selon les facteurs contributifs les plus importants, notamment la couverture.

Les utilisateurs disposent d’un score en pourcentage de la proportion de messages censés avoir des prédictions de libellé informatives, qui à leur tour sont corrélées à une note et à une contribution à la note globale du modèle.

La plateforme a également fourni la proportion de messages qui ont au moins un libellé prédit, mais ce n'est pas ce qui détermine le score et la note de ce facteur.

Dans l'exemple suivant, nous pouvons remarquer que :

La couverture de ce modèle est de 85,2 %.
Cela se traduit par une évaluation évaluée de « Bon » pour ce facteur.
Cela se traduit également par une contribution positive à la note globale du modèle de +3.

Exemple de répartition de la couverture indiquée dans la validation

Il est important de garder à l'esprit que la couverture en tant que mesure de performance doit toujours être comprise conjointement avec la santé des libellés dans la taxonomie et l'équilibrage de l'ensemble de données. Avant de considérer que le score de couverture fourni par la plate-forme est fiable, vous devez également vous assurer que vous avez au moins une bonne note pour les autres facteurs qui contribuent à la notation du modèle.

À quel niveau de couverture du modèle doit-elle être élevée

Au minimum, votre couverture doit être suffisamment élevée pour que la plate-forme fournit une note « Bon ». S’il atteint ce stade, votre modèle fonctionne bien, et vous pouvez choisir de l’optimiser davantage en fonction des exigences de votre cas d’utilisation.

Tout comme les humains, les modèles d'apprentissage automatique ont des limites, vous ne devez donc pas vous attendre à atteindre une couverture de 100 %. Vous vous rapprochez peut-être de cela, mais uniquement si vos données sont extrêmement simples et répétitives, ou que vous annotez une proportion très élevée de l'ensemble de données.

Atteindre une excellente note peut être potentiellement difficile en fonction des données, et n’est pas toujours nécessaire en fonction du cas d’utilisation.

Pour les cas d'utilisation axés sur l'automatisation, il est particulièrement important d'avoir une couverture élevée. Il est donc probable que dans ces instances, vous souhaitiez optimiser la couverture autant que possible et obtenir une note Excellente .

Pour les cas d’utilisation axés sur l’analyse, une couverture très élevée est légèrement moins essentielle. Il suffit souvent pour que les modèles soient en mesure d’identifier les concepts les plus fréquents, car ceux-ci fournissent les meilleures informations et les meilleures opportunités de changement et d’amélioration.

Il convient de noter qu'un modèle axé sur l'analyse abandonne généralement une certaine précision afin de capturer globalement un très large éventail de concepts dans sa taxonomie.

Augmentation de la couverture du modèle

Comme pour les autres facteurs contributifs, la plate-forme fournit des « prochaines mesures » utiles recommandées que les utilisateurs peuvent effectuer pour améliorer la couverture de votre modèle. Pour plus de détails, reportez-vous aux images de cette section et à la précédente.

Les actions recommandées agissent comme des liens qui vous redirigent directement vers le mode d’entraînement suggéré.

En cas de couverture, la plate-forme recommande le plus souvent l'entraînement en mode Niveau de confiance faible , car ce mode permet aux utilisateurs d'annoter la mesure la moins couverte de tous les messages de l'ensemble de données. Pour plus de détails, consultez Entraîner en utilisant un niveau de confiance faible.

Après avoir effectué un volume raisonnable d'entraînement dans le mode d'entraînement recommandé, les utilisateurs peuvent revenir en arrière pour voir comment il s'est amélioré une fois le modèle réentraîné et la validation mise à jour. Si nécessaire, ils peuvent répéter le processus pour continuer à améliorer leurs scores.

Lorsque la couverture est très faible, généralement au début du processus d'entraînement, la plate-forme peut également recommander d'autres modes d'entraînement qui seraient utiles, tels que l'annotation de clusters de messages similaires dans Découvrir , comme illustré dans l'exemple suivant.

Exemple de carte de facteur montrant une faible couverture d'un modèle et des actions recommandées

Vérification de la couverture pour des libellés spécifiques

La plate-forme est capable d'identifier intelligemment les libellés 'information' au sein d'une taxonomie lors de l'évaluation de la couverture d'un modèle et la présente dans l' évaluation du modèle.

Si, toutefois, vous souhaitez évaluer la proportion d'un ensemble de données susceptible d'être couvert par des prédictions pour un ensemble spécifique de libellés dans votre taxonomie, vous pouvez le faire sur la page Rapports .

Pour ce faire, vous pouvez sélectionner tous les libellés en question dans la barre de filtre des libellés de Rapports (comme indiqué ci-dessous).

Le nombre de messages en haut de la page dans les mises à jour des rapports en fonction des filtres appliqués. Lorsque vous sélectionnez des libellés dans le filtre de libellés, le nombre est mis à jour pour afficher le nombre de messages susceptibles d'avoir au moins un des libellés sélectionnés prédit.

Nombre de messages dans les rapports

Dans cet exemple d'e-mails se rapportant uniquement à un processus d'appel de marge dans une banque, vous pouvez voir qu'il est probable que 237 551 messages sur les 260 000 auront au moins un des libellés sélectionnés prédits. Indique une bonne couverture d'environ 91,4 %.

Il ne devrait pas s’agir de votre seul contrôle pour tester la couverture globale de votre modèle. La mesure de couverture la plus fiable pour l'ensemble de données est présentée dans l' évaluation du modèle et doit être considérée conjointement avec les performances globales des libellés dans la taxonomie.

Sommaire de la page