communications-mining

latest

false

Guide de l'utilisateur de Communications Mining

Dernière mise à jour 4 mars 2025

Comprendre et améliorer les performances du modèle

Comprendre les performances globales du modèle

Les performances globales d'un modèle d'apprentissage automatique sont déterminées par un certain nombre de facteurs contributifs, qui doivent être pris en compte en combinaison les uns avec les autres. Il ne suffit pas de se demander uniquement si les libellés d'un modèle ont une précision moyenne élevée, ou simplement de regarder dans quelle mesure un ensemble de données est couverts par ses propres prédictions.

Pour être sûr qu'un modèle est une représentation réelle d'un ensemble de données, avec des prédictions de libellé précises et fiables et une couverture élevée, nous évaluons 4 facteurs principaux (et voici comment) :

Tous les libellés (All labels ) : ce facteur évalue les performances moyennes de tous les libellés dans la taxonomie
Étiquettes peu performantes ( UnPerforming Labels ) : ce facteur évalue les performances de 10 % d'étiquettes qui présentent les problèmes de performances les plus importants ou l'intégrité globale la plus faible
Couverture ( Coverage ) - ce facteur évalue la proportion de messages qui devraient avoir au moins un libellé informatif
Équilibre (Balance) – ce facteur évalue si les données examinées sont efficaces et équilibrées dans l'ensemble de données

La plate-forme combine son évaluation de ces 4 facteurs en une seule« évaluation de modèle » propriétaire facileà comprendre . Cette note est la meilleure mesure des performances d’un modèle, car elle tient compte de tous les facteurs les plus importants sur lesquels un modèle de libellé doit être évalué, pondérés par leur importance relative.

La note de modèle est une note de 0 à 100, ce qui équivaut à une note de 'Pauvre ' (0-49), 'moyenne ' (50-69), 'bon ' (70-89) ou 'd'un niveau élevé' (90- 100).

La validation fournit également une ventilation de chacun de ces facteurs - chaque facteur se voit attribuer sa propre note qualitative, ainsi que l'affichage des métriques qui contribuent à cette note. Ceux-ci sont développés plus en détail ci-dessous.

Chaque facteur peut avoir une contribution positive ou négative à l' évaluation du modèle, en fonction de ses performances. Il est très possible que les modèles avec des notes «Paud » pour chaque facteur aient une note globale de zéro, surtout quand il est très tôt dans le processus de formation du modèle.

Exemple d'évaluation de modèle en validation sur un ensemble de données de démonstration

Remarque :

La notation du modèle est spécifique aux libellés et ne prend pas en compte les performances des champs généraux. Cependant, la validation fournit également des indicateurs détaillés sur les performances des prédictions de champ générales (voir ici).

La liste déroulante « Version du modèle », située au-dessus de la notation du modèle, vous permet de voir tous les scores de validation des versions de modèle antérieures pour un ensemble de données donné. Vous pouvez également hiérarchiser ou « ajouter » des éléments individuels afin qu’ils apparaissent en haut de la liste à l’avenir. Cet outil peut être utile pour suivre et comparer les progrès au fur et à mesure que vous construisez votre modèle.

La liste déroulante garantit que vous n'avez pas besoin d'épingler une version de modèle pour voir les scores de validation correspondants. L'épinglage d'une version de modèle (voir ici) ne doit être utilisé que pour les versions de modèle que vous souhaitez pouvoir appeler en aval via l'API (par exemple pour le routage automatisé).

La liste déroulante de la version du modèle

Facteurs

L'onglet Facteurs (Factors) de Validation (comme indiqué ci-dessus) fournit une liste de chacun des facteurs clés pris en compte lors du calcul de la notation du modèle.

Chaque carte de facteur affiche :

La note du facteur et une description qualitative de celui-ci
Les contributeurs , qui sont les différents composants qui contribuent à la note de ce facteur
Actions recommandées, classées par ordre de priorité, qui peuvent aider à améliorer la notation du facteur

Tous les libellés

Ce facteur évalue les performances moyennes de tous les libellés de la taxonomie,
Il repose principalement sur la précision moyenne moyenne (MAP) sur tous les libellés, pondérée par la fréquence d'attribution
Il prend également en compte le moment où certains libellés de la taxonomie comportent des avertissements de performances en rouge ou en orange
Les actions recommandées pour ce facteur seront généralement conçues pour augmenter la précision moyenne de libellés spécifiques ou pour supprimer leurs avertissements de performances

Libellés peu performants

Ce facteur évalue les performances des 10 % des libellés de la taxonomie qui présentent les problèmes de performances les plus importants ou la « santé » globale des libellés les plus bas (si aucun avertissement n'est renvoyé)
Si même les 10 % inférieurs de vos libellés fonctionnent toujours très bien, c'est un bon signe que votre modèle est en bonne santé
Cela dépend de la carte des libellés les moins performants, ainsi que si ces libellés comportent des avertissements significatifs en matière de performances (c'est-à-dire avertissements de couleur rouge ou orange).
Les actions recommandées pour ce facteur seront généralement conçues pour augmenter la précision moyenne de libellés spécifiques peu performants et supprimer tous les autres avertissements individuels de performances

Couverture

Ce facteur évalue la proportion de messages qui devraient avoir au moins un libellé informatif (voir ici pour plus de détails)
Il est très important qu'un modèle performant « couvre » autant que possible l'ensemble de données avec des prédictions d'étiquette informatives
Les actions recommandées pour ce facteur sont conçues pour aider à augmenter la couverture de l'ensemble de données. Il s'agira le plus souvent d'un entraînement en mode «Faible confiance »
Comprendre et augmenter la couverture d’un ensemble de données est expliqué en détail ici

Équilibre

Ce facteur évalue si les données examinées sont une représentation efficace et équilibrée de l'ensemble de données, et est conçu pour détecter les biais d'annotation potentiels (voir ici pour plus de détails)
Il repose sur un «score de similarité », qui résulte de la comparaison des données révisées avec les données non révisées de l'ensemble de données, ainsi que de l'utilisation du mode «Masquer » lors de l'annotation des données
Il est important que les données examinées dans un ensemble de données soient aussi similaires que possible aux données non examinées, afin que la plate-forme puisse en identifier de manière fiable le plus grand nombre possible
Les actions recommandées pour ce facteur ont pour but de réduire tout biais d'annotation potentiel et d' augmenter le score de similarité des données examinées
La compréhension et l’amélioration de l’équilibre de l’ensemble de données sont expliquées en détail ici

Remarque : la plate-forme essaiera toujours d'afficher les prochaines meilleures actions recommandées qui pourraient améliorer un facteur, même si le facteur est classé « Bon » ou « Excellent ». C'est au cas où vous souhaiteriez continuer à optimiser les performances de ce facteur.

Métriques

L'onglet Métriques (Metrics) de la page Validation (Validation) affiche des statistiques de performances moyennes des libellés, ainsi qu'un graphique montrant la précision moyenne de chaque libellé par rapport à la taille de leur ensemble d'apprentissage. Le graphique signale également les libellés qui comportent des avertissements de performances orange ou rouge.

Exemple d'onglet Métriques dans la validation pour un ensemble de données de démonstration

Les statistiques de performances de libellé affichées sont :

Fondamentalement, plus votre score MAP est élevé, plus le modèle fonctionne globalement en ce qui concerne la précision de ses prédictions, mais cela variera entre les ensembles de données en fonction du type de données et des objectifs sur lesquels vous avez centré votre taxonomie.

La carte n'est cependant pas une bonne mesure de la couverture ou de l'équilibre, et ne doit pas uniquement s'appuyer sur pour déterminer si votre modèle est adapté à l'objectif. Pour plus de détails sur la compréhension et la vérification de la couverture de votre modèle, voir ici, et pour vérifier et améliorer l'équilibre de votre modèle, voir ici.

Comprendre les performances des libellés

Le graphique des performances des libellés affiché dans l'onglet Métriques (Metrics) de la page Validation (Validation) (voir ci-dessus) donne une indication visuelle immédiate des performances de chaque libellé individuel.

Pour qu'un libellé apparaisse sur ce graphique, il doit avoir au moins 20 exemples épinglés présents dans l'ensemble d'entraînement utilisé par la plateforme lors de la validation. Pour s'assurer que cela se produise, les utilisateurs doivent s'assurer qu'ils fournissent au moins 25 exemples épinglés (souvent plus) par étiquette.

Chaque étiquette sera tracée comme l'une des trois couleurs, en fonction de la compréhension par le modèle des performances de l'étiquette. Nous expliquons ci-dessous ce que cela signifie :

Indicateurs de performance des libellés

Indicateurs de performance des libellés :

Les libellés affichés en bleu sur le graphique ont un niveau de performance satisfaisant . Cela est basé sur de nombreux facteurs contributifs, notamment le nombre et la variété d'exemples, le biais d'annotation et la précision moyenne de ce libellé.

Les libellés indiqués en forme d' orange ont des performances légèrement inférieures à satisfaisantes . Ils peuvent avoir une précision moyenne relativement faible, ne pas avoir suffisamment d'exemples d'entraînement, ou ont pu être annotés de manière biaisée. Ces libellés nécessitent un peu d'entraînement/de correction pour améliorer leurs performances ou pour réduire les biais liés à la manière dont ils ont été entraînés.

Les libellés affichés en rouge sont peu performants. Ils peuvent avoir une précision moyenne très faible, ne pas avoir suffisamment d'exemples d'entraînement ou être très biaisés dans la manière dont ils ont été annotés. Ces libellés peuvent nécessiter beaucoup plus d'entraînement/de correction pour porter leurs performances à un niveau satisfaisant ou pour réduire considérablement le biais lié à la méthode d'entraînement.

Veuillez noter que les indicateurs de performance orange et rouge apparaîtront dans les barres de filtre des libellés dans Parcourir (Explore), Rapports (Reports) et Validation (Validation). Cela vous aide à vous informer rapidement sur les libellés qui ont besoin d'aide, et également sur les prédictions des libellés sur lesquelles vous ne devez pas vous fier (sans travailler pour les améliorer) lors de l'utilisation des fonctionnalités d'analyse.

Performances des étiquettes individuelles

Les utilisateurs peuvent sélectionner des libellés individuels à partir de la barre de filtre des libellés (ou en cliquant sur la représentation du libellé dans le graphique « Tous les libellés » [All labels]) afin de voir les statistiques de performances du libellé. La vue de l'étiquette spécifique affichera également les avertissements de performances et les prochaines meilleures suggestions d'actions recommandées pour améliorer ses performances.

La vue de l'étiquette affichera la précision moyenne de l'étiquette, ainsi que sa précision vs. seuil de rappel basé sur un niveau de confiance donné, que les utilisateurs peuvent ajuster pour voir comment cela change (voir la dernière section de cet article pour plus de détails).

Page de validation avec un libellé spécifique sélectionné

Amélioration globale du modèle et des performances des libellés individuels

Si votre modèle ou une étiquette spécifique comporte un avertissement de performances, la plate-forme recommande la prochaine action qui, selon elle, permettra de répondre à cet avertissement. Cela se fera via l'une des cartes de facteur (comme indiqué ci-dessous) ou lorsque vous sélectionnez une étiquette spécifique dans la taxonomie ou le graphique « Tous les libellés » (comme indiqué ci-dessus).

Exemple de carte de facteur affichant les actions recommandées

Pour certains libellés dont la précision moyenne est très faible, il n'est peut-être pas toujours facile de savoir pourquoi ils fonctionnent mal. Les raisons possibles pour lesquelles une étiquette peut avoir une précision moyenne faible et comment l'améliorer sont développées dans l'article suivant . La plateforme fournira toujours les meilleures actions correctives pour améliorer le libellé, classées par ordre de priorité.

Lorsque vous n'êtes pas sur la page Validation (Validation), les avertissements de performances rouge et orange apparaissent toujours dans le filtre de taxonomie dans Parcourir (Explore) et dans Rapports(Reports). Ils peuvent donc être un indicateur utile pour vérifier la validation afin de voir les actions correctives recommandées.

Les suggestions d' actions suivantes agissent comme des liens sur lesquels vous pouvez cliquer pour vous accéder directement à la vue d'entraînement suggérée par la plate-forme afin d'améliorer les performances de l'étiquette ou de réduire son biais. Les suggestions sont intelligemment classées avec l'action de priorité la plus élevée pour améliorer le libellé répertorié en premier.

Il s'agit de l' outil le plus important pour vous aider à comprendre les performances de votre modèle, et doivent régulièrement être utilisés comme guides lorsque vous essayez d'améliorer les performances d'un libellé.

L' article suivant couvre en détail les raisons pour lesquelles une étiquette peut avoir une précision moyenne faible (ici). Les articles suivants de cette section de la Base de connaissances couvrent également les autres modes d'entraînement que la plate-forme peut suggérer d'utiliser pour améliorer les performances de votre modèle, qui sont «Vérifier le libellé », «Libellé manquant » et «Rééquilibrer ».

Remarque : si vous avez sélectionné une ancienne version de modèle, les avertissements et les actions suggérées s'afficheront toujours, mais si vous survolez l'icône d'information avec votre souris, une fenêtre contextuelle vous avertira que ces statistiques spécifiques ne peuvent pas être modifiées alors est une version plus récente du modèle (sur laquelle vous pouvez travailler).

Comprendre le curseur de seuil de libellé

Remarque : l'ajustement du curseur du seuil de confiance n'a pas réellement d'impact sur le modèle, il vous donne simplement une représentation visuelle de la façon dont les prédictions seraient impactées pour cette étiquette si un certain seuil de confiance était sélectionné. Cela peut vous aider à sélectionner un seuil approprié pour les flux ou à utiliser des prédictions pour l'automatisation en aval.

Pour ajuster le seuil de confiance d'un libellé, les utilisateurs peuvent saisir un chiffre en % dans la zone ou simplement faire glisser le curseur sur l'échelle.

Annoter des statistiques de validation spécifiques

Notez que dans l'image ci-dessus, le seuil de confiance du libellé « Citation > Moteur » est défini à 68,7 %, ce qui donne une précision de 100 % et un rappel de 85 %.

Ensuite, dans l'image ci-dessous, le seuil de confiance a été ajusté à l'aide du curseur à 17 %, ce qui réduit la précision à 84 %, mais augmente le rappel à 100 %.

Graphiques de validation spécifiques aux libellés

Pour mieux comprendre la relation entre la précision et le rappel, voir ici, et pour mieux comprendre comment sélectionner les seuils à utiliser dans les automatisations, voir ici.

Sommaire de la page