communications-mining

latest

false

Important :

Ce contenu a été traduit à l'aide d'une traduction automatique.

Guide du développeur Communications Mining

Last updated 19 nov. 2024

Tout est dans les chiffres : évaluer les performances du modèle avec des métriques

Lors de la création et de l'entraînement d'un modèle d'apprentissage automatique, la compréhension des performances est essentielle. En fonction des données d'entraînement et de la tâche, même le modèle le plus avancé peut produire des prédictions incorrectes, ce qui entraîne des analyses trompeurs ou des flux d'automatisation défectueux.

Il n'est pas pratique de parcourir manuellement des exemples pour vérifier les prédictions du modèle, en particulier pour les ensembles de données comportant des millions de points de données. Au lieu de cela, Communications Mining calcule et affiche en continu plusieurs métriques pour aider à analyser les modèles et repérer les échecs.

Cependant, dans certaines conditions, les métriques peuvent se comporter de manière inattendue. Dans cet article de blog, nous examinons certains problèmes qui surviennent lors de l'utilisation des métriques, et certaines des solutions utilisées par Communications Mining pour simplifier le processus.

Communications Mining en action

CommunicationsMining permet aux utilisateurs de créer des modèles d'apprentissage automatique personnalisés pour les données de communication. Pour comprendre comment nous utilisons les métriques au cours de ce processus, il est utile d'avoir une image d'un cas d'utilisation spécifique.

Prenons le cas d'une boîte aux lettres partagée pour une banque, qui peut recevoir des milliers d'e-mails chaque jour. Communications Mining est utilisé pour trier automatiquement ces e-mails afin d'aider les employés utilisant la boîte aux lettres à travailler plus efficacement.

Dans un cas d'utilisation réel, les experts en matière de boîte aux lettres créeraient des centaines de libellés pour suivre et automatiser divers workflows. Pour nos besoins, nous prendrons en compte un cas simplifié

E- mails urgents. Celles-ci doivent être détectées et marquées dans les clients de messagerie des employés.
E-mails générés automatiquement. Ceux-ci doivent être détectés et déplacés vers un dossier d'archivage pour garder la boîte de réception claire.

L'utilisateur crée des libellés Urgent et Auto Generated pour ces tâches et annote quelques exemples d'e-mails. Communications Mining entraîne automatiquement un modèle ML qui prévoit quels libellés s'appliquent aux e-mails. Ce modèle est ensuite utilisé pour automatiser les tâches de tri des e-mails pour les données en direct.

Dans ce contexte, nous voulons une métrique qui indique la capacité du modèle à reconnaître ces deux libellés.

Les e-mails avec le libellé Généré automatiquement ne contiennent aucune information utile et seront supprimés de la boîte aux lettres pour améliorer l’efficacité docs image

Les e-mails avec le libellé Urgent sont réaffichés pour les utilisateurs et hiérarchisés pour une réponse rapide docs image

Comparer les prédictions

Auniveau le plus bas, les métriques comparent les prédictions de libellé aux réponses correctes, sous la forme d'annotations de libellé Oui/Non (Yes/No) créées par les utilisateurs.

Remarque : Confiance du MODÈLE

Les modèles de Communications Mining ne fournissent pas de prédictions binaires (oui/non) sur la présence du libellé. Au lieu de cela, elles renvoient un nombre compris entre 00 et 11. Cela représente la confiance du modèle selon laquelle une étiquette s'applique.

Les valeurs de confiance du modèle sont converties en prédictions de libellé binaires à l'aide d'un seuil. Il s'agit simplement d'un nombre entre 00 et 11 qui partitionne les valeurs de confiance pour un libellé.

Au-dessus du seuil, le libellé est censé s'appliquer (un exemple « positif »).
Au-dessous du seuil, l'étiquette n'est pas censée s'appliquer (un exemple « négatif »).

À l'aide d'annotations, de prédictions de labellisation et d'un seuil, nous pouvons diviser un ensemble d'exemples en quatre groupes distincts

Vrai positif (TP). Le modèle prévoit une étiquette et l'étiquette s'applique.
Faux positifs (FP). Le modèle prévoit une étiquette et l'étiquette ne s'applique pas.
Faux négatifs (FPN). Le modèle ne prévoit pas de libellé et le libellé s'applique.
Vrai négatif (TN). Le modèle ne prévoit pas de libellé et le libellé ne s'applique pas.

La modification du seuil d'un libellé affectera les e-mails appartenant à chacun de ces quatre groupes, qui servent de point de départ à de nombreuses mesures.

Précision

Nous serions tentés de regarder la précision de notre modèle.

Parmi toutes les prédictions du modèle, quelle fraction est correcte.

Cela semble raisonnable et la précision est souvent considérée comme l'indicateur de référence pour les performances de l'IA. Cependant, dans certains cas, la précision peut être trompeuse.

Les e-mails urgents peuvent être rares dans la boîte aux lettres, avec seulement 1 e-mail sur 25 appartenant à cette classe. Pour un mauvais modèle qui ne prévoit jamais le libellé Urgent pour un e-mail, nous obtenons un score de précision de :

Ce score est élevé, mais notre modèle fonctionne mal. La précision peut surestimer les performances sur les tâches avec des libellés rares tels que Urgent et Auto Generated.

Précision et rappel

Au lieu de la précision, nous pouvons utiliser deux valeurs connues sous le nom de précision et de rappel pour donner une meilleure mesure des performances du modèle.

Parmi les commentaires que le modèle prévoit comme ayant le libellé, quelle fraction possède réellement ce libellé.

Parmi les commentaires qui ont réellement le libellé, quelle fraction le modèle prévoit comme ayant le libellé.

En utilisant le même exemple de 1 étiquette Urgent dans 25 commentaires, notre modèle obtiendrait des valeurs de précision et de rappel de 00. Cela met en évidence les mauvaises performances de ce modèle.

Ces mesures sont plus efficaces sur les libellés qui se produisent avec des fréquences différentes, ce qu'on appelle le basculement de classe. Les sujets dans les données de communication apparaissent rarement aux mêmes taux. Il est donc important que les métriques de Communications Mining prennent en compte cela.

Précision, rappel et exactitude pour un ensemble de prédictions de modèle lorsque le seuil est variable docs image

Différents libellés, différents objectifs

Pourun seuil donné, nous pouvons calculer les valeurs de précision et de rappel. Cependant, il existe en fait un compromis entre ces deux mesures

Haute précision. Nécessite quelques faux positifs. Cela signifie qu'un seuil élevé de sorte que seuls les exemples avec une confiance de modèle proche de 1 sont « positifs ».
Rappel élevé. Nécessite quelques faux négatifs. Cela signifie que le seuil est bas, donc seuls les exemples avec une confiance de modèle proche de 0 sont "négatifs".

Il est facile d'obtenir un bon score de précision ou de rappel (en définissant des seuils respectifs de 00 ou de 11). La définition d'un seuil représente un équilibre entre les deux, et le meilleur compromis dépend de l'utilisation de l'étiquette.

Équilibrage des coûts

Pour l'exemple bancaire, il est bien plus mauvais de traiter un e-mail avec un contenu utile comme généré automatiquement et de l'archiver de manière incorrecte que de laisser quelques e-mails générés automatiquement dans la boîte aux lettres. Cela signifie que le libellé Auto Generated doit avoir une haute précision (peu de faux positifs).

D'autre part, le modèle ne devrait pas manquer les e-mails urgents, mais il est acceptable que certains e-mails non urgents aient ce libellé. Cela signifie que le libellé Urgent doit avoir un rappel élevé (peu de faux négatifs).

Le seuil optimal d'un libellé minimise le coût lorsque le modèle fait une erreur.

À titre d'argument, supposons que cela coûte à la banque 5 $ pour chaque e-mail urgent manquant (faux négatif) et 10 $ pour chaque e-mail marqué à tort comme généré automatiquement (faux positif). La banque rémunère également un employé 20 $ par heure pour supprimer les e-mails urgents et manquants générés automatiquement, à un taux de 100 par heure.

Pour une boîte aux lettres qui reçoit 1 000 e-mails par jour, les seuils peuvent être réglés pour minimiser le coût attendu par jour.

Coût quotidien attendu pour les e-mails générés automatiquement et Urgents, car le seuil est différent docs image

Évaluation sans seuils

La précisionet le rappel nécessitent un seuil pour chaque libellé. La définition de ces seuils est lente, en particulier pour les ensembles de données volumineux qui peuvent comporter des centaines de libellés. Une métrique qui fonctionne sans seuil optimal est plus utile.

Pour ce faire, nous calculons la précision et le rappel pour une plage de seuils. Ces valeurs sont ensuite tracées sous la forme d’une courbe de précision/rappel, que nous utilisons pour vérifier les performances du modèle.

Métriques du libellé Urgent. Le modèle a une précision de 90 % et un rappel de 92 % à un seuil de 19,6 %. La courbe de précision/rappel de ce libellé est affichée à gauche docs image

Modèles parfaits

Prenons un modèle fictif « parfait » qui prévoit correctement chaque étiquette. Il y aura un seuil où ce modèle a une précision et un rappel de 100 %.

Au-dessus de ce seuil, certains éléments positifs seront incorrectement identifiés comme des négatifs. Cela diminue la précision, mais maintient le rappel à 100 %. De même, si vous abaissez le seuil, les éléments négatifs seront marqués comme positifs. Cela réduit le rappel mais maintient la précision à 100 %.

Selon cette logique, la courbe de précision/rappel d'un modèle parfait est une boîte en forme de boîte avec le coin à la fin (100 %,100 %)(100 %,100 %). Tout modèle imparfait aura une courbe sous ce modèle parfait.

Cela signifie que l'amélioration d'un modèle équivaut à augmenter la zone sous la courbe de précision/rappel.

Précision moyenne

Cela nous mène à notre dernière mesure : Précision moyenne (Average Average).

Figure 1.. Zone sous la courbe de précision/rappel docs image

Plus cette valeur est proche de 100 %, meilleur est le modèle.

Bien que nous laissions les utilisateurs choisir des seuils et explorer le compromis précision/rappel, la précision moyenne est la métrique principale que nous utilisons pour marquer les modèles dans Communications Mining. Cela fonctionne bien en moyenne, surtout dans les cas où les faux positifs et les faux négatifs ont des coûts similaires. Puisqu'il utilise la précision et le rappel, il est robuste pour classer les Déséquilibres, mais les utilisateurs n'ont pas besoin de définir de seuil pour le calculer.

Nous signalons cette mesure de deux manières sur la page Validation

Précision moyenne. Les performances d'un libellé individuel, signalées pour chaque libellé.
Précision moyenne. Précision moyenne de chaque libellé, moyenne sur tous les libellés. Cela mesure les performances de tous les libellés dans l'ensemble de données.

La précision et le rappel ne font pas tout

Nousutilisons des métriques pour estimer les performances du modèle, mais cette estimation n'est aussi correcte que les données que nous utilisons pour la calculer. Même si nous évaluons les modèles sur un ensemble de tests distinct de celui sur lequel il a été formé, cet ensemble de tests est toujours extrait des exemples annotés par les utilisateurs. Si ces données ne sont pas représentatives de la tâche cible, notre métrique peut être trompeur.

Pour l'exemple bancaire, imaginons que nous annotions uniquement les e-mails urgents envoyés le lundi et les e-mails générés automatiquement envoyés le vendredi. Un modèle entraîné sur ces exemples pouvait parfaitement prédire les libellés dès le jour où l'e-mail était envoyé.

La précision moyenne du modèle serait élevée, car elle a identifié un modèle qui fonctionne toujours sur les données annotées par l’utilisateur. Cependant, des e-mails urgents et générés automatiquement peuvent être envoyés n'importe quel jour. Sur les e-mails en direct, le modèle ne fonctionnait pas et le modèle fonctionnait mal.

C'est pourquoi, lorsque nous évaluons les modèles dans Communications Mining, nous ne renvoyons pas seulement les valeurs de précision, de rappel et de précision moyenne. À la place, nous calculons une note de modèle.

Les évaluations des modèles prennent en compte de nombreux facteurs de performances différents, pas seulement la précision moyenne. Cette vue holistique évite les écueils de l'utilisation d'une seule métrique, tout en fournissant des commentaires clairs sur le modèle. Dans un prochain article, nous explorerons les notes de modèle plus en détail et comment elles ont été utilisées pour créer de meilleurs modèles en moins de temps.

Résumé

La précisionet le rappel mesurent avec précision les performances des libellés avec des fréquences différentes.
La précision moyenne mesure les performances du modèle sans nécessiter de seuil.
Aucune mesure unique ne donne une image complète. Même la précision et le rappel présentent des points faibles lorsque les données d'entraînement sont mauvaises ou mal collectées.