- Documents d’API
- CLI
- Guides d'intégration
- Blog
- Comment les machines apprennent à comprendre les mots : guide d'intégration dans NLP
- Apprentissage basé sur des invites avec des Transformers
- Efficient Transformers II : Dilarisation des connaissances et affinement
- Transformateurs efficaces I : mécanismes d'attention
- Modélisation de l'intention hiérarchique profonde non supervisée : obtenir de la valeur sans données d'entraînement
- Correction du biais d'annotation avec Communications Mining
- Apprentissage actif : de meilleurs modèles d'ML en moins de temps
- Tout est dans les chiffres : évaluer les performances du modèle avec des métriques
- Pourquoi la validation du modèle est importante
- Comparaison de Communications Mining et de Google AutoML pour l'intelligence des données conversationnelles
Tout est dans les chiffres : évaluer les performances du modèle avec des métriques
Lors de la création et de l'entraînement d'un modèle d'apprentissage automatique, la compréhension des performances est essentielle. En fonction des données d'entraînement et de la tâche, même le modèle le plus avancé peut produire des prédictions incorrectes, ce qui entraîne des analyses trompeurs ou des flux d'automatisation défectueux.
Il n'est pas pratique de parcourir manuellement des exemples pour vérifier les prédictions du modèle, en particulier pour les ensembles de données comportant des millions de points de données. Au lieu de cela, Communications Mining calcule et affiche en continu plusieurs métriques pour aider à analyser les modèles et repérer les échecs.
Cependant, dans certaines conditions, les métriques peuvent se comporter de manière inattendue. Dans cet article de blog, nous examinons certains problèmes qui surviennent lors de l'utilisation des métriques, et certaines des solutions utilisées par Communications Mining pour simplifier le processus.
CommunicationsMining permet aux utilisateurs de créer des modèles d'apprentissage automatique personnalisés pour les données de communication. Pour comprendre comment nous utilisons les métriques au cours de ce processus, il est utile d'avoir une image d'un cas d'utilisation spécifique.
Prenons le cas d'une boîte aux lettres partagée pour une banque, qui peut recevoir des milliers d'e-mails chaque jour. Communications Mining est utilisé pour trier automatiquement ces e-mails afin d'aider les employés utilisant la boîte aux lettres à travailler plus efficacement.
Dans un cas d'utilisation réel, les experts en matière de boîte aux lettres créeraient des centaines de libellés pour suivre et automatiser divers workflows. Pour nos besoins, nous prendrons en compte un cas simplifié
-
E- mails urgents. Celles-ci doivent être détectées et marquées dans les clients de messagerie des employés.
-
E-mails générés automatiquement. Ceux-ci doivent être détectés et déplacés vers un dossier d'archivage pour garder la boîte de réception claire.
Urgent
et Auto Generated
pour ces tâches et annote quelques exemples d'e-mails. Communications Mining entraîne automatiquement un modèle ML qui prévoit quels libellés s'appliquent aux e-mails. Ce modèle est ensuite utilisé pour automatiser les tâches de tri des e-mails pour les données en direct.
Auniveau le plus bas, les métriques comparent les prédictions de libellé aux réponses correctes, sous la forme d'annotations de libellé Oui/Non (Yes/No) créées par les utilisateurs.
Les modèles de Communications Mining ne fournissent pas de prédictions binaires (oui/non) sur la présence du libellé. Au lieu de cela, elles renvoient un nombre compris entre 00 et 11. Cela représente la confiance du modèle selon laquelle une étiquette s'applique.
Les valeurs de confiance du modèle sont converties en prédictions de libellé binaires à l'aide d'un seuil. Il s'agit simplement d'un nombre entre 00 et 11 qui partitionne les valeurs de confiance pour un libellé.
-
Au-dessus du seuil, le libellé est censé s'appliquer (un exemple « positif »).
-
Au-dessous du seuil, l'étiquette n'est pas censée s'appliquer (un exemple « négatif »).
À l'aide d'annotations, de prédictions de labellisation et d'un seuil, nous pouvons diviser un ensemble d'exemples en quatre groupes distincts
-
Vrai positif (TP). Le modèle prévoit une étiquette et l'étiquette s'applique.
-
Faux positifs (FP). Le modèle prévoit une étiquette et l'étiquette ne s'applique pas.
-
Faux négatifs (FPN). Le modèle ne prévoit pas de libellé et le libellé s'applique.
-
Vrai négatif (TN). Le modèle ne prévoit pas de libellé et le libellé ne s'applique pas.
La modification du seuil d'un libellé affectera les e-mails appartenant à chacun de ces quatre groupes, qui servent de point de départ à de nombreuses mesures.
Précision
Nous serions tentés de regarder la précision de notre modèle.
Parmi toutes les prédictions du modèle, quelle fraction est correcte.
Cela semble raisonnable et la précision est souvent considérée comme l'indicateur de référence pour les performances de l'IA. Cependant, dans certains cas, la précision peut être trompeuse.
Urgent
pour un e-mail, nous obtenons un score de précision de :
Ce score est élevé, mais notre modèle fonctionne mal. La précision peut surestimer les performances sur les tâches avec des libellés rares tels que Urgent
et Auto Generated
.
Précision et rappel
Urgent
dans 25 commentaires, notre modèle obtiendrait des valeurs de précision et de rappel de 00. Cela met en évidence les mauvaises performances de ce modèle.
Ces mesures sont plus efficaces sur les libellés qui se produisent avec des fréquences différentes, ce qu'on appelle le basculement de classe. Les sujets dans les données de communication apparaissent rarement aux mêmes taux. Il est donc important que les métriques de Communications Mining prennent en compte cela.
Pourun seuil donné, nous pouvons calculer les valeurs de précision et de rappel. Cependant, il existe en fait un compromis entre ces deux mesures
-
Haute précision. Nécessite quelques faux positifs. Cela signifie qu'un seuil élevé de sorte que seuls les exemples avec une confiance de modèle proche de 1 sont « positifs ».
-
Rappel élevé. Nécessite quelques faux négatifs. Cela signifie que le seuil est bas, donc seuls les exemples avec une confiance de modèle proche de 0 sont "négatifs".
Il est facile d'obtenir un bon score de précision ou de rappel (en définissant des seuils respectifs de 00 ou de 11). La définition d'un seuil représente un équilibre entre les deux, et le meilleur compromis dépend de l'utilisation de l'étiquette.
Équilibrage des coûts
Auto Generated
doit avoir une haute précision (peu de faux positifs).
Urgent
doit avoir un rappel élevé (peu de faux négatifs).
Le seuil optimal d'un libellé minimise le coût lorsque le modèle fait une erreur.
À titre d'argument, supposons que cela coûte à la banque 5 $ pour chaque e-mail urgent manquant (faux négatif) et 10 $ pour chaque e-mail marqué à tort comme généré automatiquement (faux positif). La banque rémunère également un employé 20 $ par heure pour supprimer les e-mails urgents et manquants générés automatiquement, à un taux de 100 par heure.
Pour une boîte aux lettres qui reçoit 1 000 e-mails par jour, les seuils peuvent être réglés pour minimiser le coût attendu par jour.
La précisionet le rappel nécessitent un seuil pour chaque libellé. La définition de ces seuils est lente, en particulier pour les ensembles de données volumineux qui peuvent comporter des centaines de libellés. Une métrique qui fonctionne sans seuil optimal est plus utile.
Modèles parfaits
Prenons un modèle fictif « parfait » qui prévoit correctement chaque étiquette. Il y aura un seuil où ce modèle a une précision et un rappel de 100 %.
Au-dessus de ce seuil, certains éléments positifs seront incorrectement identifiés comme des négatifs. Cela diminue la précision, mais maintient le rappel à 100 %. De même, si vous abaissez le seuil, les éléments négatifs seront marqués comme positifs. Cela réduit le rappel mais maintient la précision à 100 %.
Selon cette logique, la courbe de précision/rappel d'un modèle parfait est une boîte en forme de boîte avec le coin à la fin (100 %,100 %)(100 %,100 %). Tout modèle imparfait aura une courbe sous ce modèle parfait.
Cela signifie que l'amélioration d'un modèle équivaut à augmenter la zone sous la courbe de précision/rappel.
Précision moyenne
Bien que nous laissions les utilisateurs choisir des seuils et explorer le compromis précision/rappel, la précision moyenne est la métrique principale que nous utilisons pour marquer les modèles dans Communications Mining. Cela fonctionne bien en moyenne, surtout dans les cas où les faux positifs et les faux négatifs ont des coûts similaires. Puisqu'il utilise la précision et le rappel, il est robuste pour classer les Déséquilibres, mais les utilisateurs n'ont pas besoin de définir de seuil pour le calculer.
Nous signalons cette mesure de deux manières sur la page Validation
-
Précision moyenne. Les performances d'un libellé individuel, signalées pour chaque libellé.
-
Précision moyenne. Précision moyenne de chaque libellé, moyenne sur tous les libellés. Cela mesure les performances de tous les libellés dans l'ensemble de données.
Nousutilisons des métriques pour estimer les performances du modèle, mais cette estimation n'est aussi correcte que les données que nous utilisons pour la calculer. Même si nous évaluons les modèles sur un ensemble de tests distinct de celui sur lequel il a été formé, cet ensemble de tests est toujours extrait des exemples annotés par les utilisateurs. Si ces données ne sont pas représentatives de la tâche cible, notre métrique peut être trompeur.
Pour l'exemple bancaire, imaginons que nous annotions uniquement les e-mails urgents envoyés le lundi et les e-mails générés automatiquement envoyés le vendredi. Un modèle entraîné sur ces exemples pouvait parfaitement prédire les libellés dès le jour où l'e-mail était envoyé.
La précision moyenne du modèle serait élevée, car elle a identifié un modèle qui fonctionne toujours sur les données annotées par l’utilisateur. Cependant, des e-mails urgents et générés automatiquement peuvent être envoyés n'importe quel jour. Sur les e-mails en direct, le modèle ne fonctionnait pas et le modèle fonctionnait mal.
C'est pourquoi, lorsque nous évaluons les modèles dans Communications Mining, nous ne renvoyons pas seulement les valeurs de précision, de rappel et de précision moyenne. À la place, nous calculons une note de modèle.
Les évaluations des modèles prennent en compte de nombreux facteurs de performances différents, pas seulement la précision moyenne. Cette vue holistique évite les écueils de l'utilisation d'une seule métrique, tout en fournissant des commentaires clairs sur le modèle. Dans un prochain article, nous explorerons les notes de modèle plus en détail et comment elles ont été utilisées pour créer de meilleurs modèles en moins de temps.
-
La précisionet le rappel mesurent avec précision les performances des libellés avec des fréquences différentes.
-
La précision moyenne mesure les performances du modèle sans nécessiter de seuil.
-
Aucune mesure unique ne donne une image complète. Même la précision et le rappel présentent des points faibles lorsque les données d'entraînement sont mauvaises ou mal collectées.