- Introduction
- Configuration de votre compte
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux
- Libellés (prédictions, niveaux de confiance, hiérarchie des libellés et sentiment des libellés)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages annotés et non annotés
- Extraction des champs
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Contrôle et administration de l'accès
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer ou supprimer une source de données dans l'interface graphique
- Préparation des données en vue du téléchargement du fichier .CSV
- Téléchargement d’un fichier CSV dans une source
- Création d'un ensemble de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modification des paramètres du jeu de données
- Supprimer un message
- Supprimer un jeu de données
- Exporter un ensemble de données
- Utilisation d'intégrations Exchange
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie de libellés et meilleures pratiques
- Comparer les cas d’utilisation des analyses et des automatisations
- Transformer vos objectifs en libellés
- Présentation du processus d'entraînement du modèle
- Annotation générative
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Comprendre les exigences de données
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Affiner et réorganiser votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation
- Comprendre et améliorer les performances du modèle
- Raisons de la faible précision moyenne des libellés
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Vue d'ensemble (Overview)
- Configurer des champs
- Filtrage par type de champ d’extraction
- Génération de vos extractions
- Validation et annotation des extractions générées
- Meilleures pratiques et considérations
- Comprendre la validation des extractions et des performances d'extraction
- Questions fréquemment posées (FAQ)
- Utilisation des analyses et de la surveillance
- Automations et Communications Mining™
- Développeur
- Charger des données
- Téléchargement de données
- Intégration avec l'utilisateur du service Azure
- Intégration avec l'authentification d'application Azure
- Intégration d’Exchange avec l’authentification et le graphique d’application Azure
- Récupérer des données pour Tableau avec Python
- Intégration d'Elasticsearch
- Extraction de champ général
- Intégration avec Exchange auto-hébergée
- Infrastructure d’automatisation UiPath®
- Activités officielles UiPath®
- Comment les machines apprennent à comprendre les mots : guide d'intégration dans NLP
- Apprentissage basé sur des invites avec des Transformers
- Efficient Transformers II : Dilarisation des connaissances et affinement
- Transformateurs efficaces I : mécanismes d'attention
- Modélisation de l'intention hiérarchique profonde non supervisée : obtenir de la valeur sans données d'entraînement
- Correction des biais d’annotation avec Communications Mining™
- Apprentissage actif : de meilleurs modèles d'ML en moins de temps
- Tout est dans les chiffres : évaluer les performances du modèle avec des métriques
- Pourquoi la validation du modèle est importante
- Comparaison de Communications Mining™ et de Google AutoML pour l’information sur des données conversationnelles
- Licences
- FAQ et plus encore

Guide de l’utilisateur de Communications Mining
Lors de la création et de l'entraînement d'un modèle d'apprentissage automatique, la compréhension des performances est essentielle. En fonction des données d'entraînement et de la tâche, même le modèle le plus avancé peut produire des prédictions incorrectes, ce qui entraîne des analyses trompeurs ou des flux d'automatisation défectueux.
Il n'est pas pratique de parcourir manuellement des exemples pour vérifier les prédictions du modèle, surtout pour les ensembles de données avec des millions de points de données. Au lieu de cela, Communications Mining™ calcule et affiche plusieurs mesures en permanence afin de vous aider à analyser les modèles et à repérer les échecs.
Cependant, dans certaines conditions, les métriques peuvent se comporter de manière inattendue. Dans cet article de blog, nous examinons certains problèmes qui surviennent lors de l'utilisation des métriques, et certaines des solutions utilisées par Communications Mining pour simplifier le processus.
CommunicationsMining permet aux utilisateurs de créer des modèles d'apprentissage automatique personnalisés pour les données de communication. Pour comprendre comment nous utilisons les métriques au cours de ce processus, il est utile d'avoir une image d'un cas d'utilisation spécifique.
Prenons le cas d'une boîte aux lettres partagée pour une banque, qui peut recevoir des milliers d'e-mails chaque jour. Communications Mining est utilisé pour trier automatiquement ces e-mails afin d'aider les employés utilisant la boîte aux lettres à travailler plus efficacement.
Dans un cas d'utilisation réel, les experts en matière de boîte aux lettres créeraient des centaines de libellés pour suivre et automatiser divers workflows. Pour nos besoins, nous prendrons en compte un cas simplifié
-
E- mails urgents. Celles-ci doivent être détectées et marquées dans les clients de messagerie des employés.
-
E-mails générés automatiquement. Ceux-ci doivent être détectés et déplacés vers un dossier d'archivage pour garder la boîte de réception claire.
Urgent et Auto Generated pour ces tâches et annote quelques exemples d'e-mails. Communications Mining entraîne automatiquement un modèle ML qui prévoit quels libellés s'appliquent aux e-mails. Ce modèle est ensuite utilisé pour automatiser les tâches de tri des e-mails pour les données en direct.
Auniveau le plus bas, les métriques comparent les prédictions de libellé aux réponses correctes, sous la forme d'annotations de libellé Oui/Non (Yes/No) créées par les utilisateurs.
Les modèles dans Communications Mining™ ne fournissent pas de prédictions binaires (ou non) sur la présence du libellé. Au lieu de cela, ils renvoient un nombre compris entre 00 et 11. Cela représente la confiance du modèle concernant le fait qu’un libellé s’applique.
Les valeurs de confiance du modèle sont converties en prédictions de libellé binaires à l'aide d'un seuil. Il s'agit simplement d'un nombre entre 00 et 11 qui partitionne les valeurs de confiance pour un libellé.
-
Au-dessus du seuil, le libellé est censé s'appliquer (un exemple « positif »).
-
Au-dessous du seuil, l'étiquette n'est pas censée s'appliquer (un exemple « négatif »).
À l'aide d'annotations, de prédictions de labellisation et d'un seuil, nous pouvons diviser un ensemble d'exemples en quatre groupes distincts
-
Vrai positif (TP). Le modèle prévoit une étiquette et l'étiquette s'applique.
-
Faux positifs (FP). Le modèle prévoit une étiquette et l'étiquette ne s'applique pas.
-
Faux négatifs (FPN). Le modèle ne prévoit pas de libellé et le libellé s'applique.
-
Vrai négatif (TN). Le modèle ne prévoit pas de libellé et le libellé ne s'applique pas.
La modification du seuil d'un libellé affectera les e-mails appartenant à chacun de ces quatre groupes, qui servent de point de départ à de nombreuses mesures.
Précision
Nous serions tentés de regarder la précision de notre modèle.
Parmi toutes les prédictions du modèle, quelle fraction est correcte.
Cela semble raisonnable et la précision est souvent considérée comme l'indicateur de référence pour les performances de l'IA. Cependant, dans certains cas, la précision peut être trompeuse.
Urgent pour un e-mail, nous obtenons un score de précision de :
Urgent et Auto Generated.
Précision et rappel
Urgent dans 25 commentaires, notre modèle obtiendrait des valeurs de précision et de rappel de 00. Cela met en évidence les mauvaises performances de ce modèle.
Ces mesures fonctionnent mieux sur les libellés qui apparaissent avec des fréquences différentes, appelés flux de classe. Les sujets dans les données de communication apparaissent rarement à un même taux. Il est donc important que les mesures de Communications Mining™ le prennent en compte.
Pourun seuil donné, nous pouvons calculer les valeurs de précision et de rappel. Cependant, il existe en fait un compromis entre ces deux mesures
-
Haute précision. Nécessite quelques faux positifs. Cela signifie qu'un seuil élevé de sorte que seuls les exemples avec une confiance de modèle proche de 1 sont « positifs ».
-
Rappel élevé. Nécessite quelques faux négatifs. Cela signifie que le seuil est bas, donc seuls les exemples avec une confiance de modèle proche de 0 sont "négatifs".
Il est facile d'obtenir un bon score de précision ou de rappel (en définissant des seuils respectifs de 00 ou de 11). La définition d'un seuil représente un équilibre entre les deux, et le meilleur compromis dépend de l'utilisation de l'étiquette.
Équilibrage des coûts
Auto Generated doit avoir une haute précision (peu de faux positifs).
Urgent doit avoir un rappel élevé (peu de faux négatifs).
Le seuil optimal d'un libellé minimise le coût lorsque le modèle fait une erreur.
À titre d'argument, supposons que cela coûte à la banque 5 $ pour chaque e-mail urgent manquant (faux négatif) et 10 $ pour chaque e-mail marqué à tort comme généré automatiquement (faux positif). La banque rémunère également un employé 20 $ par heure pour supprimer les e-mails urgents et manquants générés automatiquement, à un taux de 100 par heure.
Pour une boîte aux lettres qui reçoit 1 000 e-mails par jour, les seuils peuvent être réglés pour minimiser le coût attendu par jour.
` La précisionet le rappel ont besoin d’un seuil pour chaque libellé. La définition de ces seuils est lente, en particulier pour les ensembles de données volumineux susceptibles d'avoir des centaines de libellés. Une mesure qui fonctionne sans seuil optimal est plus utile.
Modèles parfaits
Prenons un modèle fictif « parfait » qui prévoit correctement chaque étiquette. Il y aura un seuil où ce modèle a une précision et un rappel de 100 %.
Au-dessus de ce seuil, certains éléments positifs seront incorrectement identifiés comme des négatifs. Cela diminue la précision, mais maintient le rappel à 100 %. De même, si vous abaissez le seuil, les éléments négatifs seront marqués comme positifs. Cela réduit le rappel mais maintient la précision à 100 %.
Selon cette logique, la courbe de précision/rappel d'un modèle parfait est une boîte en forme de boîte avec le coin à la fin (100 %,100 %)(100 %,100 %). Tout modèle imparfait aura une courbe sous ce modèle parfait.
Cela signifie que l'amélioration d'un modèle équivaut à augmenter la zone sous la courbe de précision/rappel.
Précision moyenne
Si nous permettons aux utilisateurs de choisir des seuils et d’explorer le compromis de précision/rappel, la précision moyenne est la mesure globale que nous utilisons pour noter les modèles dans Communications Mining™. Il fonctionne bien dans la moyenne, en particulier dans les cas où les faux positifs et les faux négatifs ont des coûts similaires. Parce qu'il utilise la précision et le rappel, il est robuste pour les flux de classe, mais les utilisateurs n'ont pas besoin de définir un seuil pour le calculer.
Nous signalons cette mesure de deux manières sur la page Validation
-
Précision moyenne. Les performances d'un libellé individuel, signalées pour chaque libellé.
-
Précision moyenne. Précision moyenne de chaque libellé, moyenne sur tous les libellés. Cela mesure les performances de tous les libellés dans l'ensemble de données.
Nousutilisons des métriques pour estimer les performances du modèle, mais cette estimation n'est aussi correcte que les données que nous utilisons pour la calculer. Même si nous évaluons les modèles sur un ensemble de tests distinct de celui sur lequel il a été formé, cet ensemble de tests est toujours extrait des exemples annotés par les utilisateurs. Si ces données ne sont pas représentatives de la tâche cible, notre métrique peut être trompeur.
Pour l'exemple bancaire, imaginons que nous annotions uniquement les e-mails urgents envoyés le lundi et les e-mails générés automatiquement envoyés le vendredi. Un modèle entraîné sur ces exemples pouvait parfaitement prédire les libellés dès le jour où l'e-mail était envoyé.
La précision moyenne du modèle serait élevée, car elle a identifié un modèle qui fonctionne toujours sur les données annotées par l’utilisateur. Cependant, des e-mails urgents et générés automatiquement peuvent être envoyés n'importe quel jour. Sur les e-mails en direct, le modèle ne fonctionnait pas et le modèle fonctionnait mal.
C’est pourquoi, lorsque nous évaluons des modèles dans Communications Mining™, nous ne renvoyons pas seulement les valeurs de précision, de rappel et de précision moyenne. À la place, nous calculons une évaluation de modèle.
Les évaluations des modèles prennent en compte de nombreux facteurs de performances différents, pas seulement la précision moyenne. Cette vue holistique évite les écueils de l'utilisation d'une seule métrique, tout en fournissant des commentaires clairs sur le modèle. Dans un prochain article, nous explorerons les notes de modèle plus en détail et comment elles ont été utilisées pour créer de meilleurs modèles en moins de temps.
-
La précisionet le rappel mesurent avec précision les performances des libellés avec des fréquences différentes.
-
La précision moyenne mesure les performances du modèle sans nécessiter de seuil.
-
Aucune mesure unique ne donne une image complète. Même la précision et le rappel présentent des points faibles lorsque les données d'entraînement sont mauvaises ou mal collectées.