- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux (anciennement entités)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Supprimer une source
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Préparation des données en vue du téléchargement du fichier .CSV
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Comprendre le statut de votre jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Utilisation des analyses et de la surveillance
- Automatisations et Communications Mining
- Informations de licence
- FAQ et plus encore
Comprendre et augmenter la couverture
Autorisations utilisateur requises : « Afficher les sources » ET « Réviser et annoter ».
La couverture est un terme fréquemment utilisé dans l'apprentissage automatique et se rapporte à la façon dont un modèle « couvre » les données qu'il utilise pour analyser. Dans la plate-forme, cela est lié à la proportion de messages de l'ensemble de données qui ont des prédictions de libellé informatives, et est présenté dans Validation sous la forme d'un score en pourcentage.
Les «libellés d'information » sont ces libellés que la plate-forme comprend comme étant utiles en tant que libellés autonomes, en examinant la fréquence à laquelle ils sont attribués avec d'autres libellés. Les libellés qui sont toujours attribués à un autre libellé, par exemple les libellés parents qui ne sont jamais attribués eux-mêmes, ou « Urgent » s'ils sont toujours attribués avec un autre libellé, sont sous-pondérés lorsque le score est calculé.
Le visuel ci-dessous indique à quoi ressemblerait une faible couverture par rapport à une couverture élevée sur un ensemble de données complet. Imaginez que les cercles ombres sont des messages qui ont des prédictions de libellé informatives.
En tant que métrique, la couverture est un moyen très utile de comprendre si vous avez capturé tous les différents concepts potentiels dans votre ensemble de données, et si vous leur avez fourni suffisamment d'exemples d'entraînement divers pour que la plateforme puisse les prédire efficacement.
Dans presque tous les cas, plus la couverture d'un modèle est élevée, plus il fonctionne, mais il ne doit pas être considéré comme isolé lors de la vérification des performances du modèle.
Il est également très important que les libellés de la taxonomie soient sains, ce qui signifie qu'ils ont une précision moyenne élevée et sans aucun autre avertissement de performances, et que les données d'entraînement sont une représentation équilibrée de l'ensemble de données dans son ensemble.
Si vos libellés ne sont pas sains ou que les données d'entraînement ne sont pas représentatives de l'ensemble de données, la couverture de votre modèle que la plateforme calcule ne sera pas fiable.
Votre modèle ayant une couverture élevée est particulièrement important si vous l'utilisez pour générer des processus automatisés.
Voyons donc comment cela s'applique dans un cas d'utilisation typique : acheminer automatiquement différentes requêtes reçues par une boîte de réception e-mail partagée dans une entreprise.
Pour un modèle conçu pour aider à acheminer automatiquement différentes requêtes, une faible couverture signifie que de nombreuses requêtes étaient acheminées de manière inexacte ou envoyées pour une révision manuelle, car le modèle ne pouvait pas les identifier.
S'il y a 10 processus clés gérés par l'équipe travaillant dans la boîte aux lettres, mais que la taxonomie ne capture efficacement que 7 d'entre eux, cela conduira probablement à un mauvais score de couverture. Sinon , le modèle peut prédire de manière incorrecte les processus restants en tant qu'autres processus, car ils ne lui ont pas été appris ce qu'ils sont réellement. Cela conduirait à un score de couverture artificiellement élevé.
Au cours de l'automatisation, les trois processus restants seraient probablement oubliés, envoyés pour une révision manuelle ou classés à tort comme un processus différent et routés au mauvais endroit.
Il est également important que pour chacun des processus, il y ait suffisamment d'exemples d'entraînement variés qui capturent les différentes expressions utilisées lors de la présentation du processus. Si ce n'est pas le cas, chaque étiquette aura un rappel inférieur et la couverture du modèle sera faible.
Le visuel ci-dessous montre à quoi cet exemple pourrait ressembler dans la pratique : plusieurs clients envoient plusieurs types de requêtes par e-mail. Chaque client peut écrire le même type de requête d'une manière différente :
Il y a trois scénarios de modèle différents affichés, chacun avec un impact potentiel différent sur la couverture :
Tous les types de demandes ne sont pas compatibles (c'est-à-dire concepts) couverts par la taxonomie - Est susceptible d'avoir une faible couverture | |
Tous les types de demande sont couverts, mais certains libellés sont défectueux et peuvent ne pas comporter suffisamment d'exemples. La couverture peut être faible et est susceptible d'être peu fiable. | |
Tous les types de demandes sont couverts et les libellés sont tous sains : une couverture élevée susceptible d'être fiable |
Dans Validation, la fonctionnalité Note de modèle fournit une répartition détaillée des performances du modèle selon les facteurs contributifs les plus importants, y compris la couverture.
Les utilisateurs reçoivent un score en pourcentage de la proportion de messages qui devraient avoir des prédictions de libellé informatif ( voir l'explication ci-dessus), qui est ensuite corrélée à une note et une contribution à la note globale du modèle.
La plateforme a également fourni la proportion de messages qui ont au moins un libellé prédit, mais ce n'est pas ce qui détermine le score et la note de ce facteur.
Dans l'exemple ci-dessous, nous pouvons voir que :
- La couverture de ce modèle est de 85,2 %
- Cela se traduit par une évaluation «Bon » pour ce facteur
- Cela se traduit également par une contribution positive à la note globale du modèle de +3
Il est important de se souvenir que la couverture, en tant que mesure de performance, doit toujours être comprise conjointement avec la santé des libellés dans la taxonomie et l'équilibre du jeu de données. Avant de considérer que le score de couverture fourni par la plate-forme est fiable, vous devez également vous assurer que vous avez au moins une note «Bon » pour les autres facteurs qui contribuent à la notation du modèle.
Au minimum, votre couverture doit être suffisamment élevée pour que la plate-forme fournit une note « Bon ». S’il atteint ce stade, votre modèle fonctionne bien, et vous pouvez choisir de l’ optimiser davantage en fonction des exigences de votre cas d’utilisation.
Tout comme les humains, les modèles d'apprentissage automatique ont leurs limites, vous ne devez donc pas vous attendre à une couverture de 100 %. Vous pouvez vous en approcher, mais uniquement si vos données sont extrêmement simples et répétitives, ou si vous annotez une proportion très élevée de l'ensemble de données.
L'obtention d'une note «Excellent » peut potentiellement être difficile selon les données, et n'est pas toujours nécessaire selon le cas d'utilisation.
Pour les cas d'utilisation axés sur l'automatisation , avoir une couverture élevée est particulièrement important; il est donc probable que dans ces cas, vous souhaiterez optimiser la couverture autant que possible et obtenir la note «Excellent ».
Pour les cas d'utilisation axés sur l' analyse , avoir une couverture très élevée est légèrement moins essentiel. Il est souvent suffisant pour que les modèles puissent identifier les concepts les plus courants, car ceux-ci fournissent les meilleures informations et les opportunités potentielles de changement et d'amélioration.
Il convient de noter qu'un modèle axé sur l'analyse abandonne généralement une certaine précision afin de capturer globalement un très large éventail de concepts dans sa taxonomie.
Comme pour les autres facteurs contributeurs, la plate-forme fournit les « prochaines meilleures actions » recommandées par les utilisateurs pour améliorer la couverture de votre modèle (voir les images ci-dessus et ci-dessous).
Les actions recommandées agissent comme des liens qui vous dirigent directement vers le mode d'entraînement suggéré.
Dans le cas de la couverture, la plate-forme recommande le plus souvent l'entraînement en mode «Low Confidence », car ce mode permet aux utilisateurs d' annoter le moins « ouvert » de tous les messages de l'ensemble de données. Pour plus de détails sur l'utilisation de ce mode d'entraînement, voir ici.
Après avoir effectué une quantité raisonnable d'entraînement dans le mode d'entraînement recommandé (la quantité dépendra du niveau de couverture au départ), les utilisateurs peuvent revérifier pour voir comment il s'est amélioré une fois que le modèle a été réentraîné et que Validation a été mise à jour. Si nécessaire, ils peuvent répéter le processus pour continuer à améliorer leurs scores.
Lorsque la couverture est très faible, généralement au début du processus d'entraînement, la plate-forme peut également recommander d'autres modes d'entraînement qui, selon elle, seraient utiles, tels que l' annotation des clusters de messages similaires dans Découvrir (Discover) (comme illustré dans l'exemple ci-dessous).
La plate-forme est capable d'identifier intelligemment les libellés d'une taxonomie qui sont « informatifs » lors de l'évaluation de la couverture d'un modèle, et la présente dans l'évaluation du modèle (Model Assessment) (comme indiqué ci-dessus).
Si, toutefois, vous souhaitez évaluer la proportion d'un ensemble de données susceptible d'être couverts par des prédictions pour un ensemble spécifique de libellés dans votre taxonomie, vous pouvez le faire sur la page Rapports .
Pour ce faire, vous pouvez sélectionner tous les libellés en question dans la barre de filtre des libellés de Rapports (comme indiqué ci-dessous).
Le nombre de messages en haut de la page dans les mises à jour des rapports en fonction des filtres appliqués. Lorsque vous sélectionnez des libellés dans le filtre de libellés, le nombre est mis à jour pour afficher le nombre de messages susceptibles d'avoir au moins un des libellés sélectionnés prédit.
Dans cet exemple d'ensemble de données d'e-mails se rapportant uniquement à un processus d'appel de marge dans une banque (qui contient 260 000 e-mails), vous pouvez voir qu'il est probable que 237 551 messages sur les 260 000 aient au moins un des libellés sélectionnés prédit. Indiquer une bonne couverture d'environ 91,4 %.
Cela ne devrait pas être votre seul contrôle pour tester la couverture globale de votre modèle. La mesure la plus fiable de la couverture pour l’ensemble de données est présentée dans la notation du modèle (comme expliqué ci-dessus) et doit être prise en compte conjointement avec les performances globales des libellés dans la taxonomie.