- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Entités (Entities)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Préparation des données en vue du téléchargement .CSV
- Entraînement et maintenance du modèle
- Comprendre les libellés, les entités et les métadonnées
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Comprendre le statut de votre jeu de données
- Meilleures pratiques d'entraînement et de labellisation des modèles
- Entraînement avec l'analyse des sentiments des libellés activée
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de « Mélanger »
- Entraînement à l'aide d'« Ensemble des libellés » (Explore)
- Entraînement à l'aide de l'option 'Faible confiance'
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à 'Raffiner'
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide de « Vérifier le libellé » et « Libellé manquant »
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation de « Rééquilibrer »
- Quand arrêter l'entraînement de votre modèle
- Définition et configuration de vos entités
- Comprendre les entités
- Quelles sont les entités pré-entraînées disponibles ?
- Activation, désactivation, mise à jour et création d'entités
- Filtrage des entités
- Examiner et appliquer des entités
- Validation pour les entités
- Amélioration des performances de l'entité
- Création d'entités Regex personnalisées
- Utilisation des analyses de surveillance &
- Automatisations et Communications Mining
- FAQ et plus
Validation pour les entités
La plate-forme affiche les statistiques de validation, les avertissements et les actions recommandées pour les entités activées sur la page Validation (Validation), comme pour chaque libellé de votre taxonomie.
Pour les afficher, accédez à la page Validation (Validation) et sélectionnez l'onglet «Entités » (Entities) en haut, comme indiqué dans l'image ci-dessous.
Le processus dans lequel la plate-forme valide sa capacité à prédire correctement les entités est très similaire à ce qu'il fait pour les libellés.
les messages sont fractionnés (80:20) en un ensemble d'apprentissage et un ensemble de test (déterminés de manière aléatoire par l'ID de message de chaque message) lorsqu'ils sont pour la première fois ajoutés à l'ensemble de données. Toutes les entités qui ont été attribuées (prédictions acceptées ou corrigées) seront incluses dans l'ensemble d'apprentissage ou dans l'ensemble de test, en fonction de l'ensemble auquel le message dans lequel elles se trouvent a été attribué à l'origine.
Comme il peut parfois y avoir un très grand nombre d'entités dans un message et qu'il n'est pas garanti qu'un message se trouve dans l'ensemble d'apprentissage ou dans l'ensemble de test, vous pouvez constater une grande différence entre le nombre d'entités dans chaque ensemble.
Il peut également y avoir des cas où toutes les entités attribuées rentrent dans l'ensemble d'entraînement. Comme au moins un exemple est requis dans l’ensemble de tests pour calculer les scores de validation, cette entité nécessiterait davantage d’exemples attribués jusqu’à ce que certains d’entre eux soient présents dans l’ensemble de tests.
Les statistiques individuelles de précision et de rappel de chaque entité avec des données d'apprentissage suffisantes sont calculées d'une manière très similaire à celle des libellés :
Précision = Nombre d'entités correspondantes/Nombre d'entités prédites
Rappel = Nombre d'entités correspondantes/Nombre d'entités réelles
Une « entité correspondante » correspond à l'endroit où la plateforme a prédit l'entité avec exactitude (c'est-à-dire pas de correspondances partielles)
Le score F1 est simplement la moyenne Utiliser la précision et le rappel.
Il convient de noter que les statistiques de précision et de rappel affichées sur cette page sont très utiles pour les entités qui peuvent être entraînées en direct dans la plate-forme (affichées dans la deuxième colonne ci-dessus), car toutes les entités examinées pour ces types d'entités auront un impact direct sur les processus de la plate-forme capacité à prédire ces entités.
Par conséquent, l'acceptation des entités correctes et la correction ou le rejet des entités erronées doivent être effectuées dans la mesure du possible.
Pour les entités pré-entraînées, pour que les statistiques de validation reflètent précisément les performances, les utilisateurs doivent s'assurer qu'ils acceptent un nombre considérable de prédictions correctes, ainsi que corriger les erreurs.
S'ils devaient uniquement corriger les prédictions erronées, l'entraînement et les ensembles de test seraient artificiellement remplis uniquement avec les instances où la plate-forme a du mal à prédire une entité, et non avec celles où elle est le mieux capable de les prédire. Comme la correction des prédictions erronées pour ces entités ne conduit pas à une mise à jour en temps réel de ces entités (elles sont mises à jour périodiquement hors ligne), les statistiques de validation peuvent ne pas changer pendant un certain temps et peuvent être artificiellement faibles.
Accepter beaucoup de prédictions correctes peut ne pas toujours être pratique, car ces entités sont prédites correctement plus souvent qu'autrement. Mais si la majorité des prédictions sont correctes pour ces entités, il est probable que vous n'ayez pas à vous soucier de leurs statistiques de précision et de rappel dans la page Validation.
Les statistiques récapitulatives (précision moyenne, rappel moyen et score F1 moyen) sont simplement des moyennes de chacun des scores d'entité individuels.
Comme pour les libellés, seules les entités qui ont suffisamment de données d'entraînement sont incluses dans les scores moyens. Ceux qui n'ont pas suffisamment de données d'entraînement à inclure ont une icône d'avertissement à côté de leur nom.
La page Validation des entités (Entities Validation) affiche les statistiques de performances moyennes des entités, ainsi qu'un graphique montrant le score F1 moyen de chaque entité par rapport à la taille de leur ensemble d'entraînement. Le graphique signale également les entités qui ont des avertissements de performances orange ou rouge.
Les statistiques de performances de l'entité affichées sont :
- Score F1 moyen (Average F1 Score) : moyenne des scores F1 sur toutes les entités disposant de données suffisantes pour estimer avec précision les performances. Ce score tient compte du rappel et de la précision. Un modèle avec un score F1 élevé produit moins de faux positifs et négatifs.
- Précision moyenne (Average Précision) : moyenne des scores de précision entre toutes les entités avec des données suffisantes pour estimer avec précision les performances. Un modèle avec une haute précision produit moins de faux positifs.
- Rappel moyen (Average Recall) : moyenne des scores de rappel sur toutes les entités disposant de données suffisantes pour estimer avec précision les performances. Un modèle avec un rappel élevé produit moins de faux négatifs.
Le graphique des performances de l'entité affiché dans l'onglet Métriques (Metrics) de la page Validation (voir ci-dessus) donne une indication visuelle immédiate des performances de chaque entité individuelle.
Pour qu'une entité apparaisse sur ce graphique, elle doit avoir au moins 20 exemples épinglés présents dans l'ensemble d'entraînement utilisé par la plateforme lors de la validation. Pour s'assurer que cela se produise, les utilisateurs doivent s'assurer qu'ils fournissent au moins 25 exemples épinglés (souvent plus) par entité, provenant de 25 messages différents.
Chaque entité sera tracée selon l'une des trois couleurs, en fonction de la compréhension par le modèle des performances de l'entité. Nous expliquons ci-dessous ce que cela signifie :
Indicateurs de performances des entités :
- Les entités affichées en bleu sur le graphique ont un niveau de performances satisfaisant . Cela est basé sur de nombreux facteurs contributifs, notamment le nombre et la variété des exemples, ainsi que la précision moyenne pour cette entité
- Les entités portées en forme de orange ont des performances légèrement inférieures à satisfaisantes . Ils peuvent avoir une précision moyenne relativement faible ou pas assez d'exemples d'entraînement. Ces entités nécessitent un peu d’entraînement/de correction pour améliorer leurs performances
- Les entités affichées en rouge sont des entités peu performantes. Ils peuvent avoir une précision moyenne très faible ou ne pas avoir assez d'exemples d'entraînement. Ces entités peuvent nécessiter beaucoup plus d’entraînement/de correction pour faire passer leurs performances à un niveau satisfaisant
Les utilisateurs peuvent sélectionner des entités individuelles à partir de la barre de filtre des entités (ou en cliquant sur la représentation de l'entité dans le graphique « Toutes les entités » [All entity]) afin de voir les statistiques de performances de l'entité.
La vue de l'entité spécifique affichera également les avertissements de performances et les prochaines meilleures suggestions d'actions recommandées pour améliorer ses performances.