- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux (anciennement entités)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Create or delete a data source in the GUI
- Téléchargement d’un fichier CSV dans une source
- Préparation des données en vue du téléchargement du fichier .CSV
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Comprendre les exigences de données
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Utilisation des analyses et de la surveillance
- Automatisations et Communications Mining
- Informations de licence
- FAQ et plus encore
Guide de l'utilisateur de Communications Mining
Comment fonctionne la validation ?
Autorisations utilisateur requises : « Afficher les sources » ET « Afficher les libellés ».
Dans le cadre de la validation, la plate-forme évalue les performances des modèles de libellé et de champ général associés à un ensemble de données.
Pour le modèle de libellé en particulier, il calcule une «évaluation du modèle » globale en testant un certain nombre de facteurs de performances différents, notamment :
- Dans quelle mesure il est capable de prédire chaque libellé dans la taxonomie, à l'aide d'un sous-ensemble de données d'entraînement provenant de cet ensemble de données
-
La couverture de l'ensemble de données par des prédictions d'étiquettes informatives
- L'équilibre des données d'entraînement par rapport à la façon dont elles ont été attribuées et la façon dont elles représentent l'ensemble de données dans son ensemble
Comment évalue-t-il les performances des libellés ?
Pour évaluer la façon dont elle peut prédire chaque libellé, la plate-forme divise d'abord les messages révisés (ieannotés) de l'ensemble de données en deux groupes ; un ensemble majoritaire de données d'entraînement et un ensemble mineur de données de test.
Dans l'image ci-dessous, les points colorés représentent les messages annotés dans un ensemble de données. Ce fractionnement est déterminé par l'ID de message lorsque les messages sont ajoutés à l'ensemble de données, et reste cohérent tout au long de la durée de vie de l'ensemble de données.
La plate-forme s'entraîne ensuite en utilisant uniquement l'ensemble d'entraînement comme données d'entraînement.
Sur la base de cet entraînement, il essaie ensuite de prédire quels libellés doivent s'appliquer aux messages dans l'ensemble de test et évalue les résultats à la fois pour la précision et le rappel par rapport aux libellés réels appliqués par un utilisateur humain.
En plus de ce processus, la plate-forme prend également en compte la façon dont les libellés ont été attribués (c'est-à-dire quels modes d'entraînement ont été utilisés lors de l'application des libellés) pour savoir s'ils ont été annotés de manière biaisée ou équilibrée.
Validation publie ensuite des statistiques en direct sur les performances des libellés pour la dernière version du modèle, mais vous pouvez également afficher les statistiques de performances historiques pour les versions de modèle précédemment épinglées.
Comment évalue-t-il la couverture ?
Pour comprendre comment votre modèle couvre vos données, la plate-forme examine toutes les données non révisées de l'ensemble de données et les prédictions que la plate-forme a faites pour chacun de ces messages non révisés.
Il évalue ensuite la proportion de messages totaux qui ont au moins un libellé informatif prédit.
Les «libellés d'information » sont ces libellés que la plate-forme comprend comme étant utiles en tant que libellés autonomes, en examinant la fréquence à laquelle ils sont attribués avec d'autres libellés. Les libellés qui sont toujours attribués à un autre libellé, par exemple les libellés parents qui ne sont jamais attribués eux-mêmes, ou « Urgent » s'ils sont toujours attribués avec un autre libellé, sont sous-pondérés lorsque le score est calculé.
Comment évalue-t-il l'équilibre ?
Lorsque la plate-forme évalue l' équilibre de votre modèle, elle recherche essentiellement le biais d'annotation qui peut provoquer un équilibre entre les données d'entraînement et l'ensemble de données dans son ensemble.
Pour ce faire, il utilise un modèle de biais d'annotation qui compare les données examinées et non examinées pour s'assurer que les données annotées sont représentatives de l'ensemble de données. Si les données ne sont pas représentatives, les mesures de performances du modèle peuvent être trompeurs et potentiellement peu fiables.
Le biais d'annotation est généralement le résultat d'un basculement des modes d'apprentissage utilisés pour attribuer des libellés, surtout si trop de « recherche de texte » sont utilisées et pas assez de « Shouldy ».
Le mode d'entraînement «Rééquilibrer » affiche les messages sous-représentés dans l'ensemble révisé. L'annotation des exemples dans ce mode aidera à corriger rapidement les équilibres dans l'ensemble de données.
Quand le processus de validation se déroule-t-il ?
Chaque fois que vous terminez un entraînement dans un ensemble de données, le modèle se met à jour et fournit de nouvelles prédictions pour chaque message. En parallèle, il réévalue également les performances du modèle. Cela signifie qu'au moment où les nouvelles prédictions seront prêtes, de nouvelles statistiques de validation devraient également être disponibles ( bien qu'un processus puisse parfois prendre plus de temps que l'autre), y compris la dernière.
Remarque : la plateforme vous affichera toujours par défaut les dernières statistiques de validation qui ont été calculées, et vous dira si de nouvelles statistiques doivent être calculées.