- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux (anciennement entités)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Supprimer une source
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Préparation des données en vue du téléchargement du fichier .CSV
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Utilisation des analyses et de la surveillance
- Automatisations et Communications Mining
- Informations de licence
- FAQ et plus encore
Amélioration de l'équilibre et utilisation du rééquilibrage
Autorisations utilisateur requises : « Afficher les sources » ET « Réviser et annoter ».
Qu'est-ce que l'équilibre et pourquoi est-il important ?
La note d' équilibre présentée dans la note de modèle lors de la validation reflète l'équilibre des données révisées (c'est-à-dire les données d'entraînement) dans un ensemble de données, par rapport à l'ensemble de données dans son ensemble.
Elle prend en compte un certain nombre de facteurs contributifs (comme indiqué ci-dessous), notamment :
- La similarité des données examinées avec les données non examinées (affichées sous la forme d’un score en pourcentage)
- La proportion de données examinées ayant été examinées par le biais d'un échantillon aléatoire (c'est-à-dire Mode « Mandat »)
- La proportion de données ayant été examinées à l'aide du «Rééquilibrer » (voir ci-dessous pour plus de détails)
- La proportion de données ayant été examinées lors de l'utilisation de la «Recherche textuelle »
Il est important que la proportion de données examinées par échantillon aléatoire soit élevée (idéalement supérieure à 20 %) et que la proportion de données examinées annotées à l'aide de la recherche soit faible.
La note d'équilibre est cependant fortement influencée par le score de similarité qui mesure la similarité des données non révisées avec les données révisées.
Ce score de similarité est calculé par un modèle de biais d'annotation propriétaire qui compare les données révisées et non révisées pour garantir que les données annotées sont représentatives de l'ensemble de données. Si les données ne sont pas représentatives et ont été annotées de manière biaisée, les mesures de performances du modèle peuvent être trompeurs et potentiellement peu fiables.
Le biais d'annotation dans la plate-forme est généralement le résultat d'un basculement des modes d'entraînement utilisés pour attribuer des libellés, notamment si trop de « recherche de texte » sont utilisées et pas assez de mode « Mettre ensemble ». Cela peut quand même se produire, même si une grande partie du mode « Shouldy » est utilisée. L'entraînement de libellés spécifiques dans des modes tels que « Apprentissage du libellé » (Teach label) peut naturellement entraîner un léger équilibre dans les données examinées. La plate-forme vous aide à identifier lorsque cela se produit et vous aide à y remédier de manière rapide et efficace.
Qu'est-ce que « Rebalance » et comment l'utiliser ?
Le «rééquilibreur » est un mode d'entraînement qui aide à réduire les équilibres potentiels dans la façon dont un modèle a été annoté, c'est-à-dire le biais d'annotation, ce qui signifie que les données examinées ne sont pas aussi représentatives de l'ensemble de données qu'elles pourraient l'être.
Le mode d'entraînement «Rééquilibrer » affiche les messages sous-représentés dans l'ensemble révisé.
L'annotation des messages (comme vous le feriez dans n'importe quel autre mode d'entraînement) présentés dans ce mode aidera à corriger les équilibres dans les données d'entraînement et à améliorer le score d'équilibre du modèle.
Conseil supérieur : le rééquilibrage est généralement plus efficace lorsqu'il est peu utilisé et souvent utilisé. L'annotation d'un petit nombre de messages (entre 10 et 20) dans ce mode et la possibilité pour le modèle de se réentraîner avant d'actualiser et d'annoter plus d'exemples est le meilleur moyen de maximiser l'impact qu'elle aura sur le score d'équilibre du modèle.
Si vous constatez que vous avez un score de similarité élevé mais que la note d'équilibre est toujours faible, c'est probablement parce que vous n'avez pas suffisamment annoté les données d'entraînement en mode « Métadonné ». Si tel est le cas, la plateforme suggérera d' annotation une sélection aléatoire de messages comme action recommandée en priorité. L'entraînement dans ce mode donne à la plate-forme l'assurance supplémentaire que l'ensemble de données n'a pas été annoté de manière biaisée et que les données d'entraînement sont un échantillon représentatif.
Quelle quantité de « Rebalance » dois-je utiliser ?
Vous devez continuer à utiliser « Rééquilibrer » de manière répétée pour améliorer le score de similarité de votre modèle, ce qui augmentera à son tour votre note «Équilibre ».
Une fois que cela atteint une note «Bon » en Validation, c'est à vous de décider jusqu'à quel point vous souhaitez augmenter le score de similarité avant d'arrêter l'entraînement dans « Rééquilibrer ».
Vous pouvez essayer d'optimiser cette notation autant que possible, mais l'entraînement continu présentera toujours des retours décroissants. Une note «Bon » doit généralement être considérée comme un niveau de performances acceptable pour un bon modèle.