- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Entités (Entities)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Préparation des données en vue du téléchargement .CSV
- Entraînement et maintenance du modèle
- Comprendre les libellés, les entités et les métadonnées
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Comprendre le statut de votre jeu de données
- Meilleures pratiques d'entraînement et de labellisation des modèles
- Entraînement avec l'analyse des sentiments des libellés activée
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de « Mélanger »
- Entraînement à l'aide d'« Ensemble des libellés » (Explore)
- Entraînement à l'aide de l'option 'Faible confiance'
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à 'Raffiner'
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide de « Vérifier le libellé » et « Libellé manquant »
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation de « Rééquilibrer »
- Quand arrêter l'entraînement de votre modèle
- Définition et configuration de vos entités
- Comprendre les entités
- Quelles sont les entités pré-entraînées disponibles ?
- Activation, désactivation, mise à jour et création d'entités
- Filtrage des entités
- Examiner et appliquer des entités
- Validation pour les entités
- Amélioration des performances de l'entité
- Création d'entités Regex personnalisées
- Utilisation des analyses de surveillance &
- Automatisations et Communications Mining
- FAQ et plus
Amélioration de l'équilibre et utilisation de « Rééquilibrer »
Autorisations utilisateur requises : « Afficher les sources » ET « Réviser et libellé ».
Qu'est-ce que « Équilibre » et pourquoi est-il important ?
La note d' équilibre présentée dans la note de modèle lors de la validation reflète l'équilibre des données révisées (c'est-à-dire les données d'entraînement) dans un ensemble de données, par rapport à l'ensemble de données dans son ensemble.
Elle prend en compte un certain nombre de facteurs contributifs (comme indiqué ci-dessous), notamment :
- La similarité des données examinées avec les données non examinées (affichées sous la forme d’un score en pourcentage)
- La proportion de données examinées ayant été examinées par le biais d'un échantillon aléatoire (c'est-à-dire Mode « Mandat »)
- La proportion de données ayant été examinées à l'aide du «Rééquilibrer » (voir ci-dessous pour plus de détails)
- La proportion de données ayant été examinées lors de l'utilisation de la «Recherche textuelle »
Il est important que la proportion de données examinées par échantillon aléatoire soit élevée (idéalement supérieure à 20 %) et que la proportion de données examinées labellisées à l'aide de la recherche soit faible.
La note d'équilibre est cependant fortement influencée par le score de similarité qui mesure la similarité des données non révisées avec les données révisées.
Ce score de similarité est calculé par un modèle de biais de labellisation propriétaire qui compare les données examinées et non examinées pour garantir que les données labellisées sont représentatives de l'ensemble de données. Si les données ne sont pas représentatives et ont été labellisées de manière biaisée, les mesures de performances du modèle peuvent être trompeurs et potentiellement peu fiables.
Le biais de labellisation dans la plate-forme est généralement le résultat d'un équilibre entre les modes d'entraînement utilisés pour attribuer des libellés, surtout si trop de « recherche de texte » sont utilisées et pas assez de mode « Mettre ensemble ». Cela peut quand même se produire, même si une grande partie du mode « Shouldy » est utilisée. L'entraînement de libellés spécifiques dans des modes tels que « Apprentissage du libellé » (Teach label) peut naturellement entraîner un léger équilibre dans les données examinées. La plate-forme vous aide à identifier lorsque cela se produit et vous aide à y remédier de manière rapide et efficace.
Qu'est-ce que « Rebalance » et comment l'utiliser ?
Le «rééquilibreur » est un mode d'entraînement qui aide à réduire les équilibres potentiels dans la façon dont un modèle a été labellisé, c'est-à-dire le biais de labellisation, ce qui signifie que les données examinées ne sont pas aussi représentatives de l'ensemble de données qu'elles pourraient l'être.
Le mode d'entraînement «Rééquilibrer » affiche les messages sous-représentés dans l'ensemble révisé.
La labellisation des messages (comme vous le feriez dans n'importe quel autre mode d'entraînement) présentés dans ce mode aidera à corriger les équilibres dans les données d'entraînement et à améliorer le score d'équilibre du modèle.
Conseil supérieur : le rééquilibrage est généralement plus efficace lorsqu'il est peu utilisé et souvent utilisé. La labellisation d'un petit nombre de messages (entre 10 et 20) dans ce mode et permettre au modèle de se réentraîner avant d'actualiser et de labelliser plus d'exemples est le meilleur moyen de maximiser l'impact qu'elle aura sur le score d'équilibre du modèle.
Si vous constatez que vous avez un score de similarité élevé mais que la note d'équilibre est toujours faible, c'est probablement parce que vous n'avez pas suffisamment labellisé les données d'entraînement en mode « Mandat ». Si tel est le cas, la plate-forme suggérera de labelliser une sélection aléatoire de messages comme action recommandée en priorité. L'entraînement dans ce mode donne à la plate-forme l'assurance supplémentaire que l'ensemble de données n'a pas été labellisé de manière biaisée et que les données d'entraînement sont un échantillon représentatif.
Quelle quantité de « Rebalance » dois-je utiliser ?
Vous devez continuer à utiliser « Rééquilibrer » de manière répétée pour améliorer le score de similarité de votre modèle, ce qui augmentera à son tour votre note «Équilibre ».
Une fois que cela atteint une note «Bon » en Validation, c'est à vous de décider jusqu'à quel point vous souhaitez augmenter le score de similarité avant d'arrêter l'entraînement dans « Rééquilibrer ».
Vous pouvez essayer d'optimiser cette notation autant que possible, mais l'entraînement continu présentera toujours des retours décroissants. Une note «Bon » doit généralement être considérée comme un niveau de performances acceptable pour un bon modèle.