- Introduction
- Configuration de votre compte
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux
- Libellés (prédictions, niveaux de confiance, hiérarchie des libellés et sentiment des libellés)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages annotés et non annotés
- Extraction des champs
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Contrôle et administration de l'accès
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer ou supprimer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Préparation des données en vue du téléchargement du fichier .CSV
- Création d'un ensemble de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modification des paramètres du jeu de données
- Supprimer un message
- Supprimer un jeu de données
- Exporter un ensemble de données
- Utilisation d'intégrations Exchange
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie de libellés et meilleures pratiques
- Comparer les cas d’utilisation des analyses et des automatisations
- Transformer vos objectifs en libellés
- Présentation du processus d'entraînement du modèle
- Annotation générative
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Entraînement des données de chat et d'appels
- Comprendre les exigences de données
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Affiner et réorganiser votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation
- Comprendre et améliorer les performances du modèle
- Raisons de la faible précision moyenne des libellés
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Vue d'ensemble (Overview)
- Configurer des champs
- Filtrage par type de champ d’extraction
- Génération de vos extractions
- Validation et annotation des extractions générées
- Meilleures pratiques et considérations
- Comprendre la validation des extractions et des performances d'extraction
- Questions fréquemment posées (FAQ)
- Utilisation des analyses et de la surveillance
- Automations et Communications Mining™
- Développeur
- Charger des données
- Téléchargement de données
- Intégration avec l'utilisateur du service Azure
- Intégration avec l'authentification d'application Azure
- Intégration d’Exchange avec l’authentification et le graphique d’application Azure
- Récupérer des données pour Tableau avec Python
- Intégration d'Elasticsearch
- Extraction de champ général
- Intégration avec Exchange auto-hébergée
- Infrastructure d’automatisation UiPath®
- Activités officielles UiPath®
- Comment les machines apprennent à comprendre les mots : guide d'intégration dans NLP
- Apprentissage basé sur des invites avec des Transformers
- Efficient Transformers II : Dilarisation des connaissances et affinement
- Transformateurs efficaces I : mécanismes d'attention
- Modélisation de l'intention hiérarchique profonde non supervisée : obtenir de la valeur sans données d'entraînement
- Correction des biais d’annotation avec Communications Mining™
- Apprentissage actif : de meilleurs modèles d'ML en moins de temps
- Tout est dans les chiffres : évaluer les performances du modèle avec des métriques
- Pourquoi la validation du modèle est importante
- Comparaison de Communications Mining™ et de Google AutoML pour l’information sur des données conversationnelles
- Licences
- FAQ et plus encore

Guide de l’utilisateur de Communications Mining
Équilibre : Introduction et importance
La note d' équilibrage présentée dans la notation du modèle de validation reflète l'équilibrage des données examinées dans un ensemble de données par rapport à l'ensemble de données.
Il prend en compte un certain nombre de facteurs contributifs, notamment :
- La similarité des données examinées par rapport aux données non examinées, indiquée sous la forme d'un score en pourcentage.
- La part des données examinées qui ont été examinées via des échantillons aléatoires, c’est-à-dire en mode Mélanger .
- La proportion de données ayant été examinées à l'aide de Rééquilibrage.
- La proportion de données qui ont été examinées lors de l’utilisation de la recherche de texte.
Il est important que la proportion de données examinées via des échantillons aléatoires soit élevée (
La note de frais est cependant fortement influencée par le score de similarité qui mesure la similarité des données non examinées par rapport aux données examinées.
Ce score de similarité est calculé par un modèle de biais d’annotation propriétaire qui compare les données examinées et non examinées pour garantir que les données annotées sont représentatives de l’ensemble de données. Si les données ne sont pas représentatives et qu’elles ont été annotées de manière biaisée, les mesures de performances du modèle peuvent être trompeurs et potentiellement peu fiables.
Les biais d’annotation au niveau de la plate-forme sont généralement le résultat d’un flux de mode d’entraînement utilisé pour attribuer des libellés, en particulier si la « recherche de texte » est trop importante et que le mode « mélanger » est insuffisant. Cela peut toujours se produire, cependant, même si une proportion élevée de mode « mélanger » est utilisée. L’entraînement de libellés spécifiques dans des modes comme « Apprentissage du libellé » peut naturellement entraîner un léger décalage dans les données examinées. La plate-forme vous aide à identifier lorsque cela se produit et vous aide à y remédier de manière rapide et efficace.
Rééquilibrer : Introduction et utilisation
Rééquilibrer est un mode d’entraînement qui aide à réduire les flux d’activité potentiels dans le mode d’annotation d’un modèle, c’est-à-dire les biais d’annotation, ce qui signifie que les données examinées ne sont pas aussi représentatives de l’ensemble des données que cela pourrait l’être.
Le mode d’entraînement Rééquilibrer affiche les messages sous-représentés dans l’ensemble examiné.
L’annotation des messages (comme vous le feriez dans n’importe quel autre mode d’entraînement) présenté dans ce mode permettra de corriger les flux d’entraînement et d’améliorer le score d’équilibrage du modèle.
Si vous constatez que vous avez un score de similarité élevé mais que la note d’équilibrage est toujours faible, c’est probablement parce que vous n’avez pas suffisamment annoté les données d’entraînement en mode Mélanger . Si tel est le cas, la plate-forme suggérera d’annoter une sélection aléatoire de messages comme action recommandée en priorité. L’entraînement dans ce mode donne à la plate-forme une confiance supplémentaire dans le fait que l’ensemble de données n’a pas été annoté de manière biaisée et que les données de l’entraînement sont un échantillon représentatif.
Nombre de rééquilibrage à utiliser
Vous devez continuer à utiliser Rééquilibrer de façon itérative pour améliorer le score de similarité de votre modèle, ce qui augmentera votre note d’équilibrage .
Une fois que cela a atteint la note Bonne dans Validation, c'est à vous de décider à quel point vous souhaitez augmenter le score de similarité avant d'arrêter l'entraînement dans Rééquilibrage.
Vous pouvez essayer d'optimiser cette note au maximum, mais l'entraînement continu sera toujours un cas de diminution des revenus. Une note Bon doit généralement être considérée comme un niveau de performances acceptable pour un bon modèle.