- Introduction
- Configuration de votre compte
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux
- Libellés (prédictions, niveaux de confiance, hiérarchie des libellés et sentiment des libellés)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages annotés et non annotés
- Extraction des champs
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Contrôle et administration de l'accès
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer ou supprimer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Préparation des données en vue du téléchargement du fichier .CSV
- Création d'un ensemble de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modification des paramètres du jeu de données
- Supprimer un message
- Supprimer un jeu de données
- Exporter un ensemble de données
- Utilisation d'intégrations Exchange
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie de libellés et meilleures pratiques
- Comparer les cas d’utilisation des analyses et des automatisations
- Transformer vos objectifs en libellés
- Présentation du processus d'entraînement du modèle
- Annotation générative
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Comprendre les exigences de données
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Affiner et réorganiser votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation
- Comprendre et améliorer les performances du modèle
- Raisons de la faible précision moyenne des libellés
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Vue d'ensemble (Overview)
- Configurer des champs
- Filtrage par type de champ d’extraction
- Génération de vos extractions
- Validation et annotation des extractions générées
- Meilleures pratiques et considérations
- Comprendre la validation des extractions et des performances d'extraction
- Questions fréquemment posées (FAQ)
- Utilisation des analyses et de la surveillance
- Automations et Communications Mining™
- Développeur
- Charger des données
- Téléchargement de données
- Intégration avec l'utilisateur du service Azure
- Intégration avec l'authentification d'application Azure
- Intégration d’Exchange avec l’authentification et le graphique d’application Azure
- Récupérer des données pour Tableau avec Python
- Intégration d'Elasticsearch
- Extraction de champ général
- Intégration avec Exchange auto-hébergée
- Infrastructure d’automatisation UiPath®
- Activités officielles UiPath®
- Comment les machines apprennent à comprendre les mots : guide d'intégration dans NLP
- Apprentissage basé sur des invites avec des Transformers
- Efficient Transformers II : Dilarisation des connaissances et affinement
- Transformateurs efficaces I : mécanismes d'attention
- Modélisation de l'intention hiérarchique profonde non supervisée : obtenir de la valeur sans données d'entraînement
- Correction des biais d’annotation avec Communications Mining™
- Apprentissage actif : de meilleurs modèles d'ML en moins de temps
- Tout est dans les chiffres : évaluer les performances du modèle avec des métriques
- Pourquoi la validation du modèle est importante
- Comparaison de Communications Mining™ et de Google AutoML pour l’information sur des données conversationnelles
- Licences
- FAQ et plus encore

Guide de l’utilisateur de Communications Mining
Dans le cadre de la validation, la plate-forme évalue les performances des modèles de libellé et de champ général associés à un ensemble de données.
Pour le modèle de libellé plus précisément, il calcule une évaluation globale du modèle en testant un certain nombre de facteurs de performance différents, notamment :
- Dans quelle mesure est-il capable de prédire chaque libellé dans la taxonomie à l'aide d'un sous-ensemble de données d'entraînement provenant de cet ensemble de données ?
- La mesure dans laquelle l’ensemble de données est bien couverts par les prédictions informatives des libellés.
- La façon dont les données d'entraînement sont équilibrées, au regard de la façon dont elles ont été attribuées et de la façon dont elles représentent l'ensemble de données dans son ensemble.
- un ensemble majorité de données d’entraînement.
- un ensemble mineur de données de test.
Dans l’image suivante, les points colorés représentent les messages annotés dans un ensemble de données. Ce fractionnement est déterminé par l'ID de message lorsque les messages sont ajoutés à l'ensemble de données et reste cohérent pendant toute la durée de vie de l'ensemble de données.
La plate-forme s'entraîne ensuite à l'aide de l'ensemble d'entraînement comme données d'entraînement.
Sur la base de cet entraînement, il tente ensuite de prédire les libellés devant s'appliquer aux messages de l'ensemble de tests et évalue les résultats à la fois pour la précision et pour le rappel par rapport aux libellés réels appliqués par un utilisateur humain.
Par ailleurs, la plate-forme prend également en compte la manière dont les libellés ont été attribués, c’est-à-dire les modes d’entraînement utilisés lors de l’application des libellés afin de déterminer s’ils ont été annotés de manière biaisée ou équilibrée.
Validation publie ensuite des statistiques en direct sur les performances des libellés pour la dernière version du modèle, mais vous pouvez également afficher les statistiques de performances historiques pour les versions de modèle précédemment épinglées.
Pour comprendre comment votre modèle couvre vos données, la plate-forme examine toutes les données non révisées de l'ensemble de données et les prédictions que la plate-forme a faites pour chacun de ces messages non révisés.
Il évalue ensuite la pourcentage du total des messages pour lesquels au moins un libellé informatif est prédit.
Les libellés informatifs sont ces libellés que la plate-forme comprend être utiles en tant que libellés autonomes, en examinant la fréquence à laquelle ils sont attribués avec d'autres libellés. Des libellés toujours attribués avec un autre libellé. Par exemple, les libellés parents qui ne sont jamais attribués eux-mêmes ou qui sont toujours attribués avec un autre libellé sont pondérés lors du calcul du score.
Lorsque la plate-forme évalue l'équilibrage de votre modèle, elle recherche essentiellement les biais d'annotation qui peuvent provoquer un équilibre entre les données d'entraînement et l'ensemble de données dans son ensemble.
Pour ce faire, il utilise un modèle de biais d'annotation qui compare les données examinées et non examinées pour garantir que les données annotées sont représentatives de l'ensemble des données. Si les données ne sont pas représentatives, les mesures de performances du modèle peuvent être trompeurs et potentiellement peu fiables.
Les biais d’annotation sont généralement le résultat d’un déséquilibrage des modes d’entraînement utilisés pour attribuer des libellés, en particulier si trop de « recherche de texte » est utilisé et pas assez de « mélanger ».
Le mode d’entraînement Rééquilibrer affiche les messages sous-représentés dans l’ensemble examiné. L'annotation d'exemples dans ce mode permettra de corriger rapidement les flux de l'ensemble de données.
Chaque fois que vous terminez un entraînement dans un ensemble de données, le modèle se met à jour et fournit de nouvelles prédictions pour chaque message. En parallèle, il réévalue également les performances du modèle. Cela signifie qu'au moment où les nouvelles prédictions seront prêtes, de nouvelles statistiques de validation devraient également être disponibles ( bien qu'un processus puisse parfois prendre plus de temps que l'autre), y compris la dernière.