- Introduction
- Configuration de votre compte
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux
- Libellés (prédictions, niveaux de confiance, hiérarchie des libellés et sentiment des libellés)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages annotés et non annotés
- Extraction des champs
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Contrôle et administration de l'accès
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer ou supprimer une source de données dans l'interface graphique
- Téléchargement d’un fichier CSV dans une source
- Préparation des données en vue du téléchargement du fichier .CSV
- Création d'un ensemble de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modification des paramètres du jeu de données
- Supprimer un message
- Supprimer un jeu de données
- Exporter un ensemble de données
- Utilisation d'intégrations Exchange
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie de libellés et meilleures pratiques
- Comparer les cas d’utilisation des analyses et des automatisations
- Transformer vos objectifs en libellés
- Présentation du processus d'entraînement du modèle
- Annotation générative
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Entraînement des données de chat et d'appels
- Comprendre les exigences de données
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Affiner et réorganiser votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation
- Comprendre et améliorer les performances du modèle
- Raisons de la faible précision moyenne des libellés
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Vue d'ensemble (Overview)
- Configurer des champs
- Filtrage par type de champ d’extraction
- Génération de vos extractions
- Validation et annotation des extractions générées
- Meilleures pratiques et considérations
- Comprendre la validation des extractions et des performances d'extraction
- Questions fréquemment posées (FAQ)
- Utilisation des analyses et de la surveillance
- Automations et Communications Mining™
- Développeur
- Charger des données
- Téléchargement de données
- Intégration avec l'utilisateur du service Azure
- Intégration avec l'authentification d'application Azure
- Intégration d’Exchange avec l’authentification et le graphique d’application Azure
- Récupérer des données pour Tableau avec Python
- Intégration d'Elasticsearch
- Extraction de champ général
- Intégration avec Exchange auto-hébergée
- Infrastructure d’automatisation UiPath®
- Activités officielles UiPath®
- Comment les machines apprennent à comprendre les mots : guide d'intégration dans NLP
- Apprentissage basé sur des invites avec des Transformers
- Efficient Transformers II : Dilarisation des connaissances et affinement
- Transformateurs efficaces I : mécanismes d'attention
- Modélisation de l'intention hiérarchique profonde non supervisée : obtenir de la valeur sans données d'entraînement
- Correction des biais d’annotation avec Communications Mining™
- Apprentissage actif : de meilleurs modèles d'ML en moins de temps
- Tout est dans les chiffres : évaluer les performances du modèle avec des métriques
- Pourquoi la validation du modèle est importante
- Comparaison de Communications Mining™ et de Google AutoML pour l’information sur des données conversationnelles
- Licences
- FAQ et plus encore

Guide de l’utilisateur de Communications Mining
Cette section propose des directives concernant les volumes de données de communication requis afin d’optimiser l’expérience de formation et maximiser la valeur fournie par les analyses et l’automatisation.
Lorsque vous décidez de la quantité de données pour votre cas d'utilisation, tenez compte des facteurs suivants :
- Retour sur investissement (ROI)
- Complexité
- Limites techniques
Retour sur investissement
Pour tirer le meilleur parti de votre implémentation Communications Mining™, nous vous recommandons de commencer par des cas d’utilisation à volume élevé. Ces cas bénéficient de la capacité de Communications Mining à traiter efficacement de grandes quantités de données de message, à des fins d’analyse de l’historique et de surveillance en direct, ainsi que des automatisations.
L'effort requis pour déployer un cas d'utilisation n'augmente pas considérablement avec des volumes de messages plus élevés. Par conséquent, les cas d'utilisation à volume élevé ont tendance à offrir un meilleur retour sur investissement en termes d'effort d'implémentation par rapport aux cas d'utilisation à plus faible volume. Ceci est important pour les organisations disposant de ressources limitées ou celles dont l'implémentation nécessite une assistance externe.
Cependant, si vous avez des scénarios à faible volume avec une valeur métier élevée, vous devez également prendre en compte ces cas d'utilisation. De nombreux cas d'utilisation à faible volume sont techniquement possibles et ne doivent pas être rejetés.
Complexité
De nombreux cas d'utilisation ont un niveau de complexité, en termes de nombre et de complexité des libellés et des champs à extraire, qui n'est pas adapté aux très faibles volumes de messages. En effet, le nombre d’exemples disponibles dans l’ensemble de données de concepts ou de champs variés et complexes peut être insuffisant pour affiner et valider efficacement les modèles spécialisés Communications Mining™. Cela s’applique à la fois à l’entraînement automatisé fourni par l’annotation générative et à d’autres exemples annotés par les entraîneurs de modèles.
Bien que certains cas d’utilisation puissent être techniquement possibles et que les exemples soient suffisants, des volumes insuffisants peuvent parfois entraîner une mauvaise expérience d’annotation pour les entraîneurs de modèles. Un plus grand pool de données permet aux modes d’apprentissage actifs de Communications Mining d’identifier et de générer des exemples utiles à annoter. Un petit pool de données peut créer moins d'exemples de qualité dans la taxonomie. Le nombre insuffisant d’exemples de qualité oblige les utilisateurs à s’appuyer sur l’annotation d’exemples difficiles à identifier ou plus complexes.
Limites techniques
Avant de procéder à la qualification et à l'implémentation d’un cas d’utilisation basé sur des considérations basées sur la complexité et le retour sur investissement, vous devez prendre en compte les limitations techniques de Communications Mining™.
Pour générer des clusters, Communications Mining nécessite un minimum de 2 048 messages dans un ensemble de données, qui peut être constitué de plusieurs sources similaires. Les ensembles de données de moins de 2 048 messages vous permettent d’utiliser toutes les fonctionnalités de Communications Mining, en plus des clusters et des suggestions de libellé générées pour les clusters.
Les cas d'utilisation avec moins de 2048 messages doivent être très simples en termes de nombre et de complexité des libellés ou des champs. Vous devriez également vous attendre à annoter une proportion beaucoup plus élevée du total des messages à des fins de peaufinage et de validation par rapport aux cas d’utilisation à volume plus élevé. Il est probable qu’il n’y ait pas suffisamment d’exemples à annoter pour certains libellés ou certains champs, ou les deux, s’ils ne se produisent pas fréquemment.
Pour garantir des données de validation significatives, Communications Mining attend également un minimum de 25 exemples annotés par libellé et par champ. Par conséquent, assurez-vous de pouvoir sourcer au moins ce nombre d'exemples à partir des données disponibles.
Les recommandations suivantes concernent les cas d’utilisation avec un volume de données faible, mais une valeur élevée ou une faible complexité, ou bien les deux.
En règle générale, les cas d’utilisation devraient fonctionner comme prévu si leur complexité correspond au volume de données du message. Les cas d'utilisation à très faible volume doivent être très simples, tandis que les cas d'utilisation à volume élevé peuvent être plus complexes.
Dans certains cas, la synchronisation de plus d'un an de données historiques peut aider à fournir des exemples de qualité suffisants pour la formation. Cela offre également l’avantage de bénéficier de davantage d’analyses en termes de tendances et d’alertes.
Les cas d’utilisation avec moins de 20 000 messages, en termes de volumes historiques ou de débit annuel, doivent être attentivement pris en compte en termes de complexité, de retour sur investissement et de l’effort requis pour prendre en charge et activer le cas d’utilisation. Bien qu’il existe un risque que de tels cas d’utilisation soient disqualifiés sur la base de ces considérations, ils peuvent tout de même fournir une valeur commerciale suffisante pour poursuivre.
Utiliser les directives de complexité des cas
Chaque cas d'utilisation est unique, il n'existe donc pas de directive unique correspondant à tous les scénarios de complexité. Les libellés et les champs eux-mêmes peuvent aller de très simples à complexes en termes de compréhension et d'extraction.
Le tableau suivant présente des directives approximatives concernant la complexité des cas d'utilisation.
Complexité | Libellés | Champs d’extraction | Champs généraux |
---|---|---|---|
Très bas | environ 2 à 5 | S/O | 1-2 |
Basse | environ 5 à 15 | 1 à 2 pour quelques libellés | 1-3 |
Moyenne | compris entre 15 et 50 | 1 - 5 pour plusieurs libellés | 1 à 5 * |
Haute | plus de 50 | 1 à 8 ou plus pour une relation élevée de libellés | 1 à 5 * |
* Les cas d'utilisation avec des champs d'extraction doivent reposer sur ces champs plutôt que sur des champs généraux. Si vous n’utilisez pas de champs d’extraction, vous pouvez attendre davantage de champs généraux, mais ils n’ajouteront peut-être pas de valeur équivalente.
Résumé
Le nombre de messages * | Limitations | Recommandation |
---|---|---|
Moins de 2048 |
| Ne doit être qu' :
|
2048 - 20 000 |
|
Doit être principalement :
|
20 000 - 50 000 |
|
Doit être principalement :
|
*Les volumes de données historiques à partir desquels des exemples d’entraînement seront générés n’a généralement qu’une faible pourcentage du volume total annoté. Cette proportion est généralement plus élevée sur les cas d’utilisation où le volume est faible et plus complexes.