- Démarrage
- Équilibre
- Clusters
- Dérive de concept
- Couverture
- Jeux de données
- Champs généraux (anciennement entités)
- Libellés (prédictions, niveaux de confiance, hiérarchie, etc.)
- Modèles
- Flux
- Évaluation du modèle
- Projets
- Précision
- Rappel
- Messages examinés et non examinés
- Sources
- Taxonomies
- Apprentissage
- Prédictions positives et négatives vraies et fausses
- Validation
- Messages
- Administration
- Gérer les sources et les jeux de données
- Comprendre la structure des données et les autorisations
- Créer ou supprimer une source de données dans le graphique
- Téléchargement d’un fichier CSV dans une source
- Préparation des données en vue du téléchargement du fichier .CSV
- Créer un nouveau jeu de données
- Sources et jeux de données multilingues
- Activation des sentiments sur un ensemble de données
- Modifier les paramètres d’un jeu de données
- Supprimer des messages via l'interface utilisateur
- Supprimer un jeu de données
- Exporter un jeu de données
- Utilisation des intégrations Exchange
- Entraînement et maintenance du modèle
- Comprendre les libellés, les champs généraux et les métadonnées
- Hiérarchie des libellés et bonnes pratiques
- Définition de vos objectifs de taxonomie
- Cas d'utilisation d'analyse vs d'automatisation
- Transformer vos objectifs en libellés
- Construire votre structure de taxonomie
- Meilleures pratiques de conception de taxonomie
- Importation de votre taxonomie
- Présentation du processus d'entraînement du modèle
- Annotation générative (New)
- Statut du jeu de données
- Entraînement des modèles et annotation des meilleures pratiques
- Entraînement avec l'analyse des sentiments des libellés activée
- Comprendre les exigences de données
- Entraîner
- Vue d'ensemble (Overview)
- Examen des prédictions de libellé
- Entraînement à l'aide de la classification par glisser-déposer
- Entraînement à l'aide de l'option Enseigner le libellé (Explore)
- Entraînement à l'aide d'une confiance faible
- Entraînement à l'aide de la recherche (Explorer)
- Réduction et réorganisation de votre taxonomie
- Introduction à affiner
- Précision et rappel expliqués
- Précision et rappel
- Comment fonctionne la validation ?
- Comprendre et améliorer les performances du modèle
- Pourquoi un libellé peut-il avoir une précision moyenne faible ?
- Entraînement à l'aide du libellé Vérifier (Check label) et du libellé Manqué (Missed Label)
- Entraînement à l'aide du libellé En savoir plus (Affiner)
- Entraînement à l'aide de la recherche (affiner)
- Comprendre et augmenter la couverture
- Amélioration de l'équilibre et utilisation du rééquilibrage
- Quand arrêter l'entraînement de votre modèle
- Utilisation de champs généraux
- Extraction générative
- Utilisation des analyses et de la surveillance
- Automatisations et Communications Mining
- Informations de licence
- FAQ et plus encore
Guide de l'utilisateur de Communications Mining
Comprendre les exigences de données
Cet article propose des instructions concernant les volumes de données de communication requis afin d’optimiser l’expérience d’entraînement et maximiser la valeur fournie par les analyses et l’automatisation.
- Retour sur investissement (ROI)
- Complexité
- Limites techniques
Pour tirer le meilleur parti de votre Communications Mining™. nous vous recommandons de commencer avec des cas d'utilisation à volume élevé. Ces cas bénéficient de la capacité de Communications Mining à traiter efficacement de grandes quantités de données de messages, à la fois pour l'analyse historique et la surveillance en direct, ainsi que pour les automatisations.
L'effort requis pour déployer un cas d'utilisation n'augmente pas considérablement avec des volumes de messages plus élevés. Par conséquent, les cas d'utilisation à volume élevé ont tendance à offrir un meilleur retour sur investissement en termes d'effort d'implémentation par rapport aux cas d'utilisation à plus faible volume. Ceci est important pour les organisations disposant de ressources limitées ou celles dont l'implémentation nécessite une assistance externe.
Cependant, si vous avez des scénarios à faible volume avec une valeur métier élevée, vous devez également prendre en compte ces cas d'utilisation. De nombreux cas d'utilisation à faible volume sont techniquement possibles et ne doivent pas être rejetés.
De nombreux cas d'utilisation ont un niveau de complexité (en termes de nombre et de complexité des libellés et des champs à extraire) qui n'est pas bien adapté pour de très faibles volumes de messages. En effet, le nombre d’exemples dans l’ensemble de données de concepts ou de champs divers et complexes peut être insuffisant pour affiner et valider efficacement les modèles spécialisés Communications Mining. Cela s’applique à la fois à l’entraînement automatisé fourni par l’annotation générative et aux autres exemples annotés par l’entraîneur de modèle.
Bien que certains cas d’utilisation puissent être techniquement possibles et avoir suffisamment d’exemples, des volumes plus faibles peuvent parfois entraîner une expérience d’annotation plus faible pour les formateurs de modèle. Un pool de données plus important permet aux modes d’apprentissage actif de Communications Mining d’identifier plus facilement et de proposer des exemples utiles à annoter. Un petit pool de données peut créer moins d'exemples de qualité dans la taxonomie. Une fois moins d’exemples de qualité, les utilisateurs s’appuient sur l’annotation d’exemples difficiles à identifier ou plus complexes.
Avant de procéder à la qualification et à l'implémentation d'un cas d'utilisation basé sur des considérations liées à la complexité et au ROI, il est important de prendre en compte les limites techniques de Communications Mining.
Pour générer des clusters, Communications Mining nécessite un minimum de 2 048 messages dans un ensemble de données (qui peut être constitué de plusieurs sources similaires). Les ensembles de données inférieurs à 2 048 messages vous permettent d'utiliser toutes les fonctionnalités de Comms Mining, en plus des clusters et des suggestions de libellés générées pour les clusters.
Les cas d'utilisation avec moins de 2 048 messages devraient être très simples en termes de nombre et de complexité des libellés/champs. Il est également prévu qu’une proportion beaucoup plus élevée de messages totaux devront être annotés à des fins d’ajustement et de validation par rapport aux cas d’utilisation de volume plus élevé. Il est probable qu'il n'y ait pas suffisamment d'exemples à annoter pour certains libellés et/ou champs s'ils n'apparaissent pas fréquemment.
Pour garantir des données de validation significatives, Communications Mining attend également un minimum de 25 exemples annotés par libellé et par champ. Par conséquent, il est important que vous puissiez sourcer au moins ce nombre d'exemples à partir des données disponibles.
Les recommandations suivantes concernent les cas d'utilisation avec un volume de données plus faible, mais une valeur élevée et/ou une faible complexité.
En règle générale, les cas d'utilisation doivent fonctionner comme prévu si leur complexité s'aligne sur le volume de données de message. Les cas d'utilisation à très faible volume doivent généralement être très simples, tandis que les cas d'utilisation à volume élevé peuvent être plus complexes.
Dans certains cas, la synchronisation de plus d'un an de données historiques peut aider à trouver suffisamment d'exemples de qualité pour l'entraînement. Cela permet également de bénéficier de meilleures analyses en termes de tendances et d'alertes.
Les cas d'utilisation avec moins de 20 000 messages (en termes de volumes historiques ou de débit annuel) doivent être examinés avec soin en termes de complexité, de ROI et de l'effort requis pour prendre en charge et activer le cas d'utilisation. Bien qu'il soit possible que ces cas d'utilisation soient invalidés en fonction de ces considérations, ils peuvent toujours fournir une valeur métier suffisante pour poursuivre.
Chaque cas d'utilisation est unique, il n'existe donc pas de directive unique correspondant à tous les scénarios de complexité. Les libellés et les champs eux-mêmes peuvent aller de très simples à complexes en termes de compréhension et d'extraction.
Le tableau suivant présente des directives approximatives concernant la complexité des cas d'utilisation.
Complexité | Libellés | Extraction des champs | Champs généraux |
---|---|---|---|
Très bas | ~2-5 | S/O | 1-2 |
Basse | ~5 - 15 | 1 à 2 pour quelques libellés | 1-3 |
Moyenne | 15 à 50 | 1 - 5 pour plusieurs libellés | 1 à 5 * |
Haute | 50+ | 1 à 8+ pour une proportion élevée de libellés | 1 à 5 * |
* Les cas d'utilisation avec des champs d'extraction doivent reposer sur ces champs plutôt que sur des champs généraux. Si vous n’utilisez pas de champs d’extraction, vous pouvez attendre davantage de champs généraux, mais ils n’ajouteront peut-être pas de valeur équivalente.
Nombre de messages * | Limitations | Recommandation |
---|---|---|
inférieure à |
| Ne doit être qu' :
|
2048 - 20 000 |
|
Doit être principalement :
|
20 000 - 50 000 |
|
Doit être principalement :
|
Les volumes de données historiques à partir desquels les exemples d'entraînement seront fournis n'ont généralement qu'une petite partie des volumes totaux annotés. Cette proportion est généralement plus élevée dans les cas d'utilisation à faible volume et à plus grande complexité.