Guide de l'utilisateur de Communications Mining

Dernière mise à jour 20 déc. 2024

Comprendre les exigences de données

Vue d'ensemble (Overview)

Cet article propose des instructions concernant les volumes de données de communication requis afin d’optimiser l’expérience d’entraînement et maximiser la valeur fournie par les analyses et l’automatisation.

Lorsque vous décidez de la quantité de données pour votre cas d'utilisation, tenez compte des facteurs suivants :

Retour sur investissement (ROI)
Complexité
Limites techniques

Important : les volumes de données recommandés dans cette section ne sont pas les volumes de données attendus que vous devrez annoter pour garantir les performances de votre cas d’utilisation. Au lieu de cela, ces volumes représentent les données historiques généralement requises pour fournir des exemples d'entraînement suffisants et divers. En règle générale, seule une petite partie du volume total de messages doit être annotée à des fins d’ajustement et de validation.

Retour sur investissement

Pour tirer le meilleur parti de votre Communications Mining™. nous vous recommandons de commencer avec des cas d'utilisation à volume élevé. Ces cas bénéficient de la capacité de Communications Mining à traiter efficacement de grandes quantités de données de messages, à la fois pour l'analyse historique et la surveillance en direct, ainsi que pour les automatisations.

L'effort requis pour déployer un cas d'utilisation n'augmente pas considérablement avec des volumes de messages plus élevés. Par conséquent, les cas d'utilisation à volume élevé ont tendance à offrir un meilleur retour sur investissement en termes d'effort d'implémentation par rapport aux cas d'utilisation à plus faible volume. Ceci est important pour les organisations disposant de ressources limitées ou celles dont l'implémentation nécessite une assistance externe.

Cependant, si vous avez des scénarios à faible volume avec une valeur métier élevée, vous devez également prendre en compte ces cas d'utilisation. De nombreux cas d'utilisation à faible volume sont techniquement possibles et ne doivent pas être rejetés.

Complexité

De nombreux cas d'utilisation ont un niveau de complexité (en termes de nombre et de complexité des libellés et des champs à extraire) qui n'est pas bien adapté pour de très faibles volumes de messages. En effet, le nombre d’exemples dans l’ensemble de données de concepts ou de champs divers et complexes peut être insuffisant pour affiner et valider efficacement les modèles spécialisés Communications Mining. Cela s’applique à la fois à l’entraînement automatisé fourni par l’annotation générative et aux autres exemples annotés par l’entraîneur de modèle.

Bien que certains cas d’utilisation puissent être techniquement possibles et avoir suffisamment d’exemples, des volumes plus faibles peuvent parfois entraîner une expérience d’annotation plus faible pour les formateurs de modèle. Un pool de données plus important permet aux modes d’apprentissage actif de Communications Mining d’identifier plus facilement et de proposer des exemples utiles à annoter. Un petit pool de données peut créer moins d'exemples de qualité dans la taxonomie. Une fois moins d’exemples de qualité, les utilisateurs s’appuient sur l’annotation d’exemples difficiles à identifier ou plus complexes.

Limites techniques

Avant de procéder à la qualification et à l'implémentation d'un cas d'utilisation basé sur des considérations liées à la complexité et au ROI, il est important de prendre en compte les limites techniques de Communications Mining.

Pour générer des clusters, Communications Mining nécessite un minimum de 2 048 messages dans un ensemble de données (qui peut être constitué de plusieurs sources similaires). Les ensembles de données inférieurs à 2 048 messages vous permettent d'utiliser toutes les fonctionnalités de Comms Mining, en plus des clusters et des suggestions de libellés générées pour les clusters.

Les cas d'utilisation avec moins de 2 048 messages devraient être très simples en termes de nombre et de complexité des libellés/champs. Il est également prévu qu’une proportion beaucoup plus élevée de messages totaux devront être annotés à des fins d’ajustement et de validation par rapport aux cas d’utilisation de volume plus élevé. Il est probable qu'il n'y ait pas suffisamment d'exemples à annoter pour certains libellés et/ou champs s'ils n'apparaissent pas fréquemment.

Pour garantir des données de validation significatives, Communications Mining attend également un minimum de 25 exemples annotés par libellé et par champ. Par conséquent, il est important que vous puissiez sourcer au moins ce nombre d'exemples à partir des données disponibles.

Recommandations pour réduire les volumes de données

Les recommandations suivantes concernent les cas d'utilisation avec un volume de données plus faible, mais une valeur élevée et/ou une faible complexité.

En règle générale, les cas d'utilisation doivent fonctionner comme prévu si leur complexité s'aligne sur le volume de données de message. Les cas d'utilisation à très faible volume doivent généralement être très simples, tandis que les cas d'utilisation à volume élevé peuvent être plus complexes.

Dans certains cas, la synchronisation de plus d'un an de données historiques peut aider à trouver suffisamment d'exemples de qualité pour l'entraînement. Cela permet également de bénéficier de meilleures analyses en termes de tendances et d'alertes.

Les cas d'utilisation avec moins de 20 000 messages (en termes de volumes historiques ou de débit annuel) doivent être examinés avec soin en termes de complexité, de ROI et de l'effort requis pour prendre en charge et activer le cas d'utilisation. Bien qu'il soit possible que ces cas d'utilisation soient invalidés en fonction de ces considérations, ils peuvent toujours fournir une valeur métier suffisante pour poursuivre.

Utiliser les directives de complexité des cas

Chaque cas d'utilisation est unique, il n'existe donc pas de directive unique correspondant à tous les scénarios de complexité. Les libellés et les champs eux-mêmes peuvent aller de très simples à complexes en termes de compréhension et d'extraction.

Le tableau suivant présente des directives approximatives concernant la complexité des cas d'utilisation.

Tableau 1. Utiliser les directives de complexité des cas
Complexité	Libellés	Extraction des champs	Champs généraux
Très bas	~2-5	S/O	1-2
Basse	~5 - 15	1 à 2 pour quelques libellés	1-3
Moyenne	15 à 50	1 - 5 pour plusieurs libellés	1 à 5 *
Haute	50+	1 à 8+ pour une proportion élevée de libellés	1 à 5 *

* Les cas d'utilisation avec des champs d'extraction doivent reposer sur ces champs plutôt que sur des champs généraux. Si vous n’utilisez pas de champs d’extraction, vous pouvez attendre davantage de champs généraux, mais ils n’ajouteront peut-être pas de valeur équivalente.

Résumé

Le tableau récapitulatif suivant présente des directives approximatives pour les cas d'utilisation présentant peu de données :

Tableau 2.
Nombre de messages *	Limitations	Recommandation
inférieure à 2048	Aucun cluster et suggestion de libellé Données insuffisantes pour que certaines analyses soient significatives Probable d'être un ROI minimal	Ne doit être qu' : Test
2048 - 20 000	Probable d'avoir une valeur d'apprentissage actif plus limitée en raison de volumes plus faibles Les données seront probablement insuffisantes pour prendre en charge les cas d'utilisation complexes Plus susceptibles d'avoir un faible ROI	Doit être principalement : POC Cas d'utilisation à faible complexité Cas d'utilisation de la migration vers AI Center
20 000 - 50 000	Données potentiellement insuffisantes pour les cas d'utilisation très complexes (au moins certains champs/libellés complexes) ROI potentiellement plus faible en fonction de la complexité	Doit être principalement : Cas d'utilisation de complexité faible à moyenne Certains cas d’utilisation de haute complexité Cas d'utilisation de la migration vers AI Center

Les volumes de données historiques à partir desquels les exemples d'entraînement seront fournis n'ont généralement qu'une petite partie des volumes totaux annotés. Cette proportion est généralement plus élevée dans les cas d'utilisation à faible volume et à plus grande complexité.

Sommaire de la page