ixp
latest
false
UiPath logo, featuring letters U and I in white

Guide de l’utilisateur de Communications Mining

Dernière mise à jour 7 oct. 2025

Comprendre les exigences de données

Vue d'ensemble (Overview)

Cette section propose des directives concernant les volumes de données de communication requis afin d’optimiser l’expérience de formation et maximiser la valeur fournie par les analyses et l’automatisation.

Lorsque vous décidez de la quantité de données pour votre cas d'utilisation, tenez compte des facteurs suivants :

  • Retour sur investissement (ROI)
  • Complexité
  • Limites techniques

Important : les volumes de données recommandés dans cette section ne sont pas les volumes de données attendus que vous devrez annoter pour garantir les performances de votre cas d’utilisation. Au lieu de cela, ces volumes représentent les données passées nécessaires pour sourcer des exemples d’entraînement suffisants et variés. En règle générale, seule une petite pourcentage du volume total de messages doit être annoté à des fins d’ajustement et de validation.

Retour sur investissement

Pour tirer le meilleur parti de votre implémentation Communications Mining™, nous vous recommandons de commencer par des cas d’utilisation à volume élevé. Ces cas bénéficient de la capacité de Communications Mining à traiter efficacement de grandes quantités de données de message, à des fins d’analyse de l’historique et de surveillance en direct, ainsi que des automatisations.

L'effort requis pour déployer un cas d'utilisation n'augmente pas considérablement avec des volumes de messages plus élevés. Par conséquent, les cas d'utilisation à volume élevé ont tendance à offrir un meilleur retour sur investissement en termes d'effort d'implémentation par rapport aux cas d'utilisation à plus faible volume. Ceci est important pour les organisations disposant de ressources limitées ou celles dont l'implémentation nécessite une assistance externe.

Cependant, si vous avez des scénarios à faible volume avec une valeur métier élevée, vous devez également prendre en compte ces cas d'utilisation. De nombreux cas d'utilisation à faible volume sont techniquement possibles et ne doivent pas être rejetés.

Complexité

De nombreux cas d'utilisation ont un niveau de complexité, en termes de nombre et de complexité des libellés et des champs à extraire, qui n'est pas adapté aux très faibles volumes de messages. En effet, le nombre d’exemples disponibles dans l’ensemble de données de concepts ou de champs variés et complexes peut être insuffisant pour affiner et valider efficacement les modèles spécialisés Communications Mining™. Cela s’applique à la fois à l’entraînement automatisé fourni par l’annotation générative et à d’autres exemples annotés par les entraîneurs de modèles.

Bien que certains cas d’utilisation puissent être techniquement possibles et que les exemples soient suffisants, des volumes insuffisants peuvent parfois entraîner une mauvaise expérience d’annotation pour les entraîneurs de modèles. Un plus grand pool de données permet aux modes d’apprentissage actifs de Communications Mining d’identifier et de générer des exemples utiles à annoter. Un petit pool de données peut créer moins d'exemples de qualité dans la taxonomie. Le nombre insuffisant d’exemples de qualité oblige les utilisateurs à s’appuyer sur l’annotation d’exemples difficiles à identifier ou plus complexes.

Limites techniques

Avant de procéder à la qualification et à l'implémentation d’un cas d’utilisation basé sur des considérations basées sur la complexité et le retour sur investissement, vous devez prendre en compte les limitations techniques de Communications Mining™.

Pour générer des clusters, Communications Mining nécessite un minimum de 2 048 messages dans un ensemble de données, qui peut être constitué de plusieurs sources similaires. Les ensembles de données de moins de 2 048 messages vous permettent d’utiliser toutes les fonctionnalités de Communications Mining, en plus des clusters et des suggestions de libellé générées pour les clusters.

Les cas d'utilisation avec moins de 2048 messages doivent être très simples en termes de nombre et de complexité des libellés ou des champs. Vous devriez également vous attendre à annoter une proportion beaucoup plus élevée du total des messages à des fins de peaufinage et de validation par rapport aux cas d’utilisation à volume plus élevé. Il est probable qu’il n’y ait pas suffisamment d’exemples à annoter pour certains libellés ou certains champs, ou les deux, s’ils ne se produisent pas fréquemment.

Pour garantir des données de validation significatives, Communications Mining attend également un minimum de 25 exemples annotés par libellé et par champ. Par conséquent, assurez-vous de pouvoir sourcer au moins ce nombre d'exemples à partir des données disponibles.

Recommandations pour réduire les volumes de données

Les recommandations suivantes concernent les cas d’utilisation avec un volume de données faible, mais une valeur élevée ou une faible complexité, ou bien les deux.

En règle générale, les cas d’utilisation devraient fonctionner comme prévu si leur complexité correspond au volume de données du message. Les cas d'utilisation à très faible volume doivent être très simples, tandis que les cas d'utilisation à volume élevé peuvent être plus complexes.

Dans certains cas, la synchronisation de plus d'un an de données historiques peut aider à fournir des exemples de qualité suffisants pour la formation. Cela offre également l’avantage de bénéficier de davantage d’analyses en termes de tendances et d’alertes.

Les cas d’utilisation avec moins de 20 000 messages, en termes de volumes historiques ou de débit annuel, doivent être attentivement pris en compte en termes de complexité, de retour sur investissement et de l’effort requis pour prendre en charge et activer le cas d’utilisation. Bien qu’il existe un risque que de tels cas d’utilisation soient disqualifiés sur la base de ces considérations, ils peuvent tout de même fournir une valeur commerciale suffisante pour poursuivre.

Utiliser les directives de complexité des cas

Chaque cas d'utilisation est unique, il n'existe donc pas de directive unique correspondant à tous les scénarios de complexité. Les libellés et les champs eux-mêmes peuvent aller de très simples à complexes en termes de compréhension et d'extraction.

Le tableau suivant présente des directives approximatives concernant la complexité des cas d'utilisation.

ComplexitéLibellésChamps d’extractionChamps généraux
Très basenviron 2 à 5S/O1-2
Basseenviron 5 à 151 à 2 pour quelques libellés1-3
Moyennecompris entre 15 et 501 - 5 pour plusieurs libellés1 à 5 *
Hauteplus de 501 à 8 ou plus pour une relation élevée de libellés1 à 5 *

* Les cas d'utilisation avec des champs d'extraction doivent reposer sur ces champs plutôt que sur des champs généraux. Si vous n’utilisez pas de champs d’extraction, vous pouvez attendre davantage de champs généraux, mais ils n’ajouteront peut-être pas de valeur équivalente.

Résumé

Le tableau récapitulatif suivant décrit quelques directives pour les cas d'utilisation présentant peu de données :
Tableau 1.
Le nombre de messages *LimitationsRecommandation
Moins de 2048
  • Aucun cluster ni suggestion de libellé.
  • Données insuffisantes pour que certaines analyses soient significatives.
  • Probabilité d'être un retour sur investissement minimal.
Ne doit être qu' :
  • Test
2048 - 20 000
  • Probabilité d'avoir une valeur plus limitée grâce à l'apprentissage actif en raison de volumes réduits.
  • Les données sont probablement insuffisantes pour prendre en charge des cas d’utilisation complexes.
  • Plus susceptibles d'avoir un faible retour sur investissement.

Doit être principalement :

  • POC
  • Cas d'utilisation à faible complexité
  • Cas d'utilisation de la migration vers AI Center
20 000 - 50 000
  • Données potentiellement insuffisantes pour les cas d'utilisation très complexes, au moins certains champs ou libellés complexes.
  • ROI potentiellement plus bas en fonction de la complexité.

Doit être principalement :

  • Cas d'utilisation de complexité faible à moyenne
  • Certains cas d’utilisation de haute complexité
  • Cas d'utilisation de la migration vers AI Center

*Les volumes de données historiques à partir desquels des exemples d’entraînement seront générés n’a généralement qu’une faible pourcentage du volume total annoté. Cette proportion est généralement plus élevée sur les cas d’utilisation où le volume est faible et plus complexes.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo
Confiance et sécurité
© 2005-2025 UiPath Tous droits réservés.