communications-mining

latest

false

Important :

Communications Mining est désormais inclus dans UiPath IXP. Consultez l’introduction du manuel utilisateur pour plus de détails. Ce contenu a été traduit à l'aide d'une traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Communications Mining

Dernière mise à jour 25 mars 2025

Couverture

La couverture ( Coverage) est un terme fréquemment utilisé dans l'apprentissage automatique et concerne la façon dont un modèle « couvre » les données qu'il sert à analyser. Dans Communications Mining™, cela est lié à la proportion de messages dans l'ensemble de données qui ont des prédictions de libellé informatives, et est présenté dans Validation sous la forme d'un score en pourcentage.

Les «libellés d'information » sont ces libellés que la plate-forme comprend comme étant utiles en tant que libellés autonomes, en examinant la fréquence à laquelle ils sont attribués avec d'autres libellés. Les libellés qui sont toujours attribués à un autre libellé, par exemple les libellés parents qui ne sont jamais attribués eux-mêmes, ou « Urgent » s'ils sont toujours attribués avec un autre libellé, sont sous-pondérés lorsque le score est calculé.

Le visuel ci-dessous indique à quoi ressemblerait une faible couverture par rapport à une couverture élevée sur un ensemble de données complet. Imaginez que les cercles ombres sont des messages qui ont des prédictions de libellé informatives.

En tant que métrique, la couverture est un moyen très utile de comprendre si vous avez capturé tous les différents concepts potentiels dans votre ensemble de données, et si vous leur avez fourni suffisamment d'exemples d'entraînement divers pour que la plateforme puisse les prédire efficacement.

Dans presque tous les cas, plus la couverture d'un modèle est élevée, plus il fonctionne, mais il ne doit pas être considéré comme isolé lors de la vérification des performances du modèle.

Il est également très important que les libellés de la taxonomie soient sains, ce qui signifie qu'ils ont une précision moyenne élevée et sans aucun autre avertissement de performances, et que les données d'entraînement sont une représentation équilibrée de l'ensemble de données dans son ensemble.

Si vos libellés ne sont pas sains ou que les données d'entraînement ne sont pas représentatives de l'ensemble de données, la couverture de votre modèle que la plateforme calcule ne sera pas fiable.

Votre modèle ayant une couverture élevée est particulièrement important si vous l'utilisez pour générer des processus automatisés.

Pour plus de détails sur la couverture du modèle et comment vérifier la couverture de votre modèle, voir ici.