communications-mining

latest

false

Important :

Communications Mining est désormais inclus dans UiPath IXP. Consultez l’introduction du manuel utilisateur pour plus de détails. Ce contenu a été traduit à l'aide d'une traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Communications Mining

Dernière mise à jour 25 mars 2025

Comment fonctionne la validation ?

Autorisations utilisateur requises : « Afficher les sources » ET « Afficher les libellés ».

Dans le cadre de la validation, la plate-forme évalue les performances des modèles de libellé et de champ général associés à un ensemble de données.

Pour le modèle de libellé en particulier, il calcule une «évaluation du modèle » globale en testant un certain nombre de facteurs de performances différents, notamment :

Dans quelle mesure il est capable de prédire chaque libellé dans la taxonomie, à l'aide d'un sous-ensemble de données d'entraînement provenant de cet ensemble de données
La couverture de l'ensemble de données par des prédictions d'étiquettes informatives
L'équilibre des données d'entraînement par rapport à la façon dont elles ont été attribuées et la façon dont elles représentent l'ensemble de données dans son ensemble

Comment évalue-t-il les performances des libellés ?

Pour évaluer la façon dont elle peut prédire chaque libellé, la plate-forme divise d'abord les messages révisés (ieannotés) de l'ensemble de données en deux groupes ; un ensemble majoritaire de données d'entraînement et un ensemble mineur de données de test.

Dans l'image ci-dessous, les points colorés représentent les messages annotés dans un ensemble de données. Ce fractionnement est déterminé par l'ID de message lorsque les messages sont ajoutés à l'ensemble de données, et reste cohérent tout au long de la durée de vie de l'ensemble de données.

La plate-forme s'entraîne ensuite en utilisant uniquement l'ensemble d'entraînement comme données d'entraînement.

Sur la base de cet entraînement, il essaie ensuite de prédire quels libellés doivent s'appliquer aux messages dans l'ensemble de test et évalue les résultats à la fois pour la précision et le rappel par rapport aux libellés réels appliqués par un utilisateur humain.

En plus de ce processus, la plate-forme prend également en compte la façon dont les libellés ont été attribués (c'est-à-dire quels modes d'entraînement ont été utilisés lors de l'application des libellés) pour savoir s'ils ont été annotés de manière biaisée ou équilibrée.

Validation publie ensuite des statistiques en direct sur les performances des libellés pour la dernière version du modèle, mais vous pouvez également afficher les statistiques de performances historiques pour les versions de modèle précédemment épinglées.

Comment évalue-t-il la couverture ?

Pour comprendre comment votre modèle couvre vos données, la plate-forme examine toutes les données non révisées de l'ensemble de données et les prédictions que la plate-forme a faites pour chacun de ces messages non révisés.

Il évalue ensuite la proportion de messages totaux qui ont au moins un libellé informatif prédit.

Les «libellés d'information » sont ces libellés que la plate-forme comprend comme étant utiles en tant que libellés autonomes, en examinant la fréquence à laquelle ils sont attribués avec d'autres libellés. Les libellés qui sont toujours attribués à un autre libellé, par exemple les libellés parents qui ne sont jamais attribués eux-mêmes, ou « Urgent » s'ils sont toujours attribués avec un autre libellé, sont sous-pondérés lorsque le score est calculé.

Comment évalue-t-il l'équilibre ?

Lorsque la plate-forme évalue l' équilibre de votre modèle, elle recherche essentiellement le biais d'annotation qui peut provoquer un équilibre entre les données d'entraînement et l'ensemble de données dans son ensemble.

Pour ce faire, il utilise un modèle de biais d'annotation qui compare les données examinées et non examinées pour s'assurer que les données annotées sont représentatives de l'ensemble de données. Si les données ne sont pas représentatives, les mesures de performances du modèle peuvent être trompeurs et potentiellement peu fiables.

Le biais d'annotation est généralement le résultat d'un basculement des modes d'apprentissage utilisés pour attribuer des libellés, surtout si trop de « recherche de texte » sont utilisées et pas assez de « Shouldy ».

Le mode d'entraînement «Rééquilibrer » affiche les messages sous-représentés dans l'ensemble révisé. L'annotation des exemples dans ce mode aidera à corriger rapidement les équilibres dans l'ensemble de données.

Quand le processus de validation se déroule-t-il ?

Chaque fois que vous terminez un entraînement dans un ensemble de données, le modèle se met à jour et fournit de nouvelles prédictions pour chaque message. En parallèle, il réévalue également les performances du modèle. Cela signifie qu'au moment où les nouvelles prédictions seront prêtes, de nouvelles statistiques de validation devraient également être disponibles ( bien qu'un processus puisse parfois prendre plus de temps que l'autre), y compris la dernière.

Remarque : la plateforme vous affichera toujours par défaut les dernières statistiques de validation qui ont été calculées, et vous dira si de nouvelles statistiques doivent être calculées.

Cette page vous a-t-elle été utile ?

PrécédentPrécision et rappel

SuivantComprendre et améliorer les performances du modèle

Support et Services

Obtenez l'aide dont vous avez besoin

UiPath Academy

Formation RPA - Cours d'automatisation

UiPath Forum

Forum de la communauté UiPath

Confiance et sécurité

Conditions d’utilisation

Politique de confidentialité

Politique de cookies