communications-mining
latest
false
Important :
Ce contenu a été traduit à l'aide d'une traduction automatique.
Guide de l'utilisateur de Communications Mining
Last updated 7 nov. 2024

Amélioration de l'équilibre et utilisation du rééquilibrage

Autorisations utilisateur requises : « Afficher les sources » ET « Réviser et annoter ».

Qu'est-ce que l'équilibre et pourquoi est-il important ?

La note d' équilibre présentée dans la note de modèle lors de la validation reflète l'équilibre des données révisées (c'est-à-dire les données d'entraînement) dans un ensemble de données, par rapport à l'ensemble de données dans son ensemble.

Elle prend en compte un certain nombre de facteurs contributifs (comme indiqué ci-dessous), notamment :

  • La similarité des données examinées avec les données non examinées (affichées sous la forme d’un score en pourcentage)
  • La proportion de données examinées ayant été examinées par le biais d'un échantillon aléatoire (c'est-à-dire Mode « Mandat »)
  • La proportion de données ayant été examinées à l'aide du «Rééquilibrer » (voir ci-dessous pour plus de détails)
  • La proportion de données ayant été examinées lors de l'utilisation de la «Recherche textuelle »
Un exemple de composant « Équilibre » de la notation du modèle

Il est important que la proportion de données examinées par échantillon aléatoire soit élevée (idéalement supérieure à 20 %) et que la proportion de données examinées annotées à l'aide de la recherche soit faible.

La note d'équilibre est cependant fortement influencée par le score de similarité qui mesure la similarité des données non révisées avec les données révisées.

Ce score de similarité est calculé par un modèle de biais d'annotation propriétaire qui compare les données révisées et non révisées pour garantir que les données annotées sont représentatives de l'ensemble de données. Si les données ne sont pas représentatives et ont été annotées de manière biaisée, les mesures de performances du modèle peuvent être trompeurs et potentiellement peu fiables.

Le biais d'annotation dans la plate-forme est généralement le résultat d'un basculement des modes d'entraînement utilisés pour attribuer des libellés, notamment si trop de « recherche de texte » sont utilisées et pas assez de mode « Mettre ensemble ». Cela peut quand même se produire, même si une grande partie du mode « Shouldy » est utilisée. L'entraînement de libellés spécifiques dans des modes tels que « Apprentissage du libellé » (Teach label) peut naturellement entraîner un léger équilibre dans les données examinées. La plate-forme vous aide à identifier lorsque cela se produit et vous aide à y remédier de manière rapide et efficace.

Qu'est-ce que « Rebalance » et comment l'utiliser ?

Le «rééquilibreur » est un mode d'entraînement qui aide à réduire les équilibres potentiels dans la façon dont un modèle a été annoté, c'est-à-dire le biais d'annotation, ce qui signifie que les données examinées ne sont pas aussi représentatives de l'ensemble de données qu'elles pourraient l'être.

Le mode d'entraînement «Rééquilibrer » affiche les messages sous-représentés dans l'ensemble révisé.

L'annotation des messages (comme vous le feriez dans n'importe quel autre mode d'entraînement) présentés dans ce mode aidera à corriger les équilibres dans les données d'entraînement et à améliorer le score d'équilibre du modèle.

Conseil supérieur : le rééquilibrage est généralement plus efficace lorsqu'il est peu utilisé et souvent utilisé. L'annotation d'un petit nombre de messages (entre 10 et 20) dans ce mode et la possibilité pour le modèle de se réentraîner avant d'actualiser et d'annoter plus d'exemples est le meilleur moyen de maximiser l'impact qu'elle aura sur le score d'équilibre du modèle.

Le mode d'entraînement « Rééquilibrer » sur un ensemble de données de démonstration

Si vous constatez que vous avez un score de similarité élevé mais que la note d'équilibre est toujours faible, c'est probablement parce que vous n'avez pas suffisamment annoté les données d'entraînement en mode « Métadonné ». Si tel est le cas, la plateforme suggérera d' annotation une sélection aléatoire de messages comme action recommandée en priorité. L'entraînement dans ce mode donne à la plate-forme l'assurance supplémentaire que l'ensemble de données n'a pas été annoté de manière biaisée et que les données d'entraînement sont un échantillon représentatif.

Quelle quantité de « Rebalance » dois-je utiliser ?

Vous devez continuer à utiliser « Rééquilibrer » de manière répétée pour améliorer le score de similarité de votre modèle, ce qui augmentera à son tour votre note «Équilibre ».

Une fois que cela atteint une note «Bon » en Validation, c'est à vous de décider jusqu'à quel point vous souhaitez augmenter le score de similarité avant d'arrêter l'entraînement dans « Rééquilibrer ».

Vous pouvez essayer d'optimiser cette notation autant que possible, mais l'entraînement continu présentera toujours des retours décroissants. Une note «Bon » doit généralement être considérée comme un niveau de performances acceptable pour un bon modèle.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.