Communications Mining
Plus récente (Latest)
False
Image de fond de la bannière
Guide de l'utilisateur de Communications Mining
Dernière mise à jour 18 avr. 2024

Amélioration de l'équilibre et utilisation de « Rééquilibrer »

Autorisations utilisateur requises : « Afficher les sources » ET « Réviser et libellé ».

Qu'est-ce que « Équilibre » et pourquoi est-il important ?

La note d' équilibre présentée dans la note de modèle lors de la validation reflète l'équilibre des données révisées (c'est-à-dire les données d'entraînement) dans un ensemble de données, par rapport à l'ensemble de données dans son ensemble.

Elle prend en compte un certain nombre de facteurs contributifs (comme indiqué ci-dessous), notamment :

  • La similarité des données examinées avec les données non examinées (affichées sous la forme d’un score en pourcentage)
  • La proportion de données examinées ayant été examinées par le biais d'un échantillon aléatoire (c'est-à-dire Mode « Mandat »)
  • La proportion de données ayant été examinées à l'aide du «Rééquilibrer » (voir ci-dessous pour plus de détails)
  • La proportion de données ayant été examinées lors de l'utilisation de la «Recherche textuelle »
Un exemple de composant « Équilibre » de la notation du modèle

Il est important que la proportion de données examinées par échantillon aléatoire soit élevée (idéalement supérieure à 20 %) et que la proportion de données examinées labellisées à l'aide de la recherche soit faible.

La note d'équilibre est cependant fortement influencée par le score de similarité qui mesure la similarité des données non révisées avec les données révisées.

Ce score de similarité est calculé par un modèle de biais de labellisation propriétaire qui compare les données examinées et non examinées pour garantir que les données labellisées sont représentatives de l'ensemble de données. Si les données ne sont pas représentatives et ont été labellisées de manière biaisée, les mesures de performances du modèle peuvent être trompeurs et potentiellement peu fiables.

Le biais de labellisation dans la plate-forme est généralement le résultat d'un équilibre entre les modes d'entraînement utilisés pour attribuer des libellés, surtout si trop de « recherche de texte » sont utilisées et pas assez de mode « Mettre ensemble ». Cela peut quand même se produire, même si une grande partie du mode « Shouldy » est utilisée. L'entraînement de libellés spécifiques dans des modes tels que « Apprentissage du libellé » (Teach label) peut naturellement entraîner un léger équilibre dans les données examinées. La plate-forme vous aide à identifier lorsque cela se produit et vous aide à y remédier de manière rapide et efficace.

Qu'est-ce que « Rebalance » et comment l'utiliser ?

Le «rééquilibreur » est un mode d'entraînement qui aide à réduire les équilibres potentiels dans la façon dont un modèle a été labellisé, c'est-à-dire le biais de labellisation, ce qui signifie que les données examinées ne sont pas aussi représentatives de l'ensemble de données qu'elles pourraient l'être.

Le mode d'entraînement «Rééquilibrer » affiche les messages sous-représentés dans l'ensemble révisé.

La labellisation des messages (comme vous le feriez dans n'importe quel autre mode d'entraînement) présentés dans ce mode aidera à corriger les équilibres dans les données d'entraînement et à améliorer le score d'équilibre du modèle.

Conseil supérieur : le rééquilibrage est généralement plus efficace lorsqu'il est peu utilisé et souvent utilisé. La labellisation d'un petit nombre de messages (entre 10 et 20) dans ce mode et permettre au modèle de se réentraîner avant d'actualiser et de labelliser plus d'exemples est le meilleur moyen de maximiser l'impact qu'elle aura sur le score d'équilibre du modèle.

Le mode d'entraînement « Rééquilibrer » sur un ensemble de données de démonstration

Si vous constatez que vous avez un score de similarité élevé mais que la note d'équilibre est toujours faible, c'est probablement parce que vous n'avez pas suffisamment labellisé les données d'entraînement en mode « Mandat ». Si tel est le cas, la plate-forme suggérera de labelliser une sélection aléatoire de messages comme action recommandée en priorité. L'entraînement dans ce mode donne à la plate-forme l'assurance supplémentaire que l'ensemble de données n'a pas été labellisé de manière biaisée et que les données d'entraînement sont un échantillon représentatif.

Quelle quantité de « Rebalance » dois-je utiliser ?

Vous devez continuer à utiliser « Rééquilibrer » de manière répétée pour améliorer le score de similarité de votre modèle, ce qui augmentera à son tour votre note «Équilibre ».

Une fois que cela atteint une note «Bon » en Validation, c'est à vous de décider jusqu'à quel point vous souhaitez augmenter le score de similarité avant d'arrêter l'entraînement dans « Rééquilibrer ».

Vous pouvez essayer d'optimiser cette notation autant que possible, mais l'entraînement continu présentera toujours des retours décroissants. Une note «Bon » doit généralement être considérée comme un niveau de performances acceptable pour un bon modèle.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.