Communications Mining
Neuestes
False
Bannerhintergrundbild
Communications Mining-Benutzerhandbuch
Letzte Aktualisierung 18. Apr. 2024

Verbesserung des Ausgleichs und Verwendung von „Neuausgleich“

Benutzerberechtigungen erforderlich: „Quellen anzeigen“ UND „Überprüfen und Beschriften“.

Was ist „Gleichgewicht“ und warum ist es wichtig?

Die Ausgewogenheitsbewertung , die in der Modellbewertung in der Validierung dargestellt wird, spiegelt wider, wie ausgewogen die überprüften Daten (d. h. die Trainingsdaten) in einem Dataset im Vergleich zum Dataset als Ganzes sind.

Dabei wird eine Reihe von Faktoren berücksichtigt (wie unten gezeigt), einschließlich:

  • Die Ähnlichkeit der überprüften Daten mit den nicht überprüften Daten (angezeigt als prozentualer Anteil)
  • Der Anteil der überprüften Daten, die durch Zufallsauswahl überprüft wurden (d. h Mischen-Modus)
  • Der Anteil der Daten, die mit „Neuausgleich “ überprüft wurden (Details finden Sie unten)
  • Der Anteil der Daten, die während der Verwendung von „Textsucheüberprüft wurden.
Ein Beispiel für „Gleichgewicht“-Komponente der Modellbewertung

Es ist wichtig, dass der Anteil der Daten, die durch Zufallsauswahl überprüft werden, hoch ist (idealerweise 20 %+) und der Anteil der überprüften Daten, die mit der Suche beschriftet werden, niedrig ist.

Die Ausgewogenheitsbewertung wird jedoch am stärksten von der Ähnlichkeitsbewertung beeinflusst, die die Ähnlichkeit der nicht überprüften Daten mit den überprüften Daten misst.

Diese Ähnlichkeitsbewertung wird durch ein proprietäres Labeling Bias-Modell berechnet, das die überprüften und nicht überprüften Daten vergleicht, um sicherzustellen, dass die beschrifteten Daten repräsentativ für das gesamte Dataset sind. Wenn die Daten nicht repräsentativ sind und voreingenommen beschriftet wurden, können Modellleistungsmaßnahmen irreführend und potenziell unzuverlässig sein.

Beschriftungsverzerrungen in der Plattform sind in der Regel das Ergebnis eines Ungleichgewichts der Trainingsmodi, die zum Zuweisen von Beschriftungen verwendet werden, insbesondere wenn zu viel „Textsuche“ und zu wenig „Machine“-Modus verwendet wird. Dies kann jedoch auch dann auftreten, wenn ein hoher Anteil des Mischmodus-Modus verwendet wird. Das Training bestimmter Bezeichnungen in Modi wie „Bezeichnung lernen“ kann natürlich zu einem leichten Ungleichgewicht in den überprüften Daten führen. Die Plattform hilft Ihnen, diesen Fehler zu erkennen und schnell und effektiv damit umzugehen.

Was ist „Re Balance“ und wie wird es verwendet?

Neuausgleich“ ist ein Trainingsmodus, der hilft, die potenziellen Unausgewogenheit bei der Beschriftung eines Modells zu reduzieren, d. h. die Beschriftungsverzerrung, die bedeutet, dass die überprüften Daten nicht so repräsentativ für das gesamte Dataset sind, wie sie sein könnten.

Der Trainingsmodus „ Neuausgleich“ zeigt Nachrichten an, die im überprüften Satz unterrepräsentiert sind.

Das Beschriften der Meldungen (wie in jedem anderen Trainingsmodus), die in diesem Modus angezeigt werden, hilft , Unausgewogenheit in den Trainingsdaten zu beheben und die Ausgewogenheit des Modells zu verbessern.

Top-Tipp: Eine Neuausrichtung ist in der Regel am effektivsten, wenn sie wenig und häufig verwendet wird. Wenn Sie eine kleine Anzahl von Meldungen (zwischen 10 und 20) in diesem Modus beschriften und dem Modell erlauben, erneut zu trainieren, bevor weitere Beispiele aktualisiert und beschriftet werden, ist dies die beste Möglichkeit, um die Auswirkung auf die Ausgewogenheit des Modells zu maximieren.

Der Trainingsmodus „Neuausgleich“ für ein Demo-Dataset

Wenn Sie feststellen, dass Sie einen hohen Ähnlichkeitswert haben, aber die Ausgewogenheitsbewertung immer noch niedrig ist, liegt dies wahrscheinlich daran, dass Sie nicht genügend Trainingsdaten im Mischmodus beschriftet haben. In diesem Fall schlägt die Plattform vor, eine zufällige Auswahl von Nachrichten als empfohlene Aktion mit Priorität zu beschriften . Das Training in diesem Modus gibt der Plattform die zusätzliche Sicherheit, dass das Dataset nicht voreingenommen beschriftet wurde und dass es sich bei den Trainingsdaten um eine repräsentative Stichprobe handelt.

Wie viel „Neuausgleich“ sollte ich verwenden?

Sie sollten „Ausbalancieren‟ weiterhin iterativ verwenden, um die Ähnlichkeitspunktzahl für Ihr Modell zu verbessern, wodurch sich wiederum Ihre Ausgewogenheitsbewertung erhöht.

Sobald dies in der Validierung die Bewertung „ Gut“ erreicht hat, liegt es an Ihnen, um wie viel mehr Sie die Ähnlichkeitspunktzahl erhöhen möchten, bevor Sie das Training in „Neuausgleich“ beenden.

Sie können versuchen, diese Bewertung so weit wie möglich zu optimieren, aber fortgesetztes Training wird immer mit sinkenden Ergebnissen verbunden sein. Die Bewertung „ Gut“ sollte in der Regel als akzeptables Leistungsniveau für ein gutes Modell angesehen werden.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.