Communications Mining
latest
false
Wichtig :
Dieser Inhalt wurde maschinell übersetzt.
Communications Mining-Benutzerhandbuch
Last updated 2. Juli 2024

Verbesserung des Abgleichs und Verwendung des Abgleichs

Benutzerberechtigungen erforderlich: „Quellen anzeigen“ UND „Überprüfen und Kommentieren“.

Was ist „Gleichgewicht“ und warum ist es wichtig?

Die Ausgewogenheitsbewertung , die in der Modellbewertung in der Validierung dargestellt wird, spiegelt wider, wie ausgewogen die überprüften Daten (d. h. die Trainingsdaten) in einem Dataset im Vergleich zum Dataset als Ganzes sind.

Dabei wird eine Reihe von Faktoren berücksichtigt (wie unten gezeigt), einschließlich:

  • Die Ähnlichkeit der überprüften Daten mit den nicht überprüften Daten (angezeigt als prozentualer Anteil)
  • Der Anteil der überprüften Daten, die durch Zufallsauswahl überprüft wurden (d. h Mischen-Modus)
  • Der Anteil der Daten, die mit „Neuausgleich “ überprüft wurden (Details finden Sie unten)
  • Der Anteil der Daten, die während der Verwendung von „Textsucheüberprüft wurden.
Ein Beispiel für „Gleichgewicht“-Komponente der Modellbewertung

Es ist wichtig, dass der Anteil der Daten, die durch Zufallsauswahl überprüft werden, hoch ist (idealerweise 20 %+) und der Anteil der überprüften Daten, die mit der Suche mit Anmerkungen versehen werden, niedrig ist.

Die Ausgewogenheitsbewertung wird jedoch am stärksten von der Ähnlichkeitsbewertung beeinflusst, die die Ähnlichkeit der nicht überprüften Daten mit den überprüften Daten misst.

Diese Ähnlichkeitsbewertung wird durch ein proprietäres Annotation Bias-Modell berechnet, das die überprüften und nicht überprüften Daten vergleicht, um sicherzustellen, dass die beschrifteten Daten repräsentativ für das gesamte Dataset sind. Wenn die Daten nicht repräsentativ sind und voreingenommen mit Anmerkungen versehen wurden, können Messungen der Modellleistung irreführend und potenziell unzuverlässig sein.

Die Anmerkungsverzerrung in der Plattform ist in der Regel das Ergebnis eines Ungleichgewichts der Trainingsmodi, die zum Zuweisen von Beschriftungen verwendet werden, insbesondere wenn zu viel „Textsuche“ und zu wenig „Machine“-Modus verwendet wird. Dies kann jedoch auch dann auftreten, wenn ein hoher Anteil des Mischmodus-Modus verwendet wird. Das Training bestimmter Bezeichnungen in Modi wie „Bezeichnung lernen“ kann natürlich zu einem leichten Ungleichgewicht in den überprüften Daten führen. Die Plattform hilft Ihnen, diesen Fehler zu erkennen und schnell und effektiv damit umzugehen.

Was ist „Re Balance“ und wie wird es verwendet?

Neuausgleich“ ist ein Trainingsmodus, der hilft, die potenziellen Unausgewogenheit bei der Anmerkung eines Modells zu reduzieren, d. h. die Anmerkungsverzerrung. Dies bedeutet, dass die überprüften Daten nicht so repräsentativ für das gesamte Dataset sind, wie sie sein könnten.

Der Trainingsmodus „ Neuausgleich“ zeigt Nachrichten an, die im überprüften Satz unterrepräsentiert sind.

Wenn Sie die in diesem Modus angezeigten Meldungen mit Anmerkungen versehen (wie in jedem anderen Trainingsmodus), hilft dies , Unausgleiche in den Trainingsdaten zu beheben und die Ausgewogenheit des Modells zu verbessern.

Top-Tipp: Eine Neuausrichtung ist in der Regel am effektivsten, wenn sie wenig und häufig verwendet wird. Die beste Möglichkeit, die Auswirkung auf die Ausgewogenheit des Modells zu maximieren, ist die beste Möglichkeit, eine kleine Anzahl von Meldungen (zwischen 10 und 20) in diesem Modus zu kommentieren und das Modell erneut trainieren zu lassen, bevor weitere Beispiele aktualisiert und mit Anmerkungen versehen werden.

Der Trainingsmodus „Neuausgleich“ für ein Demo-Dataset

Wenn Sie feststellen, dass Sie einen hohen Ähnlichkeitswert haben, aber die Ausgewogenheitsbewertung immer noch niedrig ist, liegt dies wahrscheinlich daran, dass Sie zu wenig von den Trainingsdaten im Mischmodus kommentiert haben. Wenn dies der Fall ist, schlägt die Plattform vor, eine zufällige Auswahl von Nachrichten als empfohlene Aktion der Priorität zu kommentieren. Das Training in diesem Modus gibt der Plattform die zusätzliche Sicherheit, dass das Dataset nicht voreingenommen mit Anmerkungen versehen wurde und dass es sich bei den Trainingsdaten um eine repräsentative Stichprobe handelt.

Wie viel „Neuausgleich“ sollte ich verwenden?

Sie sollten „Ausbalancieren‟ weiterhin iterativ verwenden, um die Ähnlichkeitspunktzahl für Ihr Modell zu verbessern, wodurch sich wiederum Ihre Ausgewogenheitsbewertung erhöht.

Sobald dies in der Validierung die Bewertung „ Gut“ erreicht hat, liegt es an Ihnen, um wie viel mehr Sie die Ähnlichkeitspunktzahl erhöhen möchten, bevor Sie das Training in „Neuausgleich“ beenden.

Sie können versuchen, diese Bewertung so weit wie möglich zu optimieren, aber fortgesetztes Training wird immer mit sinkenden Ergebnissen verbunden sein. Die Bewertung „ Gut“ sollte in der Regel als akzeptables Leistungsniveau für ein gutes Modell angesehen werden.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen - Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005-2024 UiPath. Alle Rechte vorbehalten.