ixp
latest
false
UiPath logo, featuring letters U and I in white

Communications Mining-Benutzerhandbuch

Letzte Aktualisierung 7. Okt. 2025

So funktioniert die Validierung

Hinweis: Sie müssen die Berechtigungen Quelle – Lesen und Dataset – Lesen als Automation Cloud-Benutzer oder die Berechtigungen Quellen anzeigen und Beschriftungen anzeigen als Legacy-Benutzer zugewiesen haben.

Bei der Validierung bewertet die Plattform die Leistung sowohl des Bezeichnungs- als auch des allgemeinen Feldmodells, das einem Dataset zugeordnet ist.

Insbesondere für das Beschriftungsmodell berechnet es eine allgemeine Modellbewertung , indem eine Reihe verschiedener Leistungsfaktoren getestet werden, darunter:

  • Wie gut sie in der Lage ist, jede Beschriftung in der Taxonomie vorherzusagen, indem eine Teilmenge von Trainingsdaten aus diesem Dataset verwendet wird.
  • Wie gut das Dataset insgesamt durch informative Beschriftungsvorhersagen abgedeckt wird.
  • Wie ausgewogen die Trainingsdaten sind, in Bezug auf ihre Zuweisung, und wie gut sie das Dataset als Ganzes darstellen.

Bewerten der Beschriftungsleistung

Um zu bewerten, wie gut sie jede Beschriftung vorhersagen kann, teilt die Plattform zuerst die überprüften, d. h. mit Anmerkungen versehenen Nachrichten im Dataset in die folgenden Gruppen auf:
  • einen Großteil von Trainingsdaten.
  • Einen Minoritätssatz von Testdaten.

In der folgenden Abbildung stellen die farbigen Punkte die Nachrichten mit Anmerkungen innerhalb eines Datasets dar. Diese Aufteilung wird durch die Nachrichten-ID bestimmt, wenn die Nachrichten zum Dataset hinzugefügt werden, und bleibt während der gesamten Lebensdauer des Datasets konsistent.



Die Plattform trainiert sich dann selbst, indem sie nur den Trainingssatz als Trainingsdaten verwendet.

Basierend auf diesem Training versucht es dann vorherzusagen, welche Beschriftungen für die Nachrichten im Testsatz gelten sollen und bewertet die Ergebnisse sowohl auf Genauigkeit als auch auf Erinnerung mit den tatsächlichen Beschriftungen, die von einem menschlichen Benutzer angewendet wurden.

Darüber hinaus berücksichtigt die Plattform auch, wie Beschriftungen zugewiesen wurden, d. h. welche Trainingsmodi beim Anwenden von Beschriftungen verwendet wurden, um zu überprüfen, ob sie verzerrt oder ausgewogen mit Anmerkungen versehen wurden.

Die Validierung veröffentlicht dann Live-Statistiken über die Leistung der Beschriftungen für die neueste Modellversion, aber Sie können auch historische Leistungsstatistiken für zuvor angeheftete Modellversionen anzeigen.

Bewertung der Abdeckung

Um zu verstehen, wie gut Ihr Modell Ihre Daten abdeckt, betrachtet die Plattform alle nicht überprüften Daten im Dataset und die Vorhersagen, die die Plattform für jede dieser nicht überprüften Nachrichten getroffen hat.

Anschließend wird der Anteil der gesamten Nachrichten bewertet, für die mindestens eine informative Beschriftung vorhergesagt wurde.

Informative Beschriftungen sind solche Beschriftungen, die die Plattform als nützlich für eigenständige Beschriftungen versteht, indem sie überprüft, wie häufig sie mit anderen Beschriftungen zugewiesen werden. Beschriftungen, die immer mit einer anderen Beschriftung zugewiesen sind. Beispielsweise werden übergeordnete Beschriftungen, die nie selbst zugewiesen werden, oder „Dringend“, wenn sie immer mit einer anderen Beschriftung zugewiesen sind, bei der Berechnung der Punktzahl nach unten gewichtet.

Ausgewogenheit wird bewertet

Wenn die Plattform bewertet, wie ausgewogen Ihr Modell ist, sucht sie im Wesentlichen nach Anmerkungsverzerrungen, die ein Ungleichgewicht zwischen den Trainingsdaten und dem Dataset als Ganzes verursachen können.

Dazu wird ein Verzerrungsmodell für Anmerkungen verwendet, das die überprüften und nicht überprüften Daten vergleicht, um sicherzustellen, dass die Daten mit Anmerkungen für das gesamte Dataset repräsentativ sind. Wenn die Daten nicht repräsentativ sind, können Leistungsmessungen für Modelle irreführend und möglicherweise unzuverlässig sein.

Die Verzerrung von Anmerkungen ist in der Regel das Ergebnis eines Ungleichgewichts der Trainingsmodi, die zum Zuweisen von Beschriftungen verwendet werden, insbesondere wenn zu viel „Textsuche“ und zu wenig „Mischen“ verwendet wird.

Der Trainingsmodus Neuausgleich zeigt Nachrichten an, die im überprüften Satz unterrepräsentiert sind. Wenn Sie Beispiele in diesem Modus mit Anmerkungen versehen, können Sie Ungleichgewichte im Dataset schnell beheben.

Wenn die Validierung erfolgt

Jedes Mal, wenn Sie ein Training innerhalb eines Datasets abschließen, wird das Modell aktualisiert und liefert neue Vorhersagen für jede Nachricht. Parallel wird auch die Leistung des Modells neu bewertet. Das bedeutet, dass zu dem Zeitpunkt, in dem die neuen Vorhersagen bereit sind, auch neue Validierungsstatistiken verfügbar sein sollten (obligatorisch kann ein Prozess manchmal länger dauern als der andere), einschließlich der neuesten .

Hinweis: Die Plattform zeigt Ihnen standardmäßig immer die neuesten Validierungsstatistiken an, die berechnet wurden, und teilt Ihnen mit, wenn neue Statistiken noch berechnet werden müssen.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo
Vertrauen und Sicherheit
© 2005–2025 UiPath. Alle Rechte vorbehalten