Communications Mining
Neuestes
False
Bannerhintergrundbild
Communications Mining-Benutzerhandbuch
Letzte Aktualisierung 18. Apr. 2024

Verstehen und Verbessern der Modellleistung

Verstehen der Gesamtleistung des Modells

Wie gut ein Machine Learning-Modell insgesamt funktioniert, wird durch eine Reihe von Faktoren bestimmt, die in Kombination miteinander berücksichtigt werden müssen. Es reicht nicht aus, nur zu berücksichtigen, ob die Beschriftungen eines Modells eine hohe durchschnittliche Genauigkeit haben, oder sich einfach zu ansehen, wie viel von einem Dataset selbst von Vorhersagen abgedeckt wird.

Um sicher zu sein, dass ein Modell eine tatsächliche Darstellung eines Datasets ist, mit genauen, zuverlässigen Bezeichnungsvorhersagen und einer hohen Abdeckung, bewerten wir 4 Hauptfaktoren (und hier erfahren Sie, wie das funktioniert):

  • Alle Bezeichnungen – Dieser Faktor bewertet die durchschnittliche Leistung aller Bezeichnungen in der Taxonomie
  • Understanding Labels – Dieser Faktor bewertet die Leistung der 10 % der Bezeichnungen, die die größten Leistungsprobleme oder den niedrigsten Gesamtzustand aufweisen
  • Abdeckung – Dieser Faktor bewertet den Anteil der Nachrichten, die mindestens eine informative Bezeichnung haben werden
  • Ausgewogenheit – Dieser Faktor bewertet, ob die überprüften Daten ein effektiver, ausgewogener Repräsentant des gesamten Datasets sind

Die Plattform kombiniert ihre Bewertung dieser vier Faktoren in einer einzigen, leicht verständlichen proprietären „ Modellbewertung“. Diese Bewertung ist das beste Maß für die Leistung eines Modells, da sie alle wichtigsten Faktoren berücksichtigt, nach denen ein Bezeichnungsmodell bewertet werden sollte, gewichtet nach ihrer relativen Wichtigkeit.

Die Modellbewertung ist eine Punktzahl von 0 bis 100, die einer Bewertung von „ Poor“ (0–49), „ Durchschnittlich“ (50–69), „ Gut“ (70–89) oder „ Ausgezeichnet“ (90–89) entspricht. 100).

Die Validierung bietet auch eine Aufschlüsselung der einzelnen Faktoren – Jedem Faktor wird eine eigene qualitative Bewertung zugewiesen . Außerdem werden die Metriken angezeigt, die zu dieser Bewertung beitragen . Diese werden im Folgenden ausführlicher erläutert.

Jeder Faktor kann je nach Leistung entweder einen positiven oder negativen Beitrag zur Modellbewertung leisten. Es ist sehr wahrscheinlich, dass Modelle mit „ mangelhaft“-Bewertungen für jeden Faktor eine Gesamtbewertung von null haben, insbesondere wenn sie sich noch sehr früh im Modelltrainingsprozess befinden.

Beispiel einer Modellbewertung in der Validierung für ein Demo-Dataset

Hinweis:

Die Modellbewertung ist spezifisch für Bezeichnungen und berücksichtigt nicht die Leistung von Entitäten. Die Validierung bietet jedoch auch detaillierte Metriken zur Leistung von Entitätsvorhersagen (siehe hier).

In der Dropdownliste „Modellversion“, die sich über der Modellbewertung befindet, können Sie alle Validierungsergebnisse in früheren Modellversionen für ein bestimmtes Dataset sehen. Sie können auch einzelne priorisieren oder mit einem Stern versehen, damit sie in Zukunft ganz oben in der Liste erscheinen. Dieses Tool kann nützlich sein, um den Fortschritt bei der Erstellung Ihres Modells zu verfolgen und zu vergleichen.

Die Dropdownliste stellt sicher, dass Sie keine Modellversion anheften müssen, um die Validierungspunktzahlen dafür anzuzeigen. Das Anheften einer Modellversion (siehe hier) muss nur für Modellversionen verwendet werden, die Sie nachgelagert über die API aufrufen können möchten (z. B. für automatisiertes Routing).

Die Dropdownliste der Modellversion

Faktoren

Die Registerkarte Faktoren in Validierung (wie oben gezeigt) bietet eine Aufschlüsselung der einzelnen Schlüsselfaktoren, die bei der Berechnung der Modellbewertung berücksichtigt werden.

Jede Faktorkarte zeigt:

  • Die Bewertung für den Faktor und eine qualitative Beschreibung davon
  • Die Mitwirkenden , d. h. die verschiedenen Komponenten, die zur Bewertung für diesen Faktor beitragen
  • Empfohlene Aktionen, die nach Priorität geordnet sind und zur Verbesserung der Bewertung des Faktors beitragen können

Alle Beschriftungen

  • Dieser Faktor bewertet die durchschnittliche Leistung aller Bezeichnungen in der Taxonomie.
  • Sie hängt hauptsächlich von der mittleren durchschnittlichen Genauigkeit (MAP) für alle Bezeichnungen ab, gewichtet danach, wie häufig sie zugewiesen werden
  • Es wird auch berücksichtigt, wenn die Taxonomie Beschriftungen mit roten oder gelben Leistungswarnungen enthält
  • Die empfohlenen Aktionen für diesen Faktor zielen in der Regel darauf ab, die durchschnittliche Genauigkeit bestimmter Beschriftungen zu erhöhen oder ihre Leistungswarnungen zu entfernen

Beschriftungen mit unzureichender Leistung

  • Mit diesem Faktor wird die Leistung der 10 % der Bezeichnungen in der Taxonomie bewertet, die die größten Leistungsprobleme oder den niedrigsten Zustand der Bezeichnung insgesamt aufweisen (wenn keine Warnungen zurückgegeben werden).
  • Wenn selbst die unteren 10 % Ihrer Bezeichnungen noch sehr gut funktionieren, ist dies ein Zeichen dafür, dass Ihr Modell in Ordnung ist
  • Dies hängt von der MAP der Bezeichnungen mit der niedrigsten Leistung ab und ob diese Bezeichnungen signifikante Leistungswarnungen aufweisen (d. h rote oder gelbe Warnungen).
  • Die empfohlenen Aktionen für diesen Faktor werden in der Regel so konzipiert, dass die durchschnittliche Genauigkeit bestimmter Beschriftungen mit unzureichender Leistung erhöht und alle anderen einzelnen Leistungswarnungen entfernt werden

Abdeckung

  • Dieser Faktor bewertet den Anteil der Nachrichten, die voraussichtlich mindestens eine informative Bezeichnung haben werden (weitere Details finden Sie hier ).
  • Es ist sehr wichtig, dass ein gut funktionierendes Modell so viel wie möglich vom Dataset mit aussagekräftigen Bezeichnungsvorhersagen „abdeckt“.
  • Die empfohlenen Aktionen für diesen Faktor sollen dazu beitragen , die Abdeckung des Datasets zu erhöhen. Dies wird meistens im Modus „ Niedrige Konfidenz“ durchgeführt
  • Das Verstehen und Erhöhen der Abdeckung eines Datasets wird hierim Detail behandelt

Ausgewogenheit

  • Dieser Faktor bewertet, ob die überprüften Daten eine effektive, ausgewogene Darstellung des gesamten Datasets sind, und wurde entwickelt, um potenzielle Beschriftungsverzerrungen zu erkennen (weitere Details finden Sie hier ).
  • Es basiert auf einer Ähnlichkeitspunktzahl, die sich aus dem Vergleich der überprüften Daten mit den nicht überprüften Daten im Dataset ergibt, und darauf, ob bei der Beschriftung der Daten genügend Mischmodus verwendet wurde
  • Es ist wichtig, dass die überprüften Daten in einem Dataset den nicht überprüften Daten so ähnlich wie möglich sind, damit die Plattform so viele wie möglich davon zuverlässig identifizieren kann
  • Die empfohlenen Aktionen für diesen Faktor sind so konzipiert, dass potenzielle Beschriftungsverzerrungen reduziert und die Ähnlichkeit der überprüften Daten erhöht werden
  • Das Verständnis und die Verbesserung der Ausgewogenheit des Datasets wird hierim Detail behandelt

Hinweis: Die Plattform versucht immer, die empfohlenen zweitbesten Aktionen anzuzeigen, die einen Faktor verbessern könnten, auch wenn der Faktor mit „Gut“ oder „Ausgezeichnet“ bewertet wird. Für den Fall, dass Sie die Leistung dieses Faktors weiter optimieren möchten.

Metriken

Die Registerkarte Metriken der Seite Validierung zeigt einige Statistiken zur durchschnittlichen Beschriftungsleistung sowie ein Diagramm an, das die durchschnittliche Genauigkeit jeder Beschriftung im Vergleich zur Größe des Trainingssatzes zeigt. Das Diagramm zeigt auch Beschriftungen mit gelben oder roten Leistungswarnungen an.

Registerkarte Beispielmetriken in der Validierung für ein Demo-Dataset

Die angezeigten Statistiken zur Beschriftungsleistung sind:

Im Wesentlichen gilt: Je höher Ihre MAP -Punktzahl, desto besser funktioniert das Modell insgesamt, wenn es um die Genauigkeit der Vorhersagen geht. Dies hängt jedoch von den Datasets ab, je nach Datentyp und den Zielen, auf die Sie Ihre Taxonomie ausgerichtet haben.

Der MAP ist jedoch kein gutes Maß für die Abdeckung oder Ausgewogenheit und sollte nicht ausschließlich zur Bestimmung der Eignung Ihres Modells für diesen Zweck herangezogen werden. Weitere Informationen zum Verstehen und Überprüfen der Abdeckung Ihres Modells finden Sie hier. Weitere Informationen zum Überprüfen und Verbessern der Ausgewogenheit Ihres Modells finden Sie hier.

Verstehen der Beschriftungsleistung

Das Beschriftungsleistungsdiagramm, das auf der Registerkarte Metriken der Seite Validierung (siehe oben) angezeigt wird, gibt einen sofortigen visuellen Hinweis auf die Leistung jeder einzelnen Beschriftung.

Damit eine Bezeichnung in diesem Diagramm angezeigt wird, muss sie mindestens 20 angeheftete Beispiele im Trainingssatz haben, der von der Plattform während der Validierung verwendet wird. Um dies zu gewährleisten, sollten Benutzer sicherstellen, dass sie mindestens 25 (oft mehr) angeheftete Beispiele pro Beschriftung angeben.

Jede Beschriftung wird in einer von drei Farben dargestellt, basierend auf dem Verständnis des Modells für die Leistung der Beschriftung. Im Folgenden erklären wir, was diese bedeuten:

Beschriften Sie Leistungsindikatoren

Beschriften von Leistungsindikatoren:

  • Die Bezeichnungen, die im Diagramm blau dargestellt sind, haben eine zufriedenstellende Leistung . Dies basiert auf zahlreichen Faktoren, die dazu beitragen, einschließlich der Anzahl und Vielfalt der Beispiele, der Beschriftungsverzerrung und der durchschnittlichen Genauigkeit für diese Beschriftung
  • Beschriftungen, die mit Gelbfarbe dargestellt sind, haben eine etwas schlechtere Leistung als zufriedenstellend . Sie können eine relativ geringe durchschnittliche Genauigkeit haben, nicht ganz genügend Trainingsbeispiele, oder sie könnten voreingenommen beschriftet sein. Diese Bezeichnungen erfordern ein wenig Training/Korrektur, um ihre Leistung zu verbessern oder die Verzerrung in der Art und Weise zu reduzieren, wie sie trainiert wurden
  • Beschriftungen, die rot aufgezeichnet werden, haben Beschriftungen mit schlechter Leistung. Sie können eine sehr geringe durchschnittliche Genauigkeit haben, nicht genügend Trainingsbeispiele, oder sie sind stark voreingenommen in der Art, wie sie beschriftet wurden. Diese Bezeichnungen können erheblich mehr Training/Korrektur erfordern, um ihre Leistung auf ein zufriedenstellendes Ergebnis zu bringen oder die Bias in der Art und Weise, wie sie trainiert wurden, erheblich zu reduzieren

Hinweis: Die gelben und roten Leistungsindikatoren werden in den Beschriftungsfilterleisten bei Erkunden, Berichten und Validierung angezeigt. Dies hilft Ihnen, schnell darüber zu informieren, welche Beschriftungen Hilfe benötigen und auch, dass Sie sich bei der Verwendung der Analysefunktionen nicht auf die Vorhersagen der Beschriftungen verlassen sollten (ohne Verbesserung).

Leistung der einzelnen Beschriftungen

Benutzer können einzelne Bezeichnungen aus der Bezeichnungsfilterleiste auswählen (oder durch Klicken auf das Diagramm der Beschriftung im Diagramm „Alle Beschriftungen“), um die Leistungsstatistiken der Beschriftung anzuzeigen. In der spezifischen Labelansicht werden auch alle Leistungswarnungen und empfohlenen Vorschläge für die nächste beste Aktion angezeigt, um die Leistung zu verbessern.

Die Bezeichnungsansicht zeigt die durchschnittliche Genauigkeit für die Bezeichnung sowie ihre Genauigkeit im Vergleich zur Erinnerung basierend auf einem bestimmten Konfidenzschwellenwert an, den Benutzer selbst anpassen können, um zu sehen, wie er sich ändert (weitere Informationen finden Sie im letzten Abschnitt dieses Artikels).

Validierungsseite mit einer bestimmten ausgewählten Bezeichnung

Verbesserung der Gesamtleistung des Modells und der einzelnen Bezeichnungen

Wenn Ihr Modell oder eine bestimmte Bezeichnung eine Leistungswarnung aufweist, empfiehlt die Plattform die nächstbeste Aktion , die ihrer Meinung nach dazu beitragen wird, diese Warnung zu beheben. Dies geschieht entweder über eine der Faktorkarten (wie unten gezeigt) oder wenn Sie eine bestimmte Bezeichnung aus der Taxonomie oder dem Diagramm „Alle Beschriftungen“ auswählen (wie oben gezeigt).

Beispiel für eine Faktorkarte mit empfohlenen Aktionen

Bei einigen Bezeichnungen mit sehr niedriger durchschnittlicher Genauigkeit ist möglicherweise nicht immer klar, warum sie so schlecht abschneiden. Mögliche Gründe, warum eine Bezeichnung eine geringe durchschnittliche Genauigkeit haben kann und wie sie verbessert werden kann, werden im folgenden Artikel hier erläutert. Die Plattform stellt immer die ihrer Meinung nach besten Korrekturmaßnahmen zur Verbesserung der Bezeichnung bereit, die in der Reihenfolge der Priorität aufgeführt sind.

Wenn Sie sich nicht auf der Seite Validierung befinden, werden die roten und gelben Leistungswarnungen weiterhin im Taxonomiefilter in Erkunden und Berichten angezeigt, sodass diese ein hilfreicher Indikator für die Überprüfung der Validierung sein können, um die empfohlenen Korrekturmaßnahmen anzuzeigen.

Die Vorschläge für nächste beste Aktionen dienen als Links , auf die Sie klicken können, um direkt zur Trainingsansicht zu gelangen, die die Plattform vorschlägt, um die Leistung der Bezeichnung zu verbessern oder ihre Ausrichtung zu reduzieren. Die Vorschläge werden intelligent geordnet, wobei die Aktion mit der höchsten Priorität zur Verbesserung der Bezeichnung zuerst aufgeführt wird.

Dies ist das wichtigste Tool , um die Leistung Ihres Modells zu verstehen, und sollte regelmäßig als Leitfaden verwendet werden, wenn Sie versuchen, die Leistung einer Bezeichnung zu verbessern.

Im nächsten Artikel werden die Gründe für die geringe durchschnittliche Genauigkeit einer Bezeichnung im Detail behandelt (hier). Die späteren Artikel in diesem Abschnitt der Wissensdatenbank behandeln auch die anderen Trainingsmodi,die die Plattform möglicherweise vorschlägt , um die Leistung Ihres Modells zu verbessern, nämlich „Bezeichnung überprüfen“,„Bezeichnungfehlen“ und „ Neuausgleich “.

Hinweis: Wenn Sie eine ältere Modellversion ausgewählt haben, werden die Warnungen und vorgeschlagenen Aktionen weiterhin angezeigt, aber wenn Sie mit der Maus über das Informationssymbol fahren, werden Sie in einem Popup gewarnt, dass diese spezifischen Statistiken dort nicht geändert werden können ist eine neuere Modellversion (an der Sie arbeiten können).

Grundlegendes zum Schieberegler für den Bezeichnungsschwellenwert

Hinweis: Das Anpassen des Schiebereglers für den Konfidenzschwellenwert wirkt sich nicht tatsächlich auf das Modell aus. Sie erhalten lediglich eine visuelle Darstellung davon, wie sich die Auswahl eines bestimmten Konfidenzschwellenwerts auf die Vorhersagen für diese Bezeichnung auswirken würde. Dies kann Ihnen helfen, einen geeigneten Schwellenwert für Streams auszuwählen oder Vorhersagen für die Downstream-Automatisierung zu verwenden.

Um den Konfidenzschwellenwert für eine Bezeichnung anzupassen, können Benutzer eine %-Zahl in das Feld eingeben oder einfach den Schieberegler über die Skala ziehen.

Beschriften Sie spezifische Validierungsstatistiken

Beachten Sie, wie in der obigen Abbildung der Konfidenzschwellenwert für die Beschriftung „Zitieren > Motor“ auf 68,7 % festgelegt ist, was eine Genauigkeit von 100 % und eine Wiedererkennung von 85 % ergibt.

In der folgenden Abbildung wurde der Konfidenzschwellenwert mit dem Schieberegler auf 17 % angepasst, wodurch die Genauigkeit auf 84 % sinkt, die Wiedererkennung jedoch auf 100 % erhöht wird.

Beschriften Sie bestimmte Validierungsdiagramme

Um die Beziehung zwischen Präzision und Rückruf besser zu verstehen, lesen Sie hier. Und um besser zu verstehen, wie Sie Schwellenwerte für die Verwendung in Automatisierungen auswählen würden, lesen Sie hier.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.