communications-mining

latest

false

Wichtig :

Dieser Inhalt wurde maschinell übersetzt.

Communications Mining-Entwicklerhandbuch

Letzte Aktualisierung 26. Nov. 2024

Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken

Beim Erstellen und Trainieren eines Machine Learning-Modells ist das Verständnis der Leistung unerlässlich. Je nach Trainingsdaten und Aufgabe kann selbst das ausgereifteste Modell falsche Vorhersagen erzeugen, was zu irreführenden Analysen oder fehlerhaften Automatisierungsabläufen führt.

Das manuelle Durchsuchen von Beispielen, um Modellvorhersagen zu überprüfen, ist unpraktiziert, insbesondere bei Datasets mit Millionen von Datenpunkten. Stattdessen berechnet und zeigt Communications Mining kontinuierlich mehrere Metriken an, um Modelle zu analysieren und Fehler zu erkennen.

Unter bestimmten Bedingungen können sich Metriken jedoch unerwartet verhalten. In diesem Blogbeitrag besprechen wir einige der Probleme, die bei der Verwendung von Metriken auftreten, und einige der Lösungen, die Communications Mining zur Vereinfachung des Prozesses einsetzt.

Communications Mining in Aktion

CommunicationsMining ermöglicht es Benutzern, benutzerdefinierte Machine-Learning-Modelle für Kommunikationsdaten zu erstellen. Um zu verstehen, wie wir Metriken während dieses Prozesses verwenden, ist es nützlich, sich einen bestimmten Anwendungsfall vorzustellen.

Denken Sie an ein gemeinsam verwendetes Postfach für eine Bank, die unter Umständen täglich Tausende von E-Mails erhält. Communications Mining wird verwendet, um diese E-Mails automatisch zu sichten, damit die Mitarbeiter, die das Postfach nutzen, effizienter arbeiten können.

In einem echten Anwendungsfall würden Experten für das Postfach Hunderte von Beschriftungen erstellen, um verschiedene Workflows nachzuverfolgen und zu automatisieren. Für unsere Zwecke betrachten wir einen vereinfachten Fall

Dringende E-Mails. Diese müssen in den E-Mail-Clients der Mitarbeiter erkannt und gekennzeichnet werden.
Automatisch generierte E-Mails. Diese sollten erkannt und in einen Archivordner verschoben werden, um den Posteingang frei zu halten.

Der Benutzer erstellt die Beschriftungen Urgent und Auto Generated für diese Aufgaben und kommentiert einige Beispiel-E-Mails. Communications Mining trainiert automatisch ein ML-Modell, das vorhersagt, welche Bezeichnungen für eine E-Mail gelten. Dieses Modell wird dann verwendet, um die E-Mail-Triage-Aufgaben für Live-Daten zu automatisieren.

In diesem Kontext möchten wir eine Metrik haben, die angibt, wie gut das Modell diese beiden Bezeichnungen erkennt.

E-Mails mit der Kennzeichnung Automatisch generiert enthalten keine nützlichen Informationen und werden aus dem Postfach entfernt, um die Effizienz zu verbessern docs image

E-Mails mit der Kennzeichnung Dringend werden den Benutzern angezeigt und für eine schnelle Antwort priorisiert docs image

Vergleichen von Vorhersagen

Aufder untersten Ebene vergleichen die Metriken Beschriftungsvorhersagen mit korrekten Antworten in Form von Ja/Nein-Beschriftungsanmerkungen, die von Benutzern erstellt wurden.

Hinweis: ModellKONFIDENZ

Modelle in Communications Mining bieten keine binären (Ja/Nein)-Vorhersagen für das Vorhandensein der Bezeichnung. Stattdessen wird eine Zahl zwischen 00 und 11 zurückgegeben. Dies stellt die Konfidenz des Modells dar, dass eine Bezeichnung zutrifft.

Modellkonfidenzwerte werden mithilfe eines Schwellenwerts in binäre Bezeichnungsvorhersagen konvertiert. Dies ist einfach eine Zahl zwischen 00 und 11, die die Konfidenzwerte für eine Bezeichnung partitioniert.

Oberhalb des Schwellenwerts wird die Bezeichnung voraussichtlich gelten (ein „positives“ Beispiel).
Unterhalb des Schwellenwerts wird die Beschriftung voraussichtlich nicht gelten (ein „negatives“ Beispiel).

Mithilfe von Anmerkungen, Beschriftungsvorhersagen und einem Schwellenwert können wir eine Reihe von Beispielen in vier verschiedene Gruppen aufteilen

True Positive (TP). Das Modell sagt eine Bezeichnung vorher und die Bezeichnung gilt.
Falsch Positive (FT). Das Modell sagt eine Bezeichnung vorher und die Bezeichnung gilt nicht.
False Negatives (FN). Das Modell sagt keine Bezeichnung vorher und die Bezeichnung gilt tatsächlich.
True-Negative (TN). Das Modell sagt keine Bezeichnung vorher und die Bezeichnung gilt nicht.

Das Ändern des Schwellenwerts für eine Bezeichnung wirkt sich darauf aus, welche E-Mails in jede dieser vier Gruppen fallen, die als Ausgangspunkt für viele Metriken dienen.

Genauigkeit

Wir könnten versucht sein, einen Blick auf die Genauigkeit unseres Modells zu werfen.

Welcher Anteil aller Modellvorhersagen ist richtig?

Das erscheint sinnvoll und Genauigkeit wird oft als entscheidende Metrik für die KI-Leistung betrachtet. In einigen Fällen kann die Genauigkeit jedoch täuschen.

Dringende E-Mails sind im Postfach möglicherweise selten: Nur 1 von 25 E-Mails gehört tatsächlich zu dieser Klasse. Für ein falsches Modell, das niemals die Beschriftung Urgent für eine E-Mail vorhersagt, erhalten wir eine Genauigkeit von:

Diese Punktzahl ist hoch, aber unser Modell schneidet tatsächlich schlecht ab. Die Genauigkeit kann die Leistung bei Aufgaben mit seltenen Bezeichnungen wie Urgent und Auto Generated überschätzen.

Präzision und Rückruf

Anstelle der Genauigkeit können wir zwei Werte verwenden, die als Präzision und Wiedererkennung bezeichnet werden, um ein besseres Maß für die Modellleistung zu erhalten.

Welcher Anteil der Kommentare, für die das Modell die Bezeichnung vorhersagt, hat tatsächlich diese Bezeichnung?

Welchen Anteil der Kommentare, die die Beschriftung tatsächlich haben, vorhersagt das Modell mit der Beschriftung?

Mit demselben Beispiel von 1 Urgent -Bezeichnung in 25 Kommentaren würde unser Modell Präzisions- und Rückrufwerte von 00 erhalten. Dies zeigt, wie schlecht die Leistung dieses Modells ist.

Diese Metriken funktionieren besser bei Bezeichnungen, die mit unterschiedlichen Häufigkeiten auftreten, was als Klassenungleichgewicht bezeichnet wird. Themen in Kommunikationsdaten treten selten mit den gleichen Häufigkeiten auf, daher ist es wichtig, dass die Metriken in Communications Mining dies berücksichtigen.

Präzision, Rückruf und Genauigkeit für eine Reihe von Modellvorhersagen, wenn der Schwellenwert variiert wird docs image

Andere Bezeichnungen, andere Ziele

Füreinen bestimmten Schwellenwert können wir die Präzisions- und Rückrufwerte berechnen. Tatsächlich gibt es jedoch einen Zielkonflikt zwischen diesen beiden Metriken

Hohe Genauigkeit. Erfordert einige falsch positive Ergebnisse. Dies bedeutet einen hohen Schwellenwert, sodass nur Beispiele mit einer Modellkonfidenz nahe 1 „positiv“ sind.
Hoher Rückruf. Erfordert einige falsch negative Ergebnisse. Dies bedeutet einen niedrigen Schwellenwert, sodass nur Beispiele mit einer Modellkonfidenz nahe 0 „negativ“ sind.

Es ist einfach, eine gute Punktzahl für die Präzision oder die Wiedererkennung zu erhalten (indem die Schwellenwerte auf nahe 00 bzw. 11 festgelegt werden). Das Festlegen eines Schwellenwerts stellt einGleichgewicht zwischen beiden dar. Der beste Kommentar hängt davon ab, wofür die Bezeichnung verwendet wird.

Kostenausgleich

Für das Banking-Beispiel ist es viel schlimmer, eine E-Mail mit nützlichem Inhalt als automatisch generiert zu behandeln und sie falsch zu archivieren, als ein paar automatisch generierte E-Mails im Postfach zu lassen. Das bedeutet, dass die Beschriftung Auto Generated eine hohe Genauigkeit haben sollte (nur wenige falsch positive Ergebnisse).

Andererseits sollten dringende E-Mails mit dem Modell nicht übersehen werden, aber es ist zulässig, dass einige nicht dringende E-Mails dieses Label haben. Das bedeutet, dass die Beschriftung Urgent eine hohe Wiedererkennung haben sollte (nur wenige falsch negative Ergebnisse).

Der optimale Schwellenwert für eine Bezeichnung minimiert die Kosten, wenn das Modell einen Fehler macht.

Nehmen wir einmal an, es kostet die Bank 5 GB für jede verpasste dringende E-Mail (false negativ) und 10 % für jede E-Mail, die fälschlicherweise als automatisch generiert markiert ist (false positiv). Die Bank bezahlt außerdem einen Mitarbeiter von 20 GB pro Stunde, der falsche, dringende und verpasste automatisch generierte E-Mails mit einer Rate von 100 pro Stunde entfernt.

Für ein Postfach, das 1000 E-Mails pro Tag erhält, können Schwellenwerte angepasst werden, um die erwarteten Kosten pro Tag zu minimieren.

Erwartete tägliche Kosten für automatisch generierte und dringende E-Mails, da der Schwellenwert variiert docs image

Auswertung ohne Schwellenwerte

Präzisionund Rückruf benötigen einen Schwellenwert für jede Bezeichnung. Das Festlegen dieser Schwellenwerte ist langsam, insbesondere bei großen Datasets, die Hunderte von Beschriftungen haben können. Eine Metrik, die ohne einen optimalen Schwellenwert funktioniert, ist nützlicher.

Dazu berechnen wir Präzision und Wiedererkennung für eine Reihe von Schwellenwerten. Diese Werte werden dann als Präzisions-/Rückruf-Kurve aufgezeichnet, mit der wir die Modellleistung überprüfen.

Metriken für die Beschriftung Dringend. Das Modell hat eine Genauigkeit von 90 % und eine Wiedererkennung von 92 % bei einem Schwellenwert von 19,6 %. Die Präzisions-/Rückruf-Kurve für diese Bezeichnung wird links angezeigt docs image

Ideale Modelle

Stellen Sie sich ein Ideen-Modell vor, das jede Beschriftung korrekt vorhersagt. Es gibt einen Schwellenwert, bei dem dieses Modell eine Genauigkeit und Wiedererkennung von 100 % aufweist.

Über diesem Schwellenwert werden einige positive Ergebnisse fälschlicherweise als negativ identifiziert. Dadurch wird die Genauigkeit verringert, aber die Rückruffunktion bleibt bei 100 %. In ähnlicher Weise werden durch das Absenken des Schwellenwerts fälschlicherweise negative Ergebnisse als positive Ergebnisse gekennzeichnet. Dadurch wird die Wiedererkennung verringert, aber die Genauigkeit bleibt bei 100 %.

Nach dieser Logik hat die Präzisions-/Rückruf-Kurve für ein perfektes Modell eine Boxform mit der Ecke am Punkt (100 %, 100 %) (100 %, 100 %). Jedes unvollkommene Modell hat eine Krümmung unter diesem idealen Modell.

Das bedeutet, dass das Verbessern eines Modells dasselbe ist wie das Vergrößern des Bereichs unter der Präzisions-/Rückruf-Kurve.

Durchschnittliche Genauigkeit

Dies führt zu unserer endgültigen Metrik: Durchschnittliche Genauigkeit.

Abbildung 1. Der Bereich unter der Präzisions-/Abruffunktion docs image

Je näher dieser Wert bei 100 % liegt, desto besser ist das Modell.

Während wir Benutzern die Möglichkeit geben, Schwellenwerte auszuwählen und den Konflikt zwischen Genauigkeit und Rückruf zu untersuchen, ist die durchschnittliche Präzision die Hauptmetrik, mit der wir Modelle in Communications Mining bewerten. Sie funktioniert im Durchschnitt gut, insbesondere in Fällen, in denen falsch positive und falsch negative Ergebnisse ähnliche Kosten verursachen. Da sie mit Präzision und Wiedererkennung arbeitet, ist sie unempfindlich gegenüber Klassenunausgleichen. Benutzer müssen jedoch keinen Schwellenwert festlegen, um diese zu berechnen.

Wir melden diese Metrik auf zwei Arten auf der Seite Validierung an

Durchschnittliche Genauigkeit. Die Leistung einer einzelnen Bezeichnung, die für jede Bezeichnung gemeldet wird.
Mittlere durchschnittliche Genauigkeit. Die durchschnittliche Genauigkeit für jede Bezeichnung, gemittelt über alle Bezeichnungen. Dadurch wird die Leistung aller Beschriftungen im Dataset gemessen.

Genauigkeit und Rückruf sind nicht alles

Wirverwenden Metriken, um die Modellleistung zu schätzen, aber diese Schätzung ist nur so gut wie die Daten, die wir zur Berechnung verwenden. Obwohl wir Modelle an einem anderen Testsatz auswerten als dem, auf dem trainiert wurde, wird dieser Testsatz immer noch aus den von Benutzern mit Anmerkungen versehenen Beispielen entnommen. Wenn diese Daten nicht repräsentativ für die Zielaufgabe sind, kann unsere Metrik irreführend sein.

Stellen Sie sich für das Banking-Beispiel vor, wir kommentieren nur dringende E-Mails, die montags versendet werden, und automatisch generierte E-Mails, die freitags versendet werden. Ein Modell, das auf diesen Beispielen trainiert wurde, konnte die Beschriftungen bereits an dem Tag perfekt vorhersagen, an dem die E-Mail gesendet wurde.

Die durchschnittliche Genauigkeit für das Modell wäre hoch, da es ein Muster identifiziert hat, das immer bei den vom Benutzer mit Anmerkungen versehenen Daten funktioniert. Dringende und automatisch generierte E-Mails können jedoch an jedem Tag gesendet werden. Bei Live-E-Mails funktioniert das Muster nicht und das Modell hat eine schlechte Leistung.

Aus diesem Grund geben wir bei der Bewertung von Modellen in Communications Mining nicht nur Werte für Präzision, Rückruf und durchschnittliche Präzision zurück. Stattdessen berechnen wir eine Modellbewertung.

Modellbewertungen berücksichtigen viele verschiedene Leistungsfaktoren, nicht nur die durchschnittliche Genauigkeit. Diese ganzheitliche Ansicht verringert die Fallstricke bei der Verwendung einer einzelnen Metrik und liefert gleichzeitig ein klares Modellfeedback. In einem zukünftigen Beitrag werden wir uns mit Modellbewertungen genauer befassen und erfahren, wie sie genutzt wurden, um bessere Modelle in kürzerer Zeit zu erstellen.

Zusammenfassung

Präzisionund Rückruf messen die Leistung von Bezeichnungen mit unterschiedlichen Häufigkeiten genau.
Die durchschnittliche Genauigkeit misst die Modellleistung, ohne dass ein Schwellenwert erforderlich ist.
Keine einzelne Metrik gibt ein vollständiges Bild ab. Selbst bei Präzision und Rückruf gibt es tote Stellen, wenn die Trainingsdaten schlecht sind oder unzureichend erfasst wurden.