- API-Dokumentation
- Einleitung
- Verwenden der API
- API-Tutorial
- Zusammenfassung
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- CLI
- Integrationsleitfäden
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Echtzeit-Automatisierung
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Selbst gehostete EWS-Integration
- UiPath Automatisierungs-Framework
- UiPath Marketplace-Aktivitäten
- offizielle UiPath-Aktivitäten
- Blog
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben der Anmerkungsverzerrung durch Communications Mining
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining und Google AutoML für die Ermittlung von Konversationsdaten
Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
Beim Erstellen und Trainieren eines Machine Learning-Modells ist das Verständnis der Leistung unerlässlich. Je nach Trainingsdaten und Aufgabe kann selbst das ausgereifteste Modell falsche Vorhersagen erzeugen, was zu irreführenden Analysen oder fehlerhaften Automatisierungsabläufen führt.
Das manuelle Durchsuchen von Beispielen, um Modellvorhersagen zu überprüfen, ist unpraktiziert, insbesondere bei Datasets mit Millionen von Datenpunkten. Stattdessen berechnet und zeigt Communications Mining kontinuierlich mehrere Metriken an, um Modelle zu analysieren und Fehler zu erkennen.
Unter bestimmten Bedingungen können sich Metriken jedoch unerwartet verhalten. In diesem Blogbeitrag besprechen wir einige der Probleme, die bei der Verwendung von Metriken auftreten, und einige der Lösungen, die Communications Mining zur Vereinfachung des Prozesses einsetzt.
CommunicationsMining ermöglicht es Benutzern, benutzerdefinierte Machine-Learning-Modelle für Kommunikationsdaten zu erstellen. Um zu verstehen, wie wir Metriken während dieses Prozesses verwenden, ist es nützlich, sich einen bestimmten Anwendungsfall vorzustellen.
Denken Sie an ein gemeinsam verwendetes Postfach für eine Bank, die unter Umständen täglich Tausende von E-Mails erhält. Communications Mining wird verwendet, um diese E-Mails automatisch zu sichten, damit die Mitarbeiter, die das Postfach nutzen, effizienter arbeiten können.
In einem echten Anwendungsfall würden Experten für das Postfach Hunderte von Beschriftungen erstellen, um verschiedene Workflows nachzuverfolgen und zu automatisieren. Für unsere Zwecke betrachten wir einen vereinfachten Fall
-
Dringende E-Mails. Diese müssen in den E-Mail-Clients der Mitarbeiter erkannt und gekennzeichnet werden.
-
Automatisch generierte E-Mails. Diese sollten erkannt und in einen Archivordner verschoben werden, um den Posteingang frei zu halten.
Urgent
und Auto Generated
für diese Aufgaben und kommentiert einige Beispiel-E-Mails. Communications Mining trainiert automatisch ein ML-Modell, das vorhersagt, welche Bezeichnungen für eine E-Mail gelten. Dieses Modell wird dann verwendet, um die E-Mail-Triage-Aufgaben für Live-Daten zu automatisieren.
Aufder untersten Ebene vergleichen die Metriken Beschriftungsvorhersagen mit korrekten Antworten in Form von Ja/Nein-Beschriftungsanmerkungen, die von Benutzern erstellt wurden.
Modelle in Communications Mining bieten keine binären (Ja/Nein)-Vorhersagen für das Vorhandensein der Bezeichnung. Stattdessen wird eine Zahl zwischen 00 und 11 zurückgegeben. Dies stellt die Konfidenz des Modells dar, dass eine Bezeichnung zutrifft.
Modellkonfidenzwerte werden mithilfe eines Schwellenwerts in binäre Bezeichnungsvorhersagen konvertiert. Dies ist einfach eine Zahl zwischen 00 und 11, die die Konfidenzwerte für eine Bezeichnung partitioniert.
-
Oberhalb des Schwellenwerts wird die Bezeichnung voraussichtlich gelten (ein „positives“ Beispiel).
-
Unterhalb des Schwellenwerts wird die Beschriftung voraussichtlich nicht gelten (ein „negatives“ Beispiel).
Mithilfe von Anmerkungen, Beschriftungsvorhersagen und einem Schwellenwert können wir eine Reihe von Beispielen in vier verschiedene Gruppen aufteilen
-
True Positive (TP). Das Modell sagt eine Bezeichnung vorher und die Bezeichnung gilt.
-
Falsch Positive (FT). Das Modell sagt eine Bezeichnung vorher und die Bezeichnung gilt nicht.
-
False Negatives (FN). Das Modell sagt keine Bezeichnung vorher und die Bezeichnung gilt tatsächlich.
-
True-Negative (TN). Das Modell sagt keine Bezeichnung vorher und die Bezeichnung gilt nicht.
Das Ändern des Schwellenwerts für eine Bezeichnung wirkt sich darauf aus, welche E-Mails in jede dieser vier Gruppen fallen, die als Ausgangspunkt für viele Metriken dienen.
Genauigkeit
Wir könnten versucht sein, einen Blick auf die Genauigkeit unseres Modells zu werfen.
Welcher Anteil aller Modellvorhersagen ist richtig?
Das erscheint sinnvoll und Genauigkeit wird oft als entscheidende Metrik für die KI-Leistung betrachtet. In einigen Fällen kann die Genauigkeit jedoch täuschen.
Urgent
für eine E-Mail vorhersagt, erhalten wir eine Genauigkeit von:
Diese Punktzahl ist hoch, aber unser Modell schneidet tatsächlich schlecht ab. Die Genauigkeit kann die Leistung bei Aufgaben mit seltenen Bezeichnungen wie Urgent
und Auto Generated
überschätzen.
Präzision und Rückruf
Urgent
-Bezeichnung in 25 Kommentaren würde unser Modell Präzisions- und Rückrufwerte von 00 erhalten. Dies zeigt, wie schlecht die Leistung dieses Modells ist.
Diese Metriken funktionieren besser bei Bezeichnungen, die mit unterschiedlichen Häufigkeiten auftreten, was als Klassenungleichgewicht bezeichnet wird. Themen in Kommunikationsdaten treten selten mit den gleichen Häufigkeiten auf, daher ist es wichtig, dass die Metriken in Communications Mining dies berücksichtigen.
Füreinen bestimmten Schwellenwert können wir die Präzisions- und Rückrufwerte berechnen. Tatsächlich gibt es jedoch einen Zielkonflikt zwischen diesen beiden Metriken
-
Hohe Genauigkeit. Erfordert einige falsch positive Ergebnisse. Dies bedeutet einen hohen Schwellenwert, sodass nur Beispiele mit einer Modellkonfidenz nahe 1 „positiv“ sind.
-
Hoher Rückruf. Erfordert einige falsch negative Ergebnisse. Dies bedeutet einen niedrigen Schwellenwert, sodass nur Beispiele mit einer Modellkonfidenz nahe 0 „negativ“ sind.
Es ist einfach, eine gute Punktzahl für die Präzision oder die Wiedererkennung zu erhalten (indem die Schwellenwerte auf nahe 00 bzw. 11 festgelegt werden). Das Festlegen eines Schwellenwerts stellt einGleichgewicht zwischen beiden dar. Der beste Kommentar hängt davon ab, wofür die Bezeichnung verwendet wird.
Kostenausgleich
Auto Generated
eine hohe Genauigkeit haben sollte (nur wenige falsch positive Ergebnisse).
Urgent
eine hohe Wiedererkennung haben sollte (nur wenige falsch negative Ergebnisse).
Der optimale Schwellenwert für eine Bezeichnung minimiert die Kosten, wenn das Modell einen Fehler macht.
Nehmen wir einmal an, es kostet die Bank 5 GB für jede verpasste dringende E-Mail (false negativ) und 10 % für jede E-Mail, die fälschlicherweise als automatisch generiert markiert ist (false positiv). Die Bank bezahlt außerdem einen Mitarbeiter von 20 GB pro Stunde, der falsche, dringende und verpasste automatisch generierte E-Mails mit einer Rate von 100 pro Stunde entfernt.
Für ein Postfach, das 1000 E-Mails pro Tag erhält, können Schwellenwerte angepasst werden, um die erwarteten Kosten pro Tag zu minimieren.
Präzisionund Rückruf benötigen einen Schwellenwert für jede Bezeichnung. Das Festlegen dieser Schwellenwerte ist langsam, insbesondere bei großen Datasets, die Hunderte von Beschriftungen haben können. Eine Metrik, die ohne einen optimalen Schwellenwert funktioniert, ist nützlicher.
Ideale Modelle
Stellen Sie sich ein Ideen-Modell vor, das jede Beschriftung korrekt vorhersagt. Es gibt einen Schwellenwert, bei dem dieses Modell eine Genauigkeit und Wiedererkennung von 100 % aufweist.
Über diesem Schwellenwert werden einige positive Ergebnisse fälschlicherweise als negativ identifiziert. Dadurch wird die Genauigkeit verringert, aber die Rückruffunktion bleibt bei 100 %. In ähnlicher Weise werden durch das Absenken des Schwellenwerts fälschlicherweise negative Ergebnisse als positive Ergebnisse gekennzeichnet. Dadurch wird die Wiedererkennung verringert, aber die Genauigkeit bleibt bei 100 %.
Nach dieser Logik hat die Präzisions-/Rückruf-Kurve für ein perfektes Modell eine Boxform mit der Ecke am Punkt (100 %, 100 %) (100 %, 100 %). Jedes unvollkommene Modell hat eine Krümmung unter diesem idealen Modell.
Das bedeutet, dass das Verbessern eines Modells dasselbe ist wie das Vergrößern des Bereichs unter der Präzisions-/Rückruf-Kurve.
Durchschnittliche Genauigkeit
Während wir Benutzern die Möglichkeit geben, Schwellenwerte auszuwählen und den Konflikt zwischen Genauigkeit und Rückruf zu untersuchen, ist die durchschnittliche Präzision die Hauptmetrik, mit der wir Modelle in Communications Mining bewerten. Sie funktioniert im Durchschnitt gut, insbesondere in Fällen, in denen falsch positive und falsch negative Ergebnisse ähnliche Kosten verursachen. Da sie mit Präzision und Wiedererkennung arbeitet, ist sie unempfindlich gegenüber Klassenunausgleichen. Benutzer müssen jedoch keinen Schwellenwert festlegen, um diese zu berechnen.
Wir melden diese Metrik auf zwei Arten auf der Seite Validierung an
-
Durchschnittliche Genauigkeit. Die Leistung einer einzelnen Bezeichnung, die für jede Bezeichnung gemeldet wird.
-
Mittlere durchschnittliche Genauigkeit. Die durchschnittliche Genauigkeit für jede Bezeichnung, gemittelt über alle Bezeichnungen. Dadurch wird die Leistung aller Beschriftungen im Dataset gemessen.
Wirverwenden Metriken, um die Modellleistung zu schätzen, aber diese Schätzung ist nur so gut wie die Daten, die wir zur Berechnung verwenden. Obwohl wir Modelle an einem anderen Testsatz auswerten als dem, auf dem trainiert wurde, wird dieser Testsatz immer noch aus den von Benutzern mit Anmerkungen versehenen Beispielen entnommen. Wenn diese Daten nicht repräsentativ für die Zielaufgabe sind, kann unsere Metrik irreführend sein.
Stellen Sie sich für das Banking-Beispiel vor, wir kommentieren nur dringende E-Mails, die montags versendet werden, und automatisch generierte E-Mails, die freitags versendet werden. Ein Modell, das auf diesen Beispielen trainiert wurde, konnte die Beschriftungen bereits an dem Tag perfekt vorhersagen, an dem die E-Mail gesendet wurde.
Die durchschnittliche Genauigkeit für das Modell wäre hoch, da es ein Muster identifiziert hat, das immer bei den vom Benutzer mit Anmerkungen versehenen Daten funktioniert. Dringende und automatisch generierte E-Mails können jedoch an jedem Tag gesendet werden. Bei Live-E-Mails funktioniert das Muster nicht und das Modell hat eine schlechte Leistung.
Aus diesem Grund geben wir bei der Bewertung von Modellen in Communications Mining nicht nur Werte für Präzision, Rückruf und durchschnittliche Präzision zurück. Stattdessen berechnen wir eine Modellbewertung.
Modellbewertungen berücksichtigen viele verschiedene Leistungsfaktoren, nicht nur die durchschnittliche Genauigkeit. Diese ganzheitliche Ansicht verringert die Fallstricke bei der Verwendung einer einzelnen Metrik und liefert gleichzeitig ein klares Modellfeedback. In einem zukünftigen Beitrag werden wir uns mit Modellbewertungen genauer befassen und erfahren, wie sie genutzt wurden, um bessere Modelle in kürzerer Zeit zu erstellen.
-
Präzisionund Rückruf messen die Leistung von Bezeichnungen mit unterschiedlichen Häufigkeiten genau.
-
Die durchschnittliche Genauigkeit misst die Modellleistung, ohne dass ein Schwellenwert erforderlich ist.
-
Keine einzelne Metrik gibt ein vollständiges Bild ab. Selbst bei Präzision und Rückruf gibt es tote Stellen, wenn die Trainingsdaten schlecht sind oder unzureichend erfasst wurden.