- Einleitung
- Einrichten Ihres Kontos
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder
- Beschriftungen (Vorhersagen, Konfidenzniveaus, Beschriftungshierarchie und Beschriftungsstimmung)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Nachrichten mit und ohne Anmerkungen
- Extraktionsfelder
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Zugriffssteuerung und Administration
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen oder Löschen einer Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein Dataset wird erstellt
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern der Dataset-Einstellungen
- Löschen einer Nachricht
- Löschen eines Datasets
- Exportieren eines Datasets
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Grundlegendes zu Beschriftungen, allgemeinen Feldern und Metadaten
- Beschriftungshierarchie und Best Practices
- Vergleichen von Anwendungsfällen für Analyse und Automatisierung
- Konvertieren Ihrer Ziele in Bezeichnungen
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Training von Chat- und Anrufdaten
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- So funktioniert die Validierung
- Verstehen und Verbessern der Modellleistung
- Gründe für die geringe durchschnittliche Beschriftungsgenauigkeit
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automations and Communications Mining™
- Entwickler (Developer)
- Verwenden der API
- API-Tutorial
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- Hochladen von Daten
- Herunterladen von Daten
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Exchange-Integration mit Azure Application Authentication und Graph
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Allgemeine Feldextraktion
- Selbst gehostete Exchange-Integration
- UiPath® Automatisierungs-Framework
- Offizielle UiPath®-Aktivitäten
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben von Anmerkungsverzerrungen mit Communications Mining™
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining™ und Google AutoML für Conversation Data Intelligence
- Lizenzierung
- Häufige Fragen und mehr

Communications Mining-Benutzerhandbuch
Beim Erstellen und Trainieren eines Machine Learning-Modells ist das Verständnis der Leistung unerlässlich. Je nach Trainingsdaten und Aufgabe kann selbst das ausgereifteste Modell falsche Vorhersagen erzeugen, was zu irreführenden Analysen oder fehlerhaften Automatisierungsabläufen führt.
Das manuelle Durchsuchen von Beispielen, um Modellvorhersagen zu überprüfen, ist unpraktiken, insbesondere bei Datasets mit Millionen von Datenpunkten. Stattdessen berechnet Communications Mining™ kontinuierlich mehrere Metriken und zeigt sie an, um Modelle zu analysieren und Fehler zu erkennen.
Unter bestimmten Bedingungen können sich Metriken jedoch unerwartet verhalten. In diesem Blogbeitrag besprechen wir einige der Probleme, die bei der Verwendung von Metriken auftreten, und einige der Lösungen, die Communications Mining zur Vereinfachung des Prozesses einsetzt.
CommunicationsMining ermöglicht es Benutzern, benutzerdefinierte Machine-Learning-Modelle für Kommunikationsdaten zu erstellen. Um zu verstehen, wie wir Metriken während dieses Prozesses verwenden, ist es nützlich, sich einen bestimmten Anwendungsfall vorzustellen.
Denken Sie an ein gemeinsam verwendetes Postfach für eine Bank, die unter Umständen täglich Tausende von E-Mails erhält. Communications Mining wird verwendet, um diese E-Mails automatisch zu sichten, damit die Mitarbeiter, die das Postfach nutzen, effizienter arbeiten können.
In einem echten Anwendungsfall würden Experten für das Postfach Hunderte von Beschriftungen erstellen, um verschiedene Workflows nachzuverfolgen und zu automatisieren. Für unsere Zwecke betrachten wir einen vereinfachten Fall
-
Dringende E-Mails. Diese müssen in den E-Mail-Clients der Mitarbeiter erkannt und gekennzeichnet werden.
-
Automatisch generierte E-Mails. Diese sollten erkannt und in einen Archivordner verschoben werden, um den Posteingang frei zu halten.
Urgent
und Auto Generated
für diese Aufgaben und kommentiert einige Beispiel-E-Mails. Communications Mining trainiert automatisch ein ML-Modell, das vorhersagt, welche Bezeichnungen für eine E-Mail gelten. Dieses Modell wird dann verwendet, um die E-Mail-Triage-Aufgaben für Live-Daten zu automatisieren.
Aufder untersten Ebene vergleichen die Metriken Beschriftungsvorhersagen mit korrekten Antworten in Form von Ja/Nein-Beschriftungsanmerkungen, die von Benutzern erstellt wurden.
Modelle in Communications Mining™ bieten keine binären Vorhersagen (ja/nein) für das Vorhandensein von Beschriftungen. Stattdessen geben sie eine Zahl zwischen 00 und 11 zurück. Dies stellt die Konfidenz des Modells dar, dass eine Beschriftung zutrifft.
Modellkonfidenzwerte werden mithilfe eines Schwellenwerts in binäre Bezeichnungsvorhersagen konvertiert. Dies ist einfach eine Zahl zwischen 00 und 11, die die Konfidenzwerte für eine Bezeichnung partitioniert.
-
Oberhalb des Schwellenwerts wird die Bezeichnung voraussichtlich gelten (ein „positives“ Beispiel).
-
Unterhalb des Schwellenwerts wird die Beschriftung voraussichtlich nicht gelten (ein „negatives“ Beispiel).
Mithilfe von Anmerkungen, Beschriftungsvorhersagen und einem Schwellenwert können wir eine Reihe von Beispielen in vier verschiedene Gruppen aufteilen
-
True Positive (TP). Das Modell sagt eine Bezeichnung vorher und die Bezeichnung gilt.
-
Falsch Positive (FT). Das Modell sagt eine Bezeichnung vorher und die Bezeichnung gilt nicht.
-
False Negatives (FN). Das Modell sagt keine Bezeichnung vorher und die Bezeichnung gilt tatsächlich.
-
True-Negative (TN). Das Modell sagt keine Bezeichnung vorher und die Bezeichnung gilt nicht.
Das Ändern des Schwellenwerts für eine Bezeichnung wirkt sich darauf aus, welche E-Mails in jede dieser vier Gruppen fallen, die als Ausgangspunkt für viele Metriken dienen.
Genauigkeit
Wir könnten versucht sein, einen Blick auf die Genauigkeit unseres Modells zu werfen.
Welcher Anteil aller Modellvorhersagen ist richtig?
Das erscheint sinnvoll und Genauigkeit wird oft als entscheidende Metrik für die KI-Leistung betrachtet. In einigen Fällen kann die Genauigkeit jedoch täuschen.
Urgent
für eine E-Mail vorhersagt, erhalten wir eine Genauigkeit von:
Urgent
und Auto Generated
überschätzen.
Präzision und Rückruf
Urgent
-Bezeichnung in 25 Kommentaren würde unser Modell Präzisions- und Rückrufwerte von 00 erhalten. Dies zeigt, wie schlecht die Leistung dieses Modells ist.
Diese Metriken funktionieren besser bei Beschriftungen, die mit unterschiedlichen Häufigkeiten auftreten, was als Klassenungleichgewicht bezeichnet wird. Themen in Kommunikationsdaten treten selten in dem gleichen Umfang auf, daher ist es wichtig, dass die Metriken in Communications Mining™ dies berücksichtigen.
Füreinen bestimmten Schwellenwert können wir die Präzisions- und Rückrufwerte berechnen. Tatsächlich gibt es jedoch einen Zielkonflikt zwischen diesen beiden Metriken
-
Hohe Genauigkeit. Erfordert einige falsch positive Ergebnisse. Dies bedeutet einen hohen Schwellenwert, sodass nur Beispiele mit einer Modellkonfidenz nahe 1 „positiv“ sind.
-
Hoher Rückruf. Erfordert einige falsch negative Ergebnisse. Dies bedeutet einen niedrigen Schwellenwert, sodass nur Beispiele mit einer Modellkonfidenz nahe 0 „negativ“ sind.
Es ist einfach, eine gute Punktzahl für die Präzision oder die Wiedererkennung zu erhalten (indem die Schwellenwerte auf nahe 00 bzw. 11 festgelegt werden). Das Festlegen eines Schwellenwerts stellt einGleichgewicht zwischen beiden dar. Der beste Kommentar hängt davon ab, wofür die Bezeichnung verwendet wird.
Kostenausgleich
Auto Generated
eine hohe Genauigkeit haben sollte (nur wenige falsch positive Ergebnisse).
Urgent
eine hohe Wiedererkennung haben sollte (nur wenige falsch negative Ergebnisse).
Der optimale Schwellenwert für eine Bezeichnung minimiert die Kosten, wenn das Modell einen Fehler macht.
Nehmen wir einmal an, es kostet die Bank 5 GB für jede verpasste dringende E-Mail (false negativ) und 10 % für jede E-Mail, die fälschlicherweise als automatisch generiert markiert ist (false positiv). Die Bank bezahlt außerdem einen Mitarbeiter von 20 GB pro Stunde, der falsche, dringende und verpasste automatisch generierte E-Mails mit einer Rate von 100 pro Stunde entfernt.
Für ein Postfach, das 1000 E-Mails pro Tag erhält, können Schwellenwerte angepasst werden, um die erwarteten Kosten pro Tag zu minimieren.
Genauigkeitund Erinnerung benötigen einen Schwellenwert für jede Beschriftung. Das Festlegen dieser Schwellenwerte ist langsam, insbesondere bei großen Datasets, die Hunderte von Beschriftungen haben können. Eine Metrik, die ohne einen optimalen Schwellenwert funktioniert, ist nützlicher.
Ideale Modelle
Stellen Sie sich ein Ideen-Modell vor, das jede Beschriftung korrekt vorhersagt. Es gibt einen Schwellenwert, bei dem dieses Modell eine Genauigkeit und Wiedererkennung von 100 % aufweist.
Über diesem Schwellenwert werden einige positive Ergebnisse fälschlicherweise als negativ identifiziert. Dadurch wird die Genauigkeit verringert, aber die Rückruffunktion bleibt bei 100 %. In ähnlicher Weise werden durch das Absenken des Schwellenwerts fälschlicherweise negative Ergebnisse als positive Ergebnisse gekennzeichnet. Dadurch wird die Wiedererkennung verringert, aber die Genauigkeit bleibt bei 100 %.
Nach dieser Logik hat die Präzisions-/Rückruf-Kurve für ein perfektes Modell eine Boxform mit der Ecke am Punkt (100 %, 100 %) (100 %, 100 %). Jedes unvollkommene Modell hat eine Krümmung unter diesem idealen Modell.
Das bedeutet, dass das Verbessern eines Modells dasselbe ist wie das Vergrößern des Bereichs unter der Präzisions-/Rückruf-Kurve.
Durchschnittliche Genauigkeit
Wir lassen Benutzer zwar Schwellenwerte auswählen und den Kompromiss zwischen Genauigkeit und Erinnerung erkunden, aber die durchschnittliche Genauigkeit ist die Hauptmetrik, die wir zur Bewertung von Modellen in Communications Mining™ verwenden. Sie funktioniert im Durchschnitt gut, insbesondere in Fällen, in denen falsch positive und falsch negative Ergebnisse ähnliche Kosten haben. Da es Präzision und Erinnerung verwendet, ist es robust gegenüber Klassenungleichgewichten, aber Benutzer müssen keinen Schwellenwert für die Berechnung festlegen.
Wir melden diese Metrik auf zwei Arten auf der Seite Validierung an
-
Durchschnittliche Genauigkeit. Die Leistung einer einzelnen Bezeichnung, die für jede Bezeichnung gemeldet wird.
-
Mittlere durchschnittliche Genauigkeit. Die durchschnittliche Genauigkeit für jede Bezeichnung, gemittelt über alle Bezeichnungen. Dadurch wird die Leistung aller Beschriftungen im Dataset gemessen.
Wirverwenden Metriken, um die Modellleistung zu schätzen, aber diese Schätzung ist nur so gut wie die Daten, die wir zur Berechnung verwenden. Obwohl wir Modelle an einem anderen Testsatz auswerten als dem, auf dem trainiert wurde, wird dieser Testsatz immer noch aus den von Benutzern mit Anmerkungen versehenen Beispielen entnommen. Wenn diese Daten nicht repräsentativ für die Zielaufgabe sind, kann unsere Metrik irreführend sein.
Stellen Sie sich für das Banking-Beispiel vor, wir kommentieren nur dringende E-Mails, die montags versendet werden, und automatisch generierte E-Mails, die freitags versendet werden. Ein Modell, das auf diesen Beispielen trainiert wurde, konnte die Beschriftungen bereits an dem Tag perfekt vorhersagen, an dem die E-Mail gesendet wurde.
Die durchschnittliche Genauigkeit für das Modell wäre hoch, da es ein Muster identifiziert hat, das immer bei den vom Benutzer mit Anmerkungen versehenen Daten funktioniert. Dringende und automatisch generierte E-Mails können jedoch an jedem Tag gesendet werden. Bei Live-E-Mails funktioniert das Muster nicht und das Modell hat eine schlechte Leistung.
Aus diesem Grund geben wir bei der Bewertung von Modellen in Communications Mining™ nicht nur Werte für Präzision, Rückrufe und durchschnittliche Genauigkeit zurück. Stattdessen berechnen wir eine Modellbewertung.
Modellbewertungen berücksichtigen viele verschiedene Leistungsfaktoren, nicht nur die durchschnittliche Genauigkeit. Diese ganzheitliche Ansicht verringert die Fallstricke bei der Verwendung einer einzelnen Metrik und liefert gleichzeitig ein klares Modellfeedback. In einem zukünftigen Beitrag werden wir uns mit Modellbewertungen genauer befassen und erfahren, wie sie genutzt wurden, um bessere Modelle in kürzerer Zeit zu erstellen.
-
Präzisionund Rückruf messen die Leistung von Bezeichnungen mit unterschiedlichen Häufigkeiten genau.
-
Die durchschnittliche Genauigkeit misst die Modellleistung, ohne dass ein Schwellenwert erforderlich ist.
-
Keine einzelne Metrik gibt ein vollständiges Bild ab. Selbst bei Präzision und Rückruf gibt es tote Stellen, wenn die Trainingsdaten schlecht sind oder unzureichend erfasst wurden.