Communications Mining-Benutzerhandbuch

Letzte Aktualisierung 4. März 2025

Überblick

Wichtige Schritte

Die Seite „ Erkunden “ verfügt über verschiedene Trainingsmodi. Diese Phase konzentriert sich hauptsächlich auf drei davon:

„ Mischen“ – Zeigt eine zufällige Auswahl von Nachrichten an, die Benutzer kommentieren können. Es ist wichtig, einen signifikanten Teil des Trainings in Mischen durchzuführen, um einen Trainingssatz von Beispielen zu erstellen, der für das gesamte Dataset repräsentativ ist.

„Teach“ (für nicht überprüfte Nachrichten) – Sobald die Plattform sinnvolle Vorhersagen für eine Bezeichnung macht, können Sie ihre Fähigkeit verbessern, die Bezeichnung für vielfältigere Beispiele vorherzusagen, indem Sie Nachrichten im standardmäßigen Lernmodus (für nicht überprüfte) überprüfen Nachrichten). Dies zeigt Ihnen Nachrichten an, bei denen die Plattform nicht sicher ist, ob die ausgewählte Bezeichnung zutrifft oder nicht.

„Niedrige Konfidenz“ – Zeigt Ihnen Meldungen an, die von informativen Label-Vorhersagen nicht gut abgedeckt werden. Diese Nachrichten haben entweder keine Vorhersagen oder Vorhersagen mit sehr geringer Konfidenz für Beschriftungen, die die Plattform als informativ versteht.

Dieser Abschnitt der Wissensdatenbank behandelt auch das Training mit SearchinExplore , das dem Training mit Search in Discover sehr ähnlich ist.

Es gibt einen weiteren Trainingsmodus in Explore – Teach (für überprüfte Nachrichten) – der im Abschnitt „Verfeinern von Modellen und Verwenden der Validierung“ der Wissensdatenbank hier erläutert wird.

Layout

Layout erklärt:

A	Passen Sie den Datumsbereich oder den Zeitraum der angezeigten Meldungen an
B	Fügen Sie verschiedene andere Filter basierend auf den Metadaten der Nachrichten hinzu, z. B Punktzahl oder Absender senden
C	Fügen Sie einen allgemeinen Feldfilter hinzu
D	Zum Umschalten von allen Nachrichten auf entweder überprüfte oder nicht überprüfte Nachrichten wird auch die Anzahl der angehefteten und vorhergesagten Beschriftungen angepasst
E	Fügen Sie einen Bezeichnungsfilter hinzu
F	Suchen Sie nach bestimmten Bezeichnungen innerhalb Ihrer Taxonomie
G	Fügen Sie zusätzliche Beschriftungen hinzu
H	Erweitern Sie die Metadaten der Nachricht
I	Aktualisieren Sie die aktuelle Abfrage
J	Wechseln Sie zwischen verschiedenen Trainingsmodi wie „Aktuell“, „Mischen“, „Teach“ und „Niedrige Konfidenz“ und wählen Sie eine Bezeichnung aus, nach der sortiert werden soll
K	Durchsuchen Sie das Dataset nach Nachrichten, die bestimmte Wörter oder Ausdrücke enthalten
L	Laden Sie alle Meldungen auf dieser Seite herunter oder exportieren Sie das Dataset mit angewendeten Filtern als CSV-Datei

Wie viel Training sollten Sie für jede Bezeichnung durchführen?

Die Anzahl der Beispiele, die für die genaue Vorhersage jeder Bezeichnung erforderlich sind, kann je nach Umfang oder Spezifität eines Bezeichnungskonzepts sehr unterschiedlich sein.

Es kann sein, dass eine Bezeichnung in der Regel mit sehr spezifischen und leicht identifizierbaren Wörtern, Sätzen oder Absichten verbunden ist und die Plattform in der Lage ist, sie konsistent mit relativ wenigen Trainingsbeispielen vorherzusagen. Es könnte auch sein, dass eine Bezeichnung ein umfassendes Thema mit vielen verschiedenen Sprachvarianten erfasst, die damit verbunden wären. In diesem Fall könnten deutlich mehr Trainingsbeispiele erforderlich sein, damit die Plattform konsistent Fälle identifizieren kann, in denen die Bezeichnung gelten sollte.

Die Plattform kann oft bereits mit fünf Beispielen beginnen, Vorhersagen für eine Bezeichnung zu erstellen. Um jedoch die Leistung einer Bezeichnung genau abzuschätzen (wie gut die Plattform in der Lage ist, sie vorherzusagen), benötigt jede Bezeichnung mindestens 25 Beispiele.

Beim Kommentieren im Analysefenster zeigen die kleinen roten Zifferblätter (Beispiele unten) neben jeder Beschriftung an, ob weitere Beispiele erforderlich sind, um die Leistung der Beschriftung genau zu schätzen. Das Ziffernblatt beginnt zu verschwinden, sobald Sie weitere Trainingsbeispiele angeben, und verschwindet vollständig, sobald Sie 25 erreicht haben.

Beschriften Sie die Trainings Zifferblätter

Das bedeutet nicht, dass die Plattform mit 25 Beispielen jede Bezeichnung genau vorhersagen kann, aber sie kann zumindest überprüfen, wie gut sie jede Bezeichnung vorhersagen kann, und Sie warnen, wenn zusätzliches Training erforderlich ist.

Während der Erkundungsphase sollten Sie daher sicherstellen, dass Sie mindestens 25 Beispiele für alle Bezeichnungen angegeben haben, an denen Sie interessiert sind, und zwar mithilfe einer Kombination der oben genannten Schritte (hauptsächlich Mischen und Lernen + Nicht überprüft).

Während der Verfeinerungsphase kann klar werden, dass für bestimmte Bezeichnungen mehr Training erforderlich ist, um ihre Leistung zu verbessern. Im Detail wird dies hier beschrieben.

Beschriften Sie Leistungswarnungen

Sobald Sie in „Erkunden“ 25 angeheftete Beispiele für eine Bezeichnung erreicht haben, sehen Sie möglicherweise einen der folgenden Leistungsindikatoren für Beschriftungen anstelle der Trainingsskala:

Der grauer Kreis ist ein Indikator dafür, dass die Plattform die Leistung dieser Bezeichnung berechnet – er wird aktualisiert und verschwindet entweder oder es wird ein gelber oder roter Kreis angezeigt, wenn er berechnet wurde
Gelb ist ein Indikator dafür, dass die Leistung des Labels etwas nicht zufriedenstellend ist und verbessert werden könnte
Rot ist ein Indikator dafür, dass die Bezeichnung eine schlechte Leistung erbringen und zusätzliche Trainings-/Korrekturmaßnahmen benötigen, um sie zu verbessern
Wenn kein Kreis vorhanden ist, bedeutet dies, dass die Bezeichnung auf einer zufriedenstellenden Weise funktioniert (obligatorisch je nach Anwendungsfall und gewünschter Genauigkeitsstufe noch verbessert werden muss).
Um mehr über die Beschriftungsleistung und deren Verbesserung zu erfahren, können Sie hierbeginnen

Beschriften Sie Leistungsindikatoren

Anzahl der vorhergesagten Beschriftungen im Vergleich zur Anzahl der angehefteten Beschriftungen

Wenn Sie auf das Häkchen-Symbol (wie unten gezeigt) oben in der Bezeichnungsfilterleiste klicken, um nach überprüften Nachrichten zu filtern, wird Ihnen die Anzahl der überprüften Nachrichten angezeigt, auf die diese Bezeichnung angewendet wurde.

Wenn Sie auf das Computersymbol klicken, um nach nicht überprüften Nachrichten zu filtern, wird Ihnen die Gesamtzahl der Vorhersagen für diese Bezeichnung angezeigt (einschließlich der Anzahl der überprüften Beispiele).

Wenn in „ Erkunden“ weder „überprüft“ noch „nicht überprüft“ ausgewählt ist, zeigt die Plattform standardmäßig die Gesamtzahl der angehefteten Nachrichten für eine Bezeichnung an. In Berichten wird standardmäßig die vorhergesagte Gesamtsumme angezeigt.

Hinweis: Die vorhergesagte Zahl ist eine Zusammenfassung aller Wahrscheinlichkeiten, die die Plattform für diese Bezeichnung berechnet. Beispielsweise würden 2 Nachrichten mit einem Konfidenzniveau von 50 % als 1 vorhergesagte Bezeichnung gezählt.

Hilfreiche Tipps zur Verwendung von Analysefenster

Das Modell kann beginnen, Vorhersagen mit nur wenigen beschrifteten Meldungen zu erstellen. Damit jedoch zuverlässige Vorhersagen getroffen werden können, sollten Sie mindestens 25 Meldungen pro Beschriftung kommentieren. Einige erfordern mehr als dies. Dies hängt von der Komplexität der Daten, der Bezeichnung und der Konsistenz ab, mit der die Bezeichnungen angewendet wurden
Im Analysefenster sollten Sie auch versuchen, Meldungen zu finden, in denen das Modell eine Bezeichnung falsch vorhergesagt hat. Sie sollten falsche Bezeichnungen entfernen und richtige Bezeichnungen anwenden. Dieser Prozess hilft, zu verhindern, dass das Modell in Zukunft eine ähnlich falsche Vorhersage trifft

Wichtig: In dieser Phase werden Sie viele Beschriftungen anwenden. Halten Sie sich daher an die wichtigsten Best Practices für das Anmerkungen, indem Sie alle zutreffenden Beschriftungen hinzufügen, sie konsistent anwenden und das kommentieren, was Sie vor sich sehen

Auf dieser Seite