- Erste Schritte
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder (früher Entitäten)
- Bezeichnungen (Vorhersagen, Konfidenzniveaus, Hierarchie usw.)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Überprüfte und nicht überprüfte Nachrichten
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Verwaltung
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Create or delete a data source in the GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein neues Dataset erstellen
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern Sie die Einstellungen eines Datasets
- Löschen Sie Nachrichten über die Benutzeroberfläche
- Löschen Sie ein Dataset
- Exportieren Sie ein Dataset
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Verstehen von Beschriftungen, allgemeinen Feldern und Metadaten
- Bezeichnungshierarchie und bewährte Methode
- Definieren Ihrer Taxonomieziele
- Analyse- vs. Automatisierungsanwendungsfälle
- Konvertieren Ihrer Ziele in Bezeichnungen
- Erstellen Ihrer Taxonomiestruktur
- Best Practices für den Taxonomieentwurf
- Ihre Taxonomie wird importiert
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung (NEU)
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- Wie funktioniert die Validierung?
- Verstehen und Verbessern der Modellleistung
- Warum kann eine Bezeichnung eine geringe durchschnittliche Genauigkeit haben?
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automatisierungs- und Communications Mining
- Lizenzierungsinformationen
- Häufige Fragen und mehr
Communications Mining-Benutzerhandbuch
Häufige Fragen zum Modelltraining
- Allgemeines Modelltraining
- Beschriftungstraining
Das Ziel des Trainings eines Modells besteht darin, einen Satz von Trainingsdaten zu erstellen, die möglichst repräsentativ für das Dataset als Ganzes sind, damit die Plattform die relevanten Beschriftungen und allgemeinen Felder für jede Nachricht genau und sicher vorhersagen kann. Die Beschriftungen und allgemeinen Felder innerhalb eines Datasets müssen untrennbar mit den übergeordneten Zielen des Anwendungsfalls verbunden sein und einen signifikanten geschäftlichen Wert bieten.
Sobald Daten auf die Plattform hochgeladen werden, startet die Plattform einen Prozess namens „Unüberwachtes Lernen“, bei dem sie Nachrichten in Cluster mit ähnlicher semantischer Absicht gruppiert. Dieser Prozess kann je nach Größe des Datasets einige Stunden dauern und Cluster werden angezeigt, sobald der Vorgang abgeschlossen ist.
Um ein Modell trainieren zu können, benötigen Sie eine Mindestmenge an vorhandenen historischen Daten. Diese werden als Trainingsdaten verwendet, um die Plattform mit den erforderlichen Informationen bereitzustellen, damit Sie jedes der relevanten Konzepte für Ihre Analyse und/oder Automatisierung zuverlässig vorhersagen können.
Für jeden Anwendungsfall werden historische Daten von mindestens 12 Monaten empfohlen, um jegliche Saisonalität oder Unregelmäßigkeit in den Daten ordnungsgemäß zu erfassen (z. B Monatsendeprozesse und Hauptgeschäftszeiten).
Nein, Sie müssen Ihr Modell nicht speichern, nachdem Änderungen vorgenommen wurden. Jedes Mal, wenn Sie die Plattform mit Ihren Daten trainieren (d. h Hinzufügen von Anmerkungen zu Nachrichten), wird eine neue Modellversion für Ihr Dataset erstellt. Leistungsstatistiken für ältere Modellversionen können unter Validierung angezeigt werden.
Überprüfen Sie die Seite Validierung in der Plattform, auf der verschiedene Leistungskennzahlen gemeldet und eine ganzheitliche Bewertung des Modellzustands bereitgestellt werden. Diese Seite wird nach jedem Trainingsereignis aktualisiert und kann verwendet werden, um Bereiche zu identifizieren, in denen das Modell möglicherweise weitere Trainingsbeispiele oder einige Beschriftungskorrekturen benötigt, um Konsistenz zu gewährleisten.
Ausführliche Erklärungen zur Modellleistung und deren Verbesserung finden Sie auf der Seite Validierung.
Die Cluster sind eine hilfreiche Möglichkeit, um Ihre Taxonomie schnell aufzubauen. Die Benutzer werden aber die meiste Zeit mit Explore und nicht mit Discover trainieren.
Wenn Benutzer zu viel Zeit mit dem Kommentieren über Cluster verbringen, besteht die Gefahr, dass das Modell überangepasst wird, um bei der Vorhersage nach Meldungen zu suchen, die nur zu diesen Clustern passen. Je vielfältiger die Beispiele für jede Bezeichnung sind, desto besser kann das Modell die verschiedenen Möglichkeiten finden, die gleiche Absicht oder das gleiche Konzept auszudrücken. Dies ist einer der Hauptgrunde, warum wir jeweils nur 30 Cluster anzeigen.
Sobald genügend Trainings abgeschlossen sind oder der Plattform eine beträchtliche Datenmenge hinzugefügt wurde (siehe hier), führt Discover jedoch ein erneutes Training durch. Beim erneuten Training berücksichtigt es das vorhandene Trainings bis dato und versucht, neue Cluster zu präsentieren, die von der aktuellen Taxonomie nicht gut abgedeckt werden.
Weitere Informationen zu Discover finden Sie hier.
Insgesamt gibt es 30 Cluster, die jeweils 12 Nachrichten enthalten. Auf der Plattform können Sie die Anzahl der Nachrichten filtern, die auf der Seite in Schritten zwischen 6 und 12 pro Seite angezeigt werden. Wir empfehlen, sechs Nachrichten gleichzeitig zu kommentieren, um sicherzustellen, dass Sie das Risiko reduzieren, Nachrichten teilweise zu kommentieren.
Genauigkeit und Rückruf sind Metriken, die zur Messung der Leistung eines Machine Learning-Modells verwendet werden. Eine detaillierte Beschreibung der einzelnen Elemente finden Sie im Abschnitt Verwenden der Validierung in unseren Anleitungen.
Sie können auf die Validierungsübersicht früherer Modelle zugreifen, indem Sie mit dem Mauszeiger auf „Modellversion“ in der oberen linken Ecke der Seite Validierung zeigen. Dies kann hilfreich sein, um den Fortschritt beim Trainieren Ihres Modells nachzuverfolgen und zu vergleichen.
Wenn Sie Ihr Modell auf eine frühere fixierte Version zurücksetzen müssen, finden Sie hier weitere Informationen.
Ja, das ist ganz einfach. Sie können zu den Einstellungen für jede Beschriftung gehen und sie jederzeit umbenennen. Wie das geht, sehen Sie hier.
Informationen zu Ihrem Dataset, einschließlich der Anzahl der kommentierten Nachrichten, werden auf der Seite Datasets-Einstellungen angezeigt. Um zu sehen, wie Sie darauf zugreifen, klicken Sie hier.
Wenn Sie auf der Seite Validierung sehen, dass die Leistung Ihres Labels schlecht ist, gibt es verschiedene Möglichkeiten, seine Leistung zu verbessern. Weitere Informationen finden Sie hier .
Was bedeutet das rote Ziffernblatt neben meiner Beschriftung oder dem allgemeinen Feld? Wie werde ich es los?
Die kleinen roten Zifferblätter neben jedem Bezeichnungs-/allgemeinen Feld geben an, ob weitere Beispiele für die Plattform erforderlich sind, um die Leistung des Bezeichnungs-/allgemeinen Felds genau zu schätzen. Die Zifferblätter beginnen zu verschwinden, sobald Sie mehr Trainingsbeispiele angeben, und sie verschwinden vollständig, sobald Sie 25 Beispiele erreicht haben.
Danach kann die Plattform die Leistung eines bestimmten Bezeichnung/allgemeinen Felds effektiv auswerten und kann eine Leistungswarnung zurückgeben, wenn die Bezeichnung/das allgemeine Feld nicht fehlerfrei ist.
Die Plattform kann von leeren Nachrichten und nicht informativen Nachrichten lernen, sofern sie korrekt mit Anmerkungen versehen sind. Es ist jedoch anzumerken, dass nicht aussagekräftige Bezeichnungen wahrscheinlich eine beträchtliche Anzahl von Trainingsbeispielen benötigen und frei nach Konzepten gruppiert werden müssen, um die beste Leistung zu gewährleisten.
- Allgemeines Modelltraining
- Was ist das Ziel des Trainings eines Modells?
- Warum kann ich in Discover nichts sehen, wenn ich gerade Daten in die Plattform hochgeladen habe?
- Wie viele historische Daten benötige ich, um ein Modell zu trainieren?
- Muss ich mein Modell jedes Mal speichern, wenn ich eine Änderung vornehme?
- Wie erkenne ich die Leistung des Modells?
- Warum sind nur 30 Cluster verfügbar und können wir sie einzeln festlegen?
- Wie viele Nachrichten befinden sich in jedem Cluster?
- Was bedeuten Präzision und Rückruf?
- Kann ich zu einer früheren Version meines Modells zurückkehren?
- Beschriftungstraining
- Kann ich den Namen einer Beschriftung später ändern?
- Wie erfahre ich die Anzahl der Nachrichten, die ich kommentiert habe?
- Eine meiner Bezeichnungen funktioniert schlecht. Was kann ich tun, um sie zu verbessern?
- Was bedeutet das rote Ziffernblatt neben meiner Beschriftung oder dem allgemeinen Feld? Wie werde ich es los?
- Sollte ich es vermeiden, leere/nicht informative Nachrichten mit Anmerkungen zu versehen?