- Erste Schritte
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder (früher Entitäten)
- Bezeichnungen (Vorhersagen, Konfidenzniveaus, Hierarchie usw.)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Überprüfte und nicht überprüfte Nachrichten
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Verwaltung
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen Sie eine Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Ein neues Dataset erstellen
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern Sie die Einstellungen eines Datasets
- Löschen Sie Nachrichten über die Benutzeroberfläche
- Löschen Sie ein Dataset
- Löschen Sie eine Quelle
- Exportieren Sie ein Dataset
- Verwenden von Exchange-Integrationen
- Vorbereiten von Daten für den CSV-Upload
- Modelltraining und -wartung
- Verstehen von Beschriftungen, allgemeinen Feldern und Metadaten
- Bezeichnungshierarchie und bewährte Methode
- Definieren Ihrer Taxonomieziele
- Analyse- vs. Automatisierungsanwendungsfälle
- Konvertieren Ihrer Ziele in Bezeichnungen
- Erstellen Ihrer Taxonomiestruktur
- Best Practices für den Taxonomieentwurf
- Ihre Taxonomie wird importiert
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung (NEU)
- Verstehen des Status Ihres Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- Wie funktioniert die Validierung?
- Verstehen und Verbessern der Modellleistung
- Warum kann eine Bezeichnung eine geringe durchschnittliche Genauigkeit haben?
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automatisierungs- und Communications Mining
- Lizenzierungsinformationen
- Häufige Fragen und mehr
Überblick
Die Seite „ Erkunden “ verfügt über verschiedene Trainingsmodi. Diese Phase konzentriert sich hauptsächlich auf drei davon:
„ Mischen“ – Zeigt eine zufällige Auswahl von Nachrichten an, die Benutzer kommentieren können. Es ist wichtig, einen signifikanten Teil des Trainings in Mischen durchzuführen, um einen Trainingssatz von Beispielen zu erstellen, der für das gesamte Dataset repräsentativ ist.
„Teach“ (für nicht überprüfte Nachrichten) – Sobald die Plattform sinnvolle Vorhersagen für eine Bezeichnung macht, können Sie ihre Fähigkeit verbessern, die Bezeichnung für vielfältigere Beispiele vorherzusagen, indem Sie Nachrichten im standardmäßigen Lernmodus (für nicht überprüfte) überprüfen Nachrichten). Dies zeigt Ihnen Nachrichten an, bei denen die Plattform nicht sicher ist, ob die ausgewählte Bezeichnung zutrifft oder nicht.
„Niedrige Konfidenz“ – Zeigt Ihnen Meldungen an, die von informativen Label-Vorhersagen nicht gut abgedeckt werden. Diese Nachrichten haben entweder keine Vorhersagen oder Vorhersagen mit sehr geringer Konfidenz für Beschriftungen, die die Plattform als informativ versteht.
Dieser Abschnitt der Wissensdatenbank behandelt auch das Training mit SearchinExplore , das dem Training mit Search in Discover sehr ähnlich ist.
Es gibt einen weiteren Trainingsmodus in Explore – Teach (für überprüfte Nachrichten) – der im Abschnitt „Verfeinern von Modellen und Verwenden der Validierung“ der Wissensdatenbank hier erläutert wird.
Layout erklärt:
A | Passen Sie den Datumsbereich oder den Zeitraum der angezeigten Meldungen an |
B | Fügen Sie verschiedene andere Filter basierend auf den Metadaten der Nachrichten hinzu, z. B Punktzahl oder Absender senden |
C | Fügen Sie einen allgemeinen Feldfilter hinzu |
D | Zum Umschalten von allen Nachrichten auf entweder überprüfte oder nicht überprüfte Nachrichten wird auch die Anzahl der angehefteten und vorhergesagten Beschriftungen angepasst |
E | Fügen Sie einen Bezeichnungsfilter hinzu |
F | Suchen Sie nach bestimmten Bezeichnungen innerhalb Ihrer Taxonomie |
G | Fügen Sie zusätzliche Beschriftungen hinzu |
H | Erweitern Sie die Metadaten der Nachricht |
I | Aktualisieren Sie die aktuelle Abfrage |
J | Wechseln Sie zwischen verschiedenen Trainingsmodi wie „Aktuell“, „Mischen“, „Teach“ und „Niedrige Konfidenz“ und wählen Sie eine Bezeichnung aus, nach der sortiert werden soll |
K | Durchsuchen Sie das Dataset nach Nachrichten, die bestimmte Wörter oder Ausdrücke enthalten |
L | Laden Sie alle Meldungen auf dieser Seite herunter oder exportieren Sie das Dataset mit angewendeten Filtern als CSV-Datei |
Die Anzahl der Beispiele, die für die genaue Vorhersage jeder Bezeichnung erforderlich sind, kann je nach Umfang oder Spezifität eines Bezeichnungskonzepts sehr unterschiedlich sein.
Es kann sein, dass eine Bezeichnung in der Regel mit sehr spezifischen und leicht identifizierbaren Wörtern, Sätzen oder Absichten verbunden ist und die Plattform in der Lage ist, sie konsistent mit relativ wenigen Trainingsbeispielen vorherzusagen. Es könnte auch sein, dass eine Bezeichnung ein umfassendes Thema mit vielen verschiedenen Sprachvarianten erfasst, die damit verbunden wären. In diesem Fall könnten deutlich mehr Trainingsbeispiele erforderlich sein, damit die Plattform konsistent Fälle identifizieren kann, in denen die Bezeichnung gelten sollte.
Die Plattform kann oft bereits mit fünf Beispielen beginnen, Vorhersagen für eine Bezeichnung zu erstellen. Um jedoch die Leistung einer Bezeichnung genau abzuschätzen (wie gut die Plattform in der Lage ist, sie vorherzusagen), benötigt jede Bezeichnung mindestens 25 Beispiele.
Beim Kommentieren im Analysefenster zeigen die kleinen roten Zifferblätter (Beispiele unten) neben jeder Beschriftung an, ob weitere Beispiele erforderlich sind, um die Leistung der Beschriftung genau zu schätzen. Das Ziffernblatt beginnt zu verschwinden, sobald Sie weitere Trainingsbeispiele angeben, und verschwindet vollständig, sobald Sie 25 erreicht haben.
Das bedeutet nicht, dass die Plattform mit 25 Beispielen jede Bezeichnung genau vorhersagen kann, aber sie kann zumindest überprüfen, wie gut sie jede Bezeichnung vorhersagen kann, und Sie warnen, wenn zusätzliches Training erforderlich ist.
Während der Erkundungsphase sollten Sie daher sicherstellen, dass Sie mindestens 25 Beispiele für alle Bezeichnungen angegeben haben, an denen Sie interessiert sind, und zwar mithilfe einer Kombination der oben genannten Schritte (hauptsächlich Mischen und Lernen + Nicht überprüft).
Während der Verfeinerungsphase kann klar werden, dass für bestimmte Bezeichnungen mehr Training erforderlich ist, um ihre Leistung zu verbessern. Im Detail wird dies hier beschrieben.
Sobald Sie in „Erkunden“ 25 angeheftete Beispiele für eine Bezeichnung erreicht haben, sehen Sie möglicherweise einen der folgenden Leistungsindikatoren für Beschriftungen anstelle der Trainingsskala:
- Der grauer Kreis ist ein Indikator dafür, dass die Plattform die Leistung dieser Bezeichnung berechnet – er wird aktualisiert und verschwindet entweder oder es wird ein gelber oder roter Kreis angezeigt, wenn er berechnet wurde
- Gelb ist ein Indikator dafür, dass die Leistung des Labels etwas nicht zufriedenstellend ist und verbessert werden könnte
- Rot ist ein Indikator dafür, dass die Bezeichnung eine schlechte Leistung erbringen und zusätzliche Trainings-/Korrekturmaßnahmen benötigen, um sie zu verbessern
- Wenn kein Kreis vorhanden ist, bedeutet dies, dass die Bezeichnung auf einer zufriedenstellenden Weise funktioniert (obligatorisch je nach Anwendungsfall und gewünschter Genauigkeitsstufe noch verbessert werden muss).
- Um mehr über die Beschriftungsleistung und deren Verbesserung zu erfahren, können Sie hierbeginnen
Wenn Sie auf das Häkchen-Symbol (wie unten gezeigt) oben in der Bezeichnungsfilterleiste klicken, um nach überprüften Nachrichten zu filtern, wird Ihnen die Anzahl der überprüften Nachrichten angezeigt, auf die diese Bezeichnung angewendet wurde.
Wenn Sie auf das Computersymbol klicken, um nach nicht überprüften Nachrichten zu filtern, wird Ihnen die Gesamtzahl der Vorhersagen für diese Bezeichnung angezeigt (einschließlich der Anzahl der überprüften Beispiele).
Wenn in „ Erkunden“ weder „überprüft“ noch „nicht überprüft“ ausgewählt ist, zeigt die Plattform standardmäßig die Gesamtzahl der angehefteten Nachrichten für eine Bezeichnung an. In Berichten wird standardmäßig die vorhergesagte Gesamtsumme angezeigt.
- Das Modell kann beginnen, Vorhersagen mit nur wenigen beschrifteten Meldungen zu erstellen. Damit jedoch zuverlässige Vorhersagen getroffen werden können, sollten Sie mindestens 25 Meldungen pro Beschriftung kommentieren. Einige erfordern mehr als dies. Dies hängt von der Komplexität der Daten, der Bezeichnung und der Konsistenz ab, mit der die Bezeichnungen angewendet wurden
- Im Analysefenster sollten Sie auch versuchen, Meldungen zu finden, in denen das Modell eine Bezeichnung falsch vorhergesagt hat. Sie sollten falsche Bezeichnungen entfernen und richtige Bezeichnungen anwenden. Dieser Prozess hilft, zu verhindern, dass das Modell in Zukunft eine ähnlich falsche Vorhersage trifft