- Erste Schritte
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder (früher Entitäten)
- Bezeichnungen (Vorhersagen, Konfidenzniveaus, Hierarchie usw.)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Überprüfte und nicht überprüfte Nachrichten
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Verwaltung
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Create or delete a data source in the GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein neues Dataset erstellen
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern Sie die Einstellungen eines Datasets
- Löschen Sie Nachrichten über die Benutzeroberfläche
- Löschen Sie ein Dataset
- Exportieren Sie ein Dataset
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Verstehen von Beschriftungen, allgemeinen Feldern und Metadaten
- Bezeichnungshierarchie und bewährte Methode
- Definieren Ihrer Taxonomieziele
- Analyse- vs. Automatisierungsanwendungsfälle
- Konvertieren Ihrer Ziele in Bezeichnungen
- Erstellen Ihrer Taxonomiestruktur
- Best Practices für den Taxonomieentwurf
- Ihre Taxonomie wird importiert
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung (NEU)
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- Wie funktioniert die Validierung?
- Verstehen und Verbessern der Modellleistung
- Warum kann eine Bezeichnung eine geringe durchschnittliche Genauigkeit haben?
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automatisierungs- und Communications Mining
- Lizenzierungsinformationen
- Häufige Fragen und mehr
Communications Mining-Benutzerhandbuch
Wie funktioniert die Validierung?
Benutzerberechtigungen erforderlich: „Quellen anzeigen“ UND „Beschriftungen anzeigen“.
Bei der Validierung bewertet die Plattform die Leistung sowohl des Bezeichnungs- als auch des allgemeinen Feldmodells, das einem Dataset zugeordnet ist.
Insbesondere für das Beschriftungsmodell wird eine Gesamtmodellbewertung berechnet, indem eine Reihe verschiedener Leistungsfaktoren getestet werden, einschließlich:
- Wie gut sie jede Beschriftung in der Taxonomie vorhersagen kann, indem eine Teilmenge von Trainingsdaten aus diesem Dataset verwendet wird
-
Wie gut das Dataset insgesamt durch informative Bezeichnungsvorhersagen abgedeckt wird
- Wie ausgewogen die Trainingsdaten in Bezug auf die Art und Weise sind, wie sie zugewiesen wurden, und wie gut sie das Dataset als Ganzes darstellen
Wie wird die Bezeichnungsleistung bewertet?
Um zu beurteilen, wie gut sie jede Bezeichnung vorhersagen kann, teilt die Plattform zunächst die überprüften (d. h. mit Anmerkungen versehenen) Meldungen im Dataset in zwei Gruppen auf; einen Hauptsatz von Trainingsdaten und einen kleineren Satz von Testdaten.
In der folgenden Abbildung stellen die farbigen Punkte die mit Anmerkungen versehenen Nachrichten innerhalb eines Datasets dar. Diese Aufteilung wird durch die Nachrichten-ID bestimmt, wenn die Nachrichten zum Dataset hinzugefügt werden, und bleibt während der gesamten Lebensdauer des Datasets konsistent.
Die Plattform trainiert sich dann selbst, indem sie nur den Trainingssatz als Trainingsdaten verwendet.
Basierend auf diesem Training wird dann versucht vorherzusagen, welche Beschriftungen auf die Nachrichten im Testsatz angewendet werden sollten, und die Ergebnisse für sowohl Genauigkeit als auch Rückruf werden mit den tatsächlichen Beschriftungen verglichen, die von einem menschlichen Benutzer angewendet wurden.
Zusätzlich zu diesem Prozess berücksichtigt die Plattform auch, wie Beschriftungen zugewiesen wurden – d. h. welche Trainingsmodi beim Anwenden von Beschriftungen verwendet wurden – um zu verstehen, ob sie voreingenommen oder ausgewogen kommentiert wurden.
Die Validierung veröffentlicht dann Live-Statistiken über die Leistung der Beschriftungen für die neueste Modellversion, aber Sie können auch historische Leistungsstatistiken für zuvor angeheftete Modellversionen anzeigen.
Wie wird die Abdeckung bewertet?
Um zu verstehen, wie gut Ihr Modell Ihre Daten abdeckt, betrachtet die Plattform alle nicht überprüften Daten im Dataset und die Vorhersagen, die die Plattform für jede dieser nicht überprüften Nachrichten getroffen hat.
Anschließend wird der Anteil der Gesamtnachrichten bewertet, für die mindestens eine informative Bezeichnung vorhergesagt wurde.
'Informative Bezeichnungen ' sind solche Bezeichnungen, die die Plattform als nützlich als eigenständige Bezeichnungen erkennt, indem sie überprüft, wie häufig sie mit anderen Bezeichnungen zugewiesen werden. Bezeichnungen, die immer einer anderen Bezeichnung zugewiesen sind, z. B übergeordnete Bezeichnungen, die nie selbst zugewiesen werden, oder „Dringend“, wenn sie immer mit einer anderen Bezeichnung zugewiesen werden, werden bei der Berechnung der Punktzahl nach unten gewichtet.
Wie wird das Ausgewogenheit bewertet?
Wenn die Plattform bewertet, wie ausgewogen Ihr Modell ist, sucht es im Wesentlichen nach einer Anmerkungsverzerrung, die ein Ungleichgewicht zwischen den Trainingsdaten und dem Dataset als Ganzes verursachen kann.
Dazu wird ein Bias-Modell für Anmerkungen verwendet , das die überprüften und nicht überprüften Daten vergleicht, um sicherzustellen, dass die erläuterten Daten für das gesamte Dataset repräsentativ sind. Wenn die Daten nicht repräsentativ sind, können Modellleistungsmaßnahmen irreführend und potenziell unzuverlässig sein.
Eine Anmerkungsverzerrung ist in der Regel das Ergebnis eines Ungleichgewichts der Trainingsmodi, die zum Zuweisen von Beschriftungen verwendet werden, insbesondere wenn zu viel „Textsuche“ und zu wenig „Mischen“ verwendet wird.
Der Trainingsmodus „ Neuausgleich“ zeigt Nachrichten an, die im überprüften Satz unterrepräsentiert sind. Das Kommentieren von Beispielen in diesem Modus hilft, Unausgewogenheit im Dataset schnell zu beheben.
Wann findet der Validierungsprozess statt?
Jedes Mal, wenn Sie ein Training innerhalb eines Datasets abschließen, wird das Modell aktualisiert und liefert neue Vorhersagen für jede Nachricht. Parallel wird auch die Leistung des Modells neu bewertet. Das bedeutet, dass zu dem Zeitpunkt, in dem die neuen Vorhersagen bereit sind, auch neue Validierungsstatistiken verfügbar sein sollten (obligatorisch kann ein Prozess manchmal länger dauern als der andere), einschließlich der neuesten .
Hinweis: Die Plattform zeigt Ihnen standardmäßig immer die neuesten Validierungsstatistiken an, die berechnet wurden, und informiert Sie darüber, ob neue Statistiken noch berechnet werden müssen.