- Erste Schritte
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder (früher Entitäten)
- Bezeichnungen (Vorhersagen, Konfidenzniveaus, Hierarchie usw.)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Überprüfte und nicht überprüfte Nachrichten
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Verwaltung
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Create or delete a data source in the GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein neues Dataset erstellen
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern Sie die Einstellungen eines Datasets
- Löschen Sie Nachrichten über die Benutzeroberfläche
- Löschen Sie ein Dataset
- Exportieren Sie ein Dataset
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Verstehen von Beschriftungen, allgemeinen Feldern und Metadaten
- Bezeichnungshierarchie und bewährte Methode
- Definieren Ihrer Taxonomieziele
- Analyse- vs. Automatisierungsanwendungsfälle
- Konvertieren Ihrer Ziele in Bezeichnungen
- Erstellen Ihrer Taxonomiestruktur
- Best Practices für den Taxonomieentwurf
- Ihre Taxonomie wird importiert
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung (NEU)
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- Wie funktioniert die Validierung?
- Verstehen und Verbessern der Modellleistung
- Warum kann eine Bezeichnung eine geringe durchschnittliche Genauigkeit haben?
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automatisierungs- und Communications Mining
- Lizenzierungsinformationen
- Häufige Fragen und mehr
Communications Mining-Benutzerhandbuch
Verbesserung des Abgleichs und Verwendung des Abgleichs
Benutzerberechtigungen erforderlich: „Quellen anzeigen“ UND „Überprüfen und Kommentieren“.
Was ist Ausgewogenheit und warum ist sie wichtig?
Die Ausgewogenheitsbewertung , die in der Modellbewertung in der Validierung dargestellt wird, spiegelt wider, wie ausgewogen die überprüften Daten (d. h. die Trainingsdaten) in einem Dataset im Vergleich zum Dataset als Ganzes sind.
Dabei wird eine Reihe von Faktoren berücksichtigt (wie unten gezeigt), einschließlich:
- Die Ähnlichkeit der überprüften Daten mit den nicht überprüften Daten (angezeigt als prozentualer Anteil)
- Der Anteil der überprüften Daten, die durch Zufallsauswahl überprüft wurden (d. h Mischen-Modus)
- Der Anteil der Daten, die mit „Neuausgleich “ überprüft wurden (Details finden Sie unten)
- Der Anteil der Daten, die während der Verwendung von „Textsuche “überprüft wurden.
Es ist wichtig, dass der Anteil der Daten, die durch Zufallsauswahl überprüft werden, hoch ist (idealerweise 20 %+) und der Anteil der überprüften Daten, die mit der Suche mit Anmerkungen versehen werden, niedrig ist.
Die Ausgewogenheitsbewertung wird jedoch am stärksten von der Ähnlichkeitsbewertung beeinflusst, die die Ähnlichkeit der nicht überprüften Daten mit den überprüften Daten misst.
Diese Ähnlichkeitsbewertung wird durch ein proprietäres Annotation Bias-Modell berechnet, das die überprüften und nicht überprüften Daten vergleicht, um sicherzustellen, dass die beschrifteten Daten repräsentativ für das gesamte Dataset sind. Wenn die Daten nicht repräsentativ sind und voreingenommen mit Anmerkungen versehen wurden, können Messungen der Modellleistung irreführend und potenziell unzuverlässig sein.
Die Anmerkungsverzerrung in der Plattform ist in der Regel das Ergebnis eines Ungleichgewichts der Trainingsmodi, die zum Zuweisen von Beschriftungen verwendet werden, insbesondere wenn zu viel „Textsuche“ und zu wenig „Machine“-Modus verwendet wird. Dies kann jedoch auch dann auftreten, wenn ein hoher Anteil des Mischmodus-Modus verwendet wird. Das Training bestimmter Bezeichnungen in Modi wie „Bezeichnung lernen“ kann natürlich zu einem leichten Ungleichgewicht in den überprüften Daten führen. Die Plattform hilft Ihnen, diesen Fehler zu erkennen und schnell und effektiv damit umzugehen.
Was ist „Re Balance“ und wie wird es verwendet?
„Neuausgleich“ ist ein Trainingsmodus, der hilft, die potenziellen Unausgewogenheit bei der Anmerkung eines Modells zu reduzieren, d. h. die Anmerkungsverzerrung. Dies bedeutet, dass die überprüften Daten nicht so repräsentativ für das gesamte Dataset sind, wie sie sein könnten.
Der Trainingsmodus „ Neuausgleich“ zeigt Nachrichten an, die im überprüften Satz unterrepräsentiert sind.
Wenn Sie die in diesem Modus angezeigten Meldungen mit Anmerkungen versehen (wie in jedem anderen Trainingsmodus), hilft dies , Unausgleiche in den Trainingsdaten zu beheben und die Ausgewogenheit des Modells zu verbessern.
Top-Tipp: Eine Neuausrichtung ist in der Regel am effektivsten, wenn sie wenig und häufig verwendet wird. Die beste Möglichkeit, die Auswirkung auf die Ausgewogenheit des Modells zu maximieren, ist die beste Möglichkeit, eine kleine Anzahl von Meldungen (zwischen 10 und 20) in diesem Modus zu kommentieren und das Modell erneut trainieren zu lassen, bevor weitere Beispiele aktualisiert und mit Anmerkungen versehen werden.
Wenn Sie feststellen, dass Sie einen hohen Ähnlichkeitswert haben, aber die Ausgewogenheitsbewertung immer noch niedrig ist, liegt dies wahrscheinlich daran, dass Sie zu wenig von den Trainingsdaten im Mischmodus kommentiert haben. Wenn dies der Fall ist, schlägt die Plattform vor, eine zufällige Auswahl von Nachrichten als empfohlene Aktion der Priorität zu kommentieren. Das Training in diesem Modus gibt der Plattform die zusätzliche Sicherheit, dass das Dataset nicht voreingenommen mit Anmerkungen versehen wurde und dass es sich bei den Trainingsdaten um eine repräsentative Stichprobe handelt.
Wie viel „Neuausgleich“ sollte ich verwenden?
Sie sollten „Ausbalancieren‟ weiterhin iterativ verwenden, um die Ähnlichkeitspunktzahl für Ihr Modell zu verbessern, wodurch sich wiederum Ihre Ausgewogenheitsbewertung erhöht.
Sobald dies in der Validierung die Bewertung „ Gut“ erreicht hat, liegt es an Ihnen, um wie viel mehr Sie die Ähnlichkeitspunktzahl erhöhen möchten, bevor Sie das Training in „Neuausgleich“ beenden.
Sie können versuchen, diese Bewertung so weit wie möglich zu optimieren, aber fortgesetztes Training wird immer mit sinkenden Ergebnissen verbunden sein. Die Bewertung „ Gut“ sollte in der Regel als akzeptables Leistungsniveau für ein gutes Modell angesehen werden.