- Erste Schritte
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Entitäten
- Bezeichnungen (Vorhersagen, Konfidenzniveaus, Hierarchie usw.)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Überprüfte und nicht überprüfte Nachrichten
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Verwaltung
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen Sie eine Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Ein neues Dataset erstellen
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern Sie die Einstellungen eines Datasets
- Löschen Sie Nachrichten über die Benutzeroberfläche
- Löschen Sie ein Dataset
- Exportieren Sie ein Dataset
- Verwenden von Exchange-Integrationen
- Vorbereiten von Daten für den CSV-Upload
- Modelltraining und -wartung
- Verstehen von Bezeichnungen, Entitäten und Metadaten
- Bezeichnungshierarchie und bewährte Methode
- Definieren Ihrer Taxonomieziele
- Analyse- vs. Automatisierungsanwendungsfälle
- Konvertieren Ihrer Ziele in Bezeichnungen
- Erstellen Ihrer Taxonomiestruktur
- Best Practices für den Taxonomieentwurf
- Ihre Taxonomie wird importiert
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung (NEU)
- Verstehen des Status Ihres Datasets
- Best Practice für Modelltraining und Beschriftung
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Trainieren
- Einführung zu „Verfeinern“
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- Wie funktioniert die Validierung?
- Verstehen und Verbessern der Modellleistung
- Warum kann eine Bezeichnung eine geringe durchschnittliche Genauigkeit haben?
- Training mit „Bezeichnung überprüfen“ und „Bezeichnung fehlen“
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Ausgleichs und Verwendung von „Neuausgleich“
- Wann das Training Ihres Modells beendet werden soll
- Definieren und Einrichten Ihrer Entitäten
- Grundlegendes zu Entitäten
- Welche vortrainierten Entitäten sind verfügbar?
- Aktivieren, Deaktivieren, Aktualisieren und Erstellen von Entitäten
- Entitätsfilterung
- Überprüfen und Anwenden von Entitäten
- Validierung für Entitäten
- Verbesserung der Entitätsleistung
- Erstellen von benutzerdefinierten Regex-Entitäten
- Verwenden von Analytics & Monitoring
- Automatisierungs- und Communications Mining
- Häufige Fragen und mehr
Verbesserung des Ausgleichs und Verwendung von „Neuausgleich“
Benutzerberechtigungen erforderlich: „Quellen anzeigen“ UND „Überprüfen und Beschriften“.
Was ist „Gleichgewicht“ und warum ist es wichtig?
Die Ausgewogenheitsbewertung , die in der Modellbewertung in der Validierung dargestellt wird, spiegelt wider, wie ausgewogen die überprüften Daten (d. h. die Trainingsdaten) in einem Dataset im Vergleich zum Dataset als Ganzes sind.
Dabei wird eine Reihe von Faktoren berücksichtigt (wie unten gezeigt), einschließlich:
- Die Ähnlichkeit der überprüften Daten mit den nicht überprüften Daten (angezeigt als prozentualer Anteil)
- Der Anteil der überprüften Daten, die durch Zufallsauswahl überprüft wurden (d. h Mischen-Modus)
- Der Anteil der Daten, die mit „Neuausgleich “ überprüft wurden (Details finden Sie unten)
- Der Anteil der Daten, die während der Verwendung von „Textsuche “überprüft wurden.
Es ist wichtig, dass der Anteil der Daten, die durch Zufallsauswahl überprüft werden, hoch ist (idealerweise 20 %+) und der Anteil der überprüften Daten, die mit der Suche beschriftet werden, niedrig ist.
Die Ausgewogenheitsbewertung wird jedoch am stärksten von der Ähnlichkeitsbewertung beeinflusst, die die Ähnlichkeit der nicht überprüften Daten mit den überprüften Daten misst.
Diese Ähnlichkeitsbewertung wird durch ein proprietäres Labeling Bias-Modell berechnet, das die überprüften und nicht überprüften Daten vergleicht, um sicherzustellen, dass die beschrifteten Daten repräsentativ für das gesamte Dataset sind. Wenn die Daten nicht repräsentativ sind und voreingenommen beschriftet wurden, können Modellleistungsmaßnahmen irreführend und potenziell unzuverlässig sein.
Beschriftungsverzerrungen in der Plattform sind in der Regel das Ergebnis eines Ungleichgewichts der Trainingsmodi, die zum Zuweisen von Beschriftungen verwendet werden, insbesondere wenn zu viel „Textsuche“ und zu wenig „Machine“-Modus verwendet wird. Dies kann jedoch auch dann auftreten, wenn ein hoher Anteil des Mischmodus-Modus verwendet wird. Das Training bestimmter Bezeichnungen in Modi wie „Bezeichnung lernen“ kann natürlich zu einem leichten Ungleichgewicht in den überprüften Daten führen. Die Plattform hilft Ihnen, diesen Fehler zu erkennen und schnell und effektiv damit umzugehen.
Was ist „Re Balance“ und wie wird es verwendet?
„Neuausgleich“ ist ein Trainingsmodus, der hilft, die potenziellen Unausgewogenheit bei der Beschriftung eines Modells zu reduzieren, d. h. die Beschriftungsverzerrung, die bedeutet, dass die überprüften Daten nicht so repräsentativ für das gesamte Dataset sind, wie sie sein könnten.
Der Trainingsmodus „ Neuausgleich“ zeigt Nachrichten an, die im überprüften Satz unterrepräsentiert sind.
Das Beschriften der Meldungen (wie in jedem anderen Trainingsmodus), die in diesem Modus angezeigt werden, hilft , Unausgewogenheit in den Trainingsdaten zu beheben und die Ausgewogenheit des Modells zu verbessern.
Top-Tipp: Eine Neuausrichtung ist in der Regel am effektivsten, wenn sie wenig und häufig verwendet wird. Wenn Sie eine kleine Anzahl von Meldungen (zwischen 10 und 20) in diesem Modus beschriften und dem Modell erlauben, erneut zu trainieren, bevor weitere Beispiele aktualisiert und beschriftet werden, ist dies die beste Möglichkeit, um die Auswirkung auf die Ausgewogenheit des Modells zu maximieren.
Wenn Sie feststellen, dass Sie einen hohen Ähnlichkeitswert haben, aber die Ausgewogenheitsbewertung immer noch niedrig ist, liegt dies wahrscheinlich daran, dass Sie nicht genügend Trainingsdaten im Mischmodus beschriftet haben. In diesem Fall schlägt die Plattform vor, eine zufällige Auswahl von Nachrichten als empfohlene Aktion mit Priorität zu beschriften . Das Training in diesem Modus gibt der Plattform die zusätzliche Sicherheit, dass das Dataset nicht voreingenommen beschriftet wurde und dass es sich bei den Trainingsdaten um eine repräsentative Stichprobe handelt.
Wie viel „Neuausgleich“ sollte ich verwenden?
Sie sollten „Ausbalancieren‟ weiterhin iterativ verwenden, um die Ähnlichkeitspunktzahl für Ihr Modell zu verbessern, wodurch sich wiederum Ihre Ausgewogenheitsbewertung erhöht.
Sobald dies in der Validierung die Bewertung „ Gut“ erreicht hat, liegt es an Ihnen, um wie viel mehr Sie die Ähnlichkeitspunktzahl erhöhen möchten, bevor Sie das Training in „Neuausgleich“ beenden.
Sie können versuchen, diese Bewertung so weit wie möglich zu optimieren, aber fortgesetztes Training wird immer mit sinkenden Ergebnissen verbunden sein. Die Bewertung „ Gut“ sollte in der Regel als akzeptables Leistungsniveau für ein gutes Modell angesehen werden.