- Einleitung
- Einrichten Ihres Kontos
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder
- Beschriftungen (Vorhersagen, Konfidenzniveaus, Beschriftungshierarchie und Beschriftungsstimmung)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Nachrichten mit und ohne Anmerkungen
- Extraktionsfelder
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Zugriffssteuerung und Administration
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen oder Löschen einer Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein Dataset wird erstellt
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern der Dataset-Einstellungen
- Löschen einer Nachricht
- Löschen eines Datasets
- Exportieren eines Datasets
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Grundlegendes zu Beschriftungen, allgemeinen Feldern und Metadaten
- Beschriftungshierarchie und Best Practices
- Vergleichen von Anwendungsfällen für Analyse und Automatisierung
- Konvertieren Ihrer Ziele in Bezeichnungen
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- So funktioniert die Validierung
- Verstehen und Verbessern der Modellleistung
- Gründe für die geringe durchschnittliche Beschriftungsgenauigkeit
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automations and Communications Mining™
- Entwickler (Developer)
- Verwenden der API
- API-Tutorial
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- Hochladen von Daten
- Herunterladen von Daten
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Exchange-Integration mit Azure Application Authentication und Graph
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Allgemeine Feldextraktion
- Selbst gehostete Exchange-Integration
- UiPath® Automatisierungs-Framework
- Offizielle UiPath®-Aktivitäten
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben von Anmerkungsverzerrungen mit Communications Mining™
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining™ und Google AutoML für Conversation Data Intelligence
- Lizenzierung
- Häufige Fragen und mehr

Communications Mining-Benutzerhandbuch
Ausgewogenheit: Einführung und Wichtigkeit
Die Ausgewogenheitsbewertung , die in der Modellbewertung in der Validierung dargestellt wird, spiegelt wider, wie ausgewogen die überprüften Daten (d. h. die Trainingsdaten) in einem Dataset im Vergleich zum Dataset als Ganzes sind.
Es berücksichtigt eine Reihe von Faktoren, die dazu beitragen, darunter:
- Die Ähnlichkeit der überprüften Daten mit den nicht überprüften Daten, angezeigt als Prozentzahl.
- Der Anteil der überprüften Daten, die durch zufällige Stichproben überprüft wurden, d. h. Mischmodus.
- Der Anteil der Daten, die mit Erneuter Ausgleich überprüft wurden.
- Der Anteil der Daten, die während der Verwendung der Textsuche überprüft wurden.
Es ist wichtig, dass der Anteil der durch zufällige Stichproben überprüften Daten hoch ist (idealerweise 20 %+) und der Anteil der überprüften Daten, die mit der Suche mit Anmerkungen versehen wurden, niedrig ist.
Die Ausgewogenheitsbewertung wird jedoch am meisten vom Ähnlichkeitswert beeinflusst, der die Ähnlichkeit der nicht überprüften Daten mit den überprüften Daten misst.
Dieser Ähnlichkeitswert wird von einem proprietären Modell für Anmerkungsverzerrungen berechnet, das die überprüften und nicht überprüften Daten vergleicht, um sicherzustellen, dass die Daten mit Anmerkungen für das gesamte Dataset repräsentativ sind. Wenn die Daten nicht repräsentativ sind und verzerrt mit Anmerkungen versehen wurden, können Leistungsmessungen für Modelle irreführend und möglicherweise unzuverlässig sein.
Die Verzerrung von Anmerkungen in der Plattform ist in der Regel das Ergebnis eines Ungleichgewichts der Trainingsmodi, die zum Zuweisen von Beschriftungen verwendet werden, insbesondere wenn zu viel „Textsuche“ und zu wenig „Mischen“ verwendet wird. Es kann jedoch weiterhin auftreten, auch wenn ein hoher Anteil des Mischmodus verwendet wird. Das Training bestimmter Beschriftungen in Modi wie „Teach Label“ kann natürlich zu einem leichte Ungleichgewicht in den überprüften Daten führen. Die Plattform hilft Ihnen, dies zu erkennen und schnell und effektiv zu beheben.
Neuausgleich: Einführung und Nutzung
Der Neuausgleich ist ein Trainingsmodus, der dazu beiträgt, die potenziellen Ungleichgewichte in der Art und Weise zu reduzieren, wie ein Modell mit Anmerkungen versehen wurde, d. h. Anmerkungsverzerrungen, die bedeuten, dass die überprüften Daten für das gesamte Dataset nicht so repräsentativ sind, wie sie sein könnten.
Der Trainingsmodus Neuausgleich zeigt Nachrichten an, die im überprüften Satz unterrepräsentiert sind.
Wenn Sie die in diesem Modus angezeigten Nachrichten mit Anmerkungen versehen (wie in jedem anderen Trainingsmodus, können Sie Ungleichgewichte in den Trainingsdaten beheben und die Ausgewogenheitspunktzahl des Modells verbessern.
Wenn Sie feststellen, dass Sie einen hohen Ähnlichkeitswert haben, aber die Ausgewogenheitsbewertung immer noch niedrig ist, liegt dies wahrscheinlich daran, dass Sie nicht genügend Trainingsdaten im Mischmodus mit Anmerkungen versehen haben. In diesem Fall schlägt die Plattform vor, eine zufällige Auswahl von Nachrichten als empfohlene Aktion mit Anmerkungen zu versehen. Das Training in diesem Modus gibt der Plattform zusätzliche Sicherheit, dass das Dataset nicht verzerrt mit Anmerkungen versehen wurde und dass die Trainingsdaten ein repräsentatives Beispiel sind.
Der zu verwendende Neuausgleich
Sie sollten den Neuausgleich weiterhin iterativ verwenden, um den Ähnlichkeitswert für Ihr Modell zu verbessern, was wiederum Ihre Ausgewogenheitsbewertung erhöht.
Sobald in der Validierung die Bewertung Gut erreicht ist, liegt es an Ihnen, um wie viel mehr Sie den Ähnlichkeitswert erhöhen möchten, bevor Sie das Training im Reausgleich beenden.
Sie können versuchen, diese Bewertung so weit wie möglich zu optimieren, aber kontinuierliches Training wird immer zu sinkenden Renditen führen. Eine Gut -Bewertung sollte in der Regel als akzeptable Leistung für ein gutes Modell betrachtet werden.