- Einleitung
- Einrichten Ihres Kontos
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder
- Beschriftungen (Vorhersagen, Konfidenzniveaus, Beschriftungshierarchie und Beschriftungsstimmung)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Nachrichten mit und ohne Anmerkungen
- Extraktionsfelder
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Zugriffssteuerung und Administration
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen oder Löschen einer Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein Dataset wird erstellt
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern der Dataset-Einstellungen
- Löschen einer Nachricht
- Löschen eines Datasets
- Exportieren eines Datasets
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Grundlegendes zu Beschriftungen, allgemeinen Feldern und Metadaten
- Beschriftungshierarchie und Best Practices
- Vergleichen von Anwendungsfällen für Analyse und Automatisierung
- Konvertieren Ihrer Ziele in Bezeichnungen
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Training von Chat- und Anrufdaten
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- So funktioniert die Validierung
- Verstehen und Verbessern der Modellleistung
- Gründe für die geringe durchschnittliche Beschriftungsgenauigkeit
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automations and Communications Mining™
- Entwickler (Developer)
- Verwenden der API
- API-Tutorial
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- Hochladen von Daten
- Herunterladen von Daten
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Exchange-Integration mit Azure Application Authentication und Graph
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Allgemeine Feldextraktion
- Selbst gehostete Exchange-Integration
- UiPath® Automatisierungs-Framework
- Offizielle UiPath®-Aktivitäten
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben von Anmerkungsverzerrungen mit Communications Mining™
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining™ und Google AutoML für Conversation Data Intelligence
- Lizenzierung
- Häufige Fragen und mehr

Communications Mining-Benutzerhandbuch
Bei der Validierung bewertet die Plattform die Leistung sowohl des Bezeichnungs- als auch des allgemeinen Feldmodells, das einem Dataset zugeordnet ist.
Insbesondere für das Beschriftungsmodell berechnet es eine allgemeine Modellbewertung , indem eine Reihe verschiedener Leistungsfaktoren getestet werden, darunter:
- Wie gut sie in der Lage ist, jede Beschriftung in der Taxonomie vorherzusagen, indem eine Teilmenge von Trainingsdaten aus diesem Dataset verwendet wird.
- Wie gut das Dataset insgesamt durch informative Beschriftungsvorhersagen abgedeckt wird.
- Wie ausgewogen die Trainingsdaten sind, in Bezug auf ihre Zuweisung, und wie gut sie das Dataset als Ganzes darstellen.
- einen Großteil von Trainingsdaten.
- Einen Minoritätssatz von Testdaten.
In der folgenden Abbildung stellen die farbigen Punkte die Nachrichten mit Anmerkungen innerhalb eines Datasets dar. Diese Aufteilung wird durch die Nachrichten-ID bestimmt, wenn die Nachrichten zum Dataset hinzugefügt werden, und bleibt während der gesamten Lebensdauer des Datasets konsistent.
Die Plattform trainiert sich dann selbst, indem sie nur den Trainingssatz als Trainingsdaten verwendet.
Basierend auf diesem Training versucht es dann vorherzusagen, welche Beschriftungen für die Nachrichten im Testsatz gelten sollen und bewertet die Ergebnisse sowohl auf Genauigkeit als auch auf Erinnerung mit den tatsächlichen Beschriftungen, die von einem menschlichen Benutzer angewendet wurden.
Darüber hinaus berücksichtigt die Plattform auch, wie Beschriftungen zugewiesen wurden, d. h. welche Trainingsmodi beim Anwenden von Beschriftungen verwendet wurden, um zu überprüfen, ob sie verzerrt oder ausgewogen mit Anmerkungen versehen wurden.
Die Validierung veröffentlicht dann Live-Statistiken über die Leistung der Beschriftungen für die neueste Modellversion, aber Sie können auch historische Leistungsstatistiken für zuvor angeheftete Modellversionen anzeigen.
Um zu verstehen, wie gut Ihr Modell Ihre Daten abdeckt, betrachtet die Plattform alle nicht überprüften Daten im Dataset und die Vorhersagen, die die Plattform für jede dieser nicht überprüften Nachrichten getroffen hat.
Anschließend wird der Anteil der gesamten Nachrichten bewertet, für die mindestens eine informative Beschriftung vorhergesagt wurde.
Informative Beschriftungen sind solche Beschriftungen, die die Plattform als nützlich für eigenständige Beschriftungen versteht, indem sie überprüft, wie häufig sie mit anderen Beschriftungen zugewiesen werden. Beschriftungen, die immer mit einer anderen Beschriftung zugewiesen sind. Beispielsweise werden übergeordnete Beschriftungen, die nie selbst zugewiesen werden, oder „Dringend“, wenn sie immer mit einer anderen Beschriftung zugewiesen sind, bei der Berechnung der Punktzahl nach unten gewichtet.
Wenn die Plattform bewertet, wie ausgewogen Ihr Modell ist, sucht sie im Wesentlichen nach Anmerkungsverzerrungen, die ein Ungleichgewicht zwischen den Trainingsdaten und dem Dataset als Ganzes verursachen können.
Dazu wird ein Verzerrungsmodell für Anmerkungen verwendet, das die überprüften und nicht überprüften Daten vergleicht, um sicherzustellen, dass die Daten mit Anmerkungen für das gesamte Dataset repräsentativ sind. Wenn die Daten nicht repräsentativ sind, können Leistungsmessungen für Modelle irreführend und möglicherweise unzuverlässig sein.
Die Verzerrung von Anmerkungen ist in der Regel das Ergebnis eines Ungleichgewichts der Trainingsmodi, die zum Zuweisen von Beschriftungen verwendet werden, insbesondere wenn zu viel „Textsuche“ und zu wenig „Mischen“ verwendet wird.
Der Trainingsmodus Neuausgleich zeigt Nachrichten an, die im überprüften Satz unterrepräsentiert sind. Wenn Sie Beispiele in diesem Modus mit Anmerkungen versehen, können Sie Ungleichgewichte im Dataset schnell beheben.
Jedes Mal, wenn Sie ein Training innerhalb eines Datasets abschließen, wird das Modell aktualisiert und liefert neue Vorhersagen für jede Nachricht. Parallel wird auch die Leistung des Modells neu bewertet. Das bedeutet, dass zu dem Zeitpunkt, in dem die neuen Vorhersagen bereit sind, auch neue Validierungsstatistiken verfügbar sein sollten (obligatorisch kann ein Prozess manchmal länger dauern als der andere), einschließlich der neuesten .