- Einleitung
- Einrichten Ihres Kontos
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder
- Beschriftungen (Vorhersagen, Konfidenzniveaus, Beschriftungshierarchie und Beschriftungsstimmung)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Nachrichten mit und ohne Anmerkungen
- Extraktionsfelder
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Zugriffssteuerung und Administration
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen oder Löschen einer Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein Dataset wird erstellt
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern der Dataset-Einstellungen
- Löschen einer Nachricht
- Löschen eines Datasets
- Exportieren eines Datasets
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Grundlegendes zu Beschriftungen, allgemeinen Feldern und Metadaten
- Beschriftungshierarchie und Best Practices
- Vergleichen von Anwendungsfällen für Analyse und Automatisierung
- Konvertieren Ihrer Ziele in Bezeichnungen
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- So funktioniert die Validierung
- Verstehen und Verbessern der Modellleistung
- Gründe für die geringe durchschnittliche Beschriftungsgenauigkeit
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automations and Communications Mining™
- Entwickler (Developer)
- Verwenden der API
- API-Tutorial
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- Hochladen von Daten
- Herunterladen von Daten
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Exchange-Integration mit Azure Application Authentication und Graph
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Allgemeine Feldextraktion
- Selbst gehostete Exchange-Integration
- UiPath® Automatisierungs-Framework
- Offizielle UiPath®-Aktivitäten
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben von Anmerkungsverzerrungen mit Communications Mining™
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining™ und Google AutoML für Conversation Data Intelligence
- Lizenzierung
- Häufige Fragen und mehr

Communications Mining-Benutzerhandbuch
Dieser Abschnitt enthält Richtlinien für die Kommunikationsdatenmengen, die erforderlich sind, um die Trainingserfahrung zu optimieren und den Wert von Analysen und Automatisierung zu maximieren.
Bei der Entscheidung der Datenmenge für Ihren Anwendungsfall sollten Sie die folgenden Faktoren berücksichtigen:
- Rendite (ROI)
- Komplexität
- Technische Grenzen
Rendite
Um das Beste aus Ihrer Communications Mining™-Implementierung herauszuholen, empfehlen wir, mit Anwendungsfällen mit hohem Volumen zu beginnen. Diese Fälle profitieren von der Fähigkeit von Communications Mining, große Mengen an Nachrichtendaten effizient zu verarbeiten, sowohl für historische Analysen und Live-Überwachung als auch für Automatisierungen.
Der Aufwand für die Bereitstellung eines Anwendungsfalls nimmt mit höheren Nachrichtenmengen nicht wesentlich zu. Daher bieten Anwendungsfälle mit hohem Volumen in der Regel eine bessere Rendite in Bezug auf den Implementierungsaufwand als Anwendungsfälle mit geringerem Volumen. Dies ist wichtig für Organisationen mit begrenzten Ressourcen oder für Organisationen, die externe Unterstützung für die Implementierung benötigen.
Wenn Sie jedoch Szenarien mit geringerem Volumen mit hohem Geschäftswert haben, sollten Sie auch diese Anwendungsfälle in Betracht ziehen. Viele Anwendungsfälle mit geringem Volumen sind technisch erreichbar und sollten nicht verworfen werden.
Komplexität
Viele Anwendungsfälle haben einen Komplexitätsgrad in Bezug auf die Anzahl und Komplexität der zu extrahierenden Beschriftungen und Felder, der für sehr geringe Nachrichtenmengen nicht gut geeignet ist. Dies liegt daran, dass im Dataset mit unterschiedlichen und komplexen Konzepten oder Feldern möglicherweise nicht genügend Beispiele vorhanden sind, um die spezialisierten Modelle von Communications Mining™ effektiv zu optimieren und zu validieren. Dies gilt sowohl für das automatisierte Training, das durch generative Anmerkungen bereitgestellt wird, als auch für weitere Beispiele, die von Modelltrainern mit Anmerkungen versehen werden.
Während einige Anwendungsfälle technisch durchführbar sein können und es ausreichend Beispiele gibt, können geringere Volumen manchmal zu einer schlechteren Anmerkungserfahrung für Modelltrainer führen. Ein größerer Datenpool erleichtert den aktiven Lernmodi von Communications Mining, nützliche Beispiele für die Anmerkungen zu identifizieren und zu finden. Ein kleiner Datenpool kann zu weniger qualitativen Beispielen in der Taxonomie führen. Weniger hochwertige Beispiele führen dazu, dass Benutzer nicht nachvollziehbare oder komplexere Beispiele mit Anmerkungen versehen.
Technische Grenzen
Bevor Sie mit der Qualifizierung und Implementierung eines Anwendungsfalls auf Grundlage von Überlegungen zu Komplexität und ROI fortfahren, sollten Sie die technischen Einschränkungen von Communications Mining™ berücksichtigen.
Zum Generieren von Clustern benötigt Communications Mining mindestens 2048 Nachrichten in einem Dataset, das aus mehreren ähnlichen Quellen bestehen kann. Mit Datasets, die kleiner als 2048 Nachrichten sind, können Sie alle Communications Mining-Funktionen neben Clustern und generierten Beschriftungsvorschlägen für Cluster verwenden.
Anwendungsfälle mit weniger als 2048 Nachrichten sollten in Bezug auf die Anzahl und Komplexität von Beschriftungen oder Feldern sehr einfach sein. Sie sollten auch davon ausgehen, dass Sie im Vergleich zu Anwendungsfällen mit höherem Volumen einen viel höheren Anteil der gesamten Nachrichten für Feinabstimmungs- und Validierungszwecke mit Anmerkungen versehen werden. Es ist wahrscheinlich, dass für einige Beschriftungen oder Felder oder beides nicht genügend Beispiele für Anmerkungen vorhanden sind, wenn sie nicht häufig vorkommen.
Um aussagekräftige Validierungsdaten sicherzustellen, erwartet Communications Mining außerdem mindestens 25 Beispiele mit Anmerkungen pro Beschriftung und Feld. Stellen Sie daher sicher, dass Sie mindestens diese Anzahl von Beispielen aus den verfügbaren Daten entnehmen können.
Die folgenden Empfehlungen beziehen sich auf Anwendungsfälle mit geringerem Datenvolumen, aber hohem Wert bzw. geringer Komplexität oder beides.
Im Allgemeinen sollten Anwendungsfälle wie erwartet funktionieren, wenn ihre Komplexität mit dem Volumen der Nachrichtendaten übereinstimmt. Anwendungsfälle mit sehr geringem Volumen sollten sehr einfach sein, während Anwendungsfälle mit hohem Volumen komplexer sein können.
In einigen Fällen kann die Synchronisierung von mehr als einem Jahr historischer Daten dazu beitragen, Beispiele von ausreichender Qualität für das Training zu erhalten. Dies bietet auch den Vorteil einer besseren Analyse von Trends und Warnungen.
Anwendungsfälle mit weniger als 20.000 Nachrichten in Bezug auf historische Volumen oder jährliche Durchsatzwerte sollten sorgfältig im Hinblick auf Komplexität, ROI und den erforderlichen Aufwand zur Unterstützung und Aktivierung des Anwendungsfalls geprüft werden. Auch wenn die Möglichkeit besteht, dass solche Anwendungsfälle aufgrund dieser Überlegungen unqualifiziert werden, können dennoch ausreichend Geschäftswert bieten, um fortzufahren.
Richtlinien für die Komplexität von Anwendungsfällen
Jeder Anwendungsfall ist einzigartig, daher gibt es keine einzige Richtlinie, die für alle Komplexitätsszenarien geeignet ist. Die Beschriftungen und Felder selbst können in Bezug auf das Verständnis und die Extraktion von sehr einfach bis komplex reichen.
In der folgenden Tabelle sind grobe Richtlinien für die Komplexität von Anwendungsfällen aufgeführt.
| Komplexität | Beschriftungen | Extraktionsfelder | Allgemeine Felder |
|---|---|---|---|
| Sehr niedrig | ungefähr 2–5 | Keine Angabe | 1-2 |
| Niedrig | ungefähr 5–15 | 1–2 für einige Beschriftungen | 1–3 |
| Mittel | zwischen 15 und 50 | 1–5 für mehrere Beschriftungen | 1–5* |
| Hoch | mehr als 50 | 1–8 oder mehr für einen hohen Anteil an Beschriftungen | 1–5* |
* Anwendungsfälle mit Extraktionsfeldern sollten auf diesen anstelle von allgemeinen Feldern basieren. Wenn Sie keine Extraktionsfelder verwenden, können Sie allgemeinere Felder erwarten, die aber möglicherweise keinen entsprechenden Wert hinzufügen.
Zusammenfassung
| Die Anzahl der Nachrichten * | Einschränkungen | Empfehlung |
|---|---|---|
| Weniger als 2048 |
| Sollte nur sein:
|
| 2048 – 20.000 |
|
Sollte in erster Linie sein:
|
| 20.000–50.000 |
|
Sollte in erster Linie sein:
|
* Bei historischen Datenmengen, aus denen Trainingsbeispiele stammen, ist in der Regel nur ein kleiner Teil der Gesamtvolumen mit Anmerkungen versehen. Dieser Anteil ist in der Regel bei Anwendungsfällen mit geringerem Volumen und höherer Komplexität höher.