- Erste Schritte
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder (früher Entitäten)
- Bezeichnungen (Vorhersagen, Konfidenzniveaus, Hierarchie usw.)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Überprüfte und nicht überprüfte Nachrichten
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Verwaltung
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen oder löschen Sie eine Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein neues Dataset erstellen
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern Sie die Einstellungen eines Datasets
- Löschen Sie Nachrichten über die Benutzeroberfläche
- Löschen Sie ein Dataset
- Exportieren Sie ein Dataset
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Verstehen von Beschriftungen, allgemeinen Feldern und Metadaten
- Bezeichnungshierarchie und bewährte Methode
- Definieren Ihrer Taxonomieziele
- Analyse- vs. Automatisierungsanwendungsfälle
- Konvertieren Ihrer Ziele in Bezeichnungen
- Erstellen Ihrer Taxonomiestruktur
- Best Practices für den Taxonomieentwurf
- Ihre Taxonomie wird importiert
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung (NEU)
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- Wie funktioniert die Validierung?
- Verstehen und Verbessern der Modellleistung
- Warum kann eine Bezeichnung eine geringe durchschnittliche Genauigkeit haben?
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automatisierungs- und Communications Mining
- Lizenzierungsinformationen
- Häufige Fragen und mehr
Communications Mining-Benutzerhandbuch
Grundlegendes zu Datenanforderungen
Dieser Artikel bietet Richtlinien für die Kommunikationsdatenmengen, die erforderlich sind, um die Trainingserfahrung zu optimieren und den Wert von Analysen und Automatisierung zu maximieren.
- Rendite (ROI)
- Komplexität
- Technische Grenzen
Um Ihr Communications Mining™ optimal nutzen zu können, implementieren möchten, empfehlen wir, mit Anwendungsfällen mit hohem Volumen zu beginnen. Diese Fälle profitieren von der Fähigkeit von Communications Mining, große Mengen an Nachrichtendaten effizient zu verarbeiten, sowohl für historische Analysen und Live-Überwachung als auch für Automatisierungen.
Der Aufwand für die Bereitstellung eines Anwendungsfalls nimmt mit höheren Nachrichtenmengen nicht wesentlich zu. Daher bieten Anwendungsfälle mit hohem Volumen in der Regel eine bessere Rendite in Bezug auf den Implementierungsaufwand als Anwendungsfälle mit geringerem Volumen. Dies ist wichtig für Organisationen mit begrenzten Ressourcen oder für Organisationen, die externe Unterstützung für die Implementierung benötigen.
Wenn Sie jedoch Szenarien mit geringerem Volumen mit hohem Geschäftswert haben, sollten Sie auch diese Anwendungsfälle in Betracht ziehen. Viele Anwendungsfälle mit geringem Volumen sind technisch erreichbar und sollten nicht verworfen werden.
Viele Anwendungsfälle haben einen Komplexitätsgrad – in Bezug auf die Anzahl und Komplexität der zu extrahierenden Beschriftungen und Felder – der für sehr geringe Nachrichtenmengen nicht geeignet ist. Dies liegt daran, dass das Dataset möglicherweise nicht genügend Beispiele für verschiedene und komplexe Konzepte oder Felder enthält, um spezielle Communications Mining-Modelle effektiv abzustimmen und zu validieren. Dies gilt sowohl für das automatisierte Training durch generative Anmerkungen als auch für weitere Beispiele, die von Modelltrainern mit Anmerkungen versehen werden.
Während einige Anwendungsfälle technisch durchführbar sein können und ausreichende Beispiele haben können, können niedrigere Volumen manchmal zu einer schlechteren Anmerkungserfahrung für Modelltrainer führen. Ein größerer Datenpool erleichtert den aktiven Lernmodi von Communications Mining das Identifizieren und Auffinden nützlicher Beispiele für Anmerkungen. Ein kleiner Datenpool kann zu weniger hochwertigen Beispielen in der Taxonomie führen. Weniger hochwertige Beispiele veranlassen die Benutzer dazu, schwer zu erfassende oder komplexere Beispiele mit Anmerkungen zu versehen.
Bevor Sie mit der Qualifikation und Implementierung eines Anwendungsfalls auf der Grundlage von Überlegungen zu Komplexität und ROI fortfahren, ist es wichtig, die technischen Einschränkungen für Communications Mining zu berücksichtigen.
Zum Generieren von Clustern erfordert Communications Mining mindestens 2048 Nachrichten in einem Dataset (das aus mehreren ähnlichen Quellen bestehen kann). Mit Datasets, die kleiner als 2048 Nachrichten sind, können Sie alle Comms Mining-Funktionen neben Clustern und generierten Beschriftungsvorschlägen für Cluster verwenden.
Anwendungsfälle mit weniger als 2048 Nachrichten sollten im Hinblick auf die Anzahl und Komplexität der Beschriftungen/Felder sehr einfach sein. Es ist auch zu erwarten, dass ein viel höherer Anteil der Gesamtnachrichten mit Anmerkungen zu Feinabstimmungs- und Validierungszwecken im Vergleich zu Anwendungsfällen mit höherem Volumen mit Anmerkungen versehen werden muss. Es ist wahrscheinlich, dass für einige Beschriftungen und/oder Felder nicht genügend Beispiele für eine Anmerkung vorhanden sind, wenn sie nicht häufig vorkommen.
Um aussagekräftige Validierungsdaten sicherzustellen, erwartet Communications Mining auch mindestens 25 Beispiele mit Anmerkungen pro Beschriftung und Feld. Daher ist es wichtig, dass Sie mindestens diese Anzahl von Beispielen aus den verfügbaren Daten entnehmen können.
Die folgenden Empfehlungen beziehen sich auf Anwendungsfälle mit geringerem Datenvolumen, aber hohem Wert und/oder geringer Komplexität.
Im Allgemeinen sollten Anwendungsfälle wie erwartet funktionieren, wenn ihre Komplexität mit dem Volumen der Nachrichtendaten übereinstimmt. Anwendungsfälle mit sehr geringem Volumen sollten in der Regel sehr einfach sein, während Anwendungsfälle mit hohem Volumen komplexer sein können.
In einigen Fällen kann die Synchronisierung der historischen Daten von mehr als einem Jahr dabei helfen, Beispiele für das Training in ausreichender Qualität zu finden. Dies bietet auch den Vorteil einer besseren Analyse in Bezug auf Trends und Warnungen.
Anwendungsfälle mit weniger als 20.000 Nachrichten (in Bezug auf historische Volumen oder jährlichen Durchsatz) sollten sorgfältig im Hinblick auf Komplexität, ROI und den Aufwand betrachtet werden, der zur Unterstützung und Aktivierung des Anwendungsfalls erforderlich ist. Auch wenn die Möglichkeit besteht, dass solche Anwendungsfälle auf der Grundlage dieser Überlegungen unqualifiziert werden, können sie dennoch einen ausreichenden geschäftlichen Wert bieten, um fortzufahren.
Jeder Anwendungsfall ist einzigartig, daher gibt es keine einzige Richtlinie, die für alle Komplexitätsszenarien geeignet ist. Die Beschriftungen und Felder selbst können in Bezug auf das Verständnis und die Extraktion von sehr einfach bis komplex reichen.
In der folgenden Tabelle sind grobe Richtlinien für die Komplexität von Anwendungsfällen aufgeführt.
Komplexität | Beschriftungen | Extraktionsfelder | Allgemeine Felder |
---|---|---|---|
Sehr niedrig | ~ 2–5 | Keine Angabe | 1-2 |
Niedrig | ~ 5–15 | 1–2 für einige Beschriftungen | 1–3 |
Mittel | 15–50 | 1–5 für mehrere Beschriftungen | 1–5* |
Hoch | 50+ | 1–8+ für einen hohen Anteil an Beschriftungen | 1–5* |
* Anwendungsfälle mit Extraktionsfeldern sollten auf diesen anstelle von allgemeinen Feldern basieren. Wenn Sie keine Extraktionsfelder verwenden, können Sie allgemeinere Felder erwarten, die aber möglicherweise keinen entsprechenden Wert hinzufügen.
Anzahl der Nachrichten * | Einschränkungen | Empfehlung |
---|---|---|
weniger als |
| Sollte nur sein:
|
2048 – 20.000 |
|
Sollte in erster Linie sein:
|
20.000–50.000 |
|
Sollte in erster Linie sein:
|
Bei historischen Datenmengen, aus denen Trainingsbeispiele stammen, ist in der Regel nur ein kleiner Teil der Gesamtvolumen mit Anmerkungen versehen. Dieser Anteil ist in der Regel bei Anwendungsfällen mit geringerem Volumen und höherer Komplexität höher.