Communications Mining-Benutzerhandbuch

Letzte Aktualisierung 20. Dez. 2024

Grundlegendes zu Datenanforderungen

Überblick

Dieser Artikel bietet Richtlinien für die Kommunikationsdatenmengen, die erforderlich sind, um die Trainingserfahrung zu optimieren und den Wert von Analysen und Automatisierung zu maximieren.

Bei der Entscheidung der Datenmenge für Ihren Anwendungsfall sollten Sie die folgenden Faktoren berücksichtigen:

Rendite (ROI)
Komplexität
Technische Grenzen

Wichtig: Die in diesem Abschnitt empfohlenen Datenmengen sind nicht die erwarteten Datenmengen, die Sie mit Anmerkungen versehen müssen, um die Leistung in Ihrem Anwendungsfall sicherzustellen. Stattdessen stellen diese Volumes die historischen Daten dar, die in der Regel erforderlich sind, um ausreichende und vielfältige Trainingsbeispiele zu erhalten. In der Regel muss nur ein kleiner Teil des gesamten Nachrichtenvolumens zu Feinabstimmungs- und Validierungszwecken mit Anmerkungen versehen werden.

Rendite

Um Ihr Communications Mining™ optimal nutzen zu können, implementieren möchten, empfehlen wir, mit Anwendungsfällen mit hohem Volumen zu beginnen. Diese Fälle profitieren von der Fähigkeit von Communications Mining, große Mengen an Nachrichtendaten effizient zu verarbeiten, sowohl für historische Analysen und Live-Überwachung als auch für Automatisierungen.

Der Aufwand für die Bereitstellung eines Anwendungsfalls nimmt mit höheren Nachrichtenmengen nicht wesentlich zu. Daher bieten Anwendungsfälle mit hohem Volumen in der Regel eine bessere Rendite in Bezug auf den Implementierungsaufwand als Anwendungsfälle mit geringerem Volumen. Dies ist wichtig für Organisationen mit begrenzten Ressourcen oder für Organisationen, die externe Unterstützung für die Implementierung benötigen.

Wenn Sie jedoch Szenarien mit geringerem Volumen mit hohem Geschäftswert haben, sollten Sie auch diese Anwendungsfälle in Betracht ziehen. Viele Anwendungsfälle mit geringem Volumen sind technisch erreichbar und sollten nicht verworfen werden.

Komplexität

Viele Anwendungsfälle haben einen Komplexitätsgrad – in Bezug auf die Anzahl und Komplexität der zu extrahierenden Beschriftungen und Felder – der für sehr geringe Nachrichtenmengen nicht geeignet ist. Dies liegt daran, dass das Dataset möglicherweise nicht genügend Beispiele für verschiedene und komplexe Konzepte oder Felder enthält, um spezielle Communications Mining-Modelle effektiv abzustimmen und zu validieren. Dies gilt sowohl für das automatisierte Training durch generative Anmerkungen als auch für weitere Beispiele, die von Modelltrainern mit Anmerkungen versehen werden.

Während einige Anwendungsfälle technisch durchführbar sein können und ausreichende Beispiele haben können, können niedrigere Volumen manchmal zu einer schlechteren Anmerkungserfahrung für Modelltrainer führen. Ein größerer Datenpool erleichtert den aktiven Lernmodi von Communications Mining das Identifizieren und Auffinden nützlicher Beispiele für Anmerkungen. Ein kleiner Datenpool kann zu weniger hochwertigen Beispielen in der Taxonomie führen. Weniger hochwertige Beispiele veranlassen die Benutzer dazu, schwer zu erfassende oder komplexere Beispiele mit Anmerkungen zu versehen.

Technische Grenzen

Bevor Sie mit der Qualifikation und Implementierung eines Anwendungsfalls auf der Grundlage von Überlegungen zu Komplexität und ROI fortfahren, ist es wichtig, die technischen Einschränkungen für Communications Mining zu berücksichtigen.

Zum Generieren von Clustern erfordert Communications Mining mindestens 2048 Nachrichten in einem Dataset (das aus mehreren ähnlichen Quellen bestehen kann). Mit Datasets, die kleiner als 2048 Nachrichten sind, können Sie alle Comms Mining-Funktionen neben Clustern und generierten Beschriftungsvorschlägen für Cluster verwenden.

Anwendungsfälle mit weniger als 2048 Nachrichten sollten im Hinblick auf die Anzahl und Komplexität der Beschriftungen/Felder sehr einfach sein. Es ist auch zu erwarten, dass ein viel höherer Anteil der Gesamtnachrichten mit Anmerkungen zu Feinabstimmungs- und Validierungszwecken im Vergleich zu Anwendungsfällen mit höherem Volumen mit Anmerkungen versehen werden muss. Es ist wahrscheinlich, dass für einige Beschriftungen und/oder Felder nicht genügend Beispiele für eine Anmerkung vorhanden sind, wenn sie nicht häufig vorkommen.

Um aussagekräftige Validierungsdaten sicherzustellen, erwartet Communications Mining auch mindestens 25 Beispiele mit Anmerkungen pro Beschriftung und Feld. Daher ist es wichtig, dass Sie mindestens diese Anzahl von Beispielen aus den verfügbaren Daten entnehmen können.

Empfehlungen für geringere Datenmengen

Die folgenden Empfehlungen beziehen sich auf Anwendungsfälle mit geringerem Datenvolumen, aber hohem Wert und/oder geringer Komplexität.

Im Allgemeinen sollten Anwendungsfälle wie erwartet funktionieren, wenn ihre Komplexität mit dem Volumen der Nachrichtendaten übereinstimmt. Anwendungsfälle mit sehr geringem Volumen sollten in der Regel sehr einfach sein, während Anwendungsfälle mit hohem Volumen komplexer sein können.

In einigen Fällen kann die Synchronisierung der historischen Daten von mehr als einem Jahr dabei helfen, Beispiele für das Training in ausreichender Qualität zu finden. Dies bietet auch den Vorteil einer besseren Analyse in Bezug auf Trends und Warnungen.

Anwendungsfälle mit weniger als 20.000 Nachrichten (in Bezug auf historische Volumen oder jährlichen Durchsatz) sollten sorgfältig im Hinblick auf Komplexität, ROI und den Aufwand betrachtet werden, der zur Unterstützung und Aktivierung des Anwendungsfalls erforderlich ist. Auch wenn die Möglichkeit besteht, dass solche Anwendungsfälle auf der Grundlage dieser Überlegungen unqualifiziert werden, können sie dennoch einen ausreichenden geschäftlichen Wert bieten, um fortzufahren.

Richtlinien für die Komplexität von Anwendungsfällen

Jeder Anwendungsfall ist einzigartig, daher gibt es keine einzige Richtlinie, die für alle Komplexitätsszenarien geeignet ist. Die Beschriftungen und Felder selbst können in Bezug auf das Verständnis und die Extraktion von sehr einfach bis komplex reichen.

In der folgenden Tabelle sind grobe Richtlinien für die Komplexität von Anwendungsfällen aufgeführt.

Tabelle 1. Richtlinien für die Komplexität von Anwendungsfällen
Komplexität	Beschriftungen	Extraktionsfelder	Allgemeine Felder
Sehr niedrig	~ 2–5	Keine Angabe	1-2
Niedrig	~ 5–15	1–2 für einige Beschriftungen	1–3
Mittel	15–50	1–5 für mehrere Beschriftungen	1–5*
Hoch	50+	1–8+ für einen hohen Anteil an Beschriftungen	1–5*

* Anwendungsfälle mit Extraktionsfeldern sollten auf diesen anstelle von allgemeinen Feldern basieren. Wenn Sie keine Extraktionsfelder verwenden, können Sie allgemeinere Felder erwarten, die aber möglicherweise keinen entsprechenden Wert hinzufügen.

Zusammenfassung

In der folgenden zusammenfassenden Tabelle sind grobe Richtlinien für Anwendungsfälle mit wenigen Daten aufgeführt:

Tabelle 2.
Anzahl der Nachrichten *	Einschränkungen	Empfehlung
weniger als 2048	Keine Cluster und Beschriftungsvorschläge Unzureichende Daten, als dass einige Analysen aussagekräftig sein könnten Wahrscheinlich minimaler ROI	Sollte nur sein: Tests
2048 – 20.000	Der Wert des aktiven Lernens ist aufgrund geringerer Volumen wahrscheinlich begrenzter Wahrscheinlich reichen die Daten nicht aus, um komplexe Anwendungsfälle zu unterstützen Wahrscheinlicher niedriger ROI	Sollte in erster Linie sein: POCs Anwendungsfälle mit geringer Komplexität Anwendungsfälle für die AI Center-Migration
20.000–50.000	Potenziell unzureichende Daten für sehr komplexe Anwendungsfälle (zumindest einige komplexe Felder/Beschriftungen) Potenziell niedrigerer ROI, je nach Komplexität	Sollte in erster Linie sein: Anwendungsfälle mit niedriger bis mittlerer Komplexität Einige Anwendungsfälle mit hoher Komplexität Anwendungsfälle für die AI Center-Migration

Bei historischen Datenmengen, aus denen Trainingsbeispiele stammen, ist in der Regel nur ein kleiner Teil der Gesamtvolumen mit Anmerkungen versehen. Dieser Anteil ist in der Regel bei Anwendungsfällen mit geringerem Volumen und höherer Komplexität höher.

Auf dieser Seite