- Erste Schritte
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder (früher Entitäten)
- Bezeichnungen (Vorhersagen, Konfidenzniveaus, Hierarchie usw.)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Überprüfte und nicht überprüfte Nachrichten
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Verwaltung
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen Sie eine Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Ein neues Dataset erstellen
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern Sie die Einstellungen eines Datasets
- Löschen Sie Nachrichten über die Benutzeroberfläche
- Löschen Sie ein Dataset
- Löschen Sie eine Quelle
- Exportieren Sie ein Dataset
- Verwenden von Exchange-Integrationen
- Vorbereiten von Daten für den CSV-Upload
- Modelltraining und -wartung
- Verstehen von Beschriftungen, allgemeinen Feldern und Metadaten
- Bezeichnungshierarchie und bewährte Methode
- Definieren Ihrer Taxonomieziele
- Analyse- vs. Automatisierungsanwendungsfälle
- Konvertieren Ihrer Ziele in Bezeichnungen
- Erstellen Ihrer Taxonomiestruktur
- Best Practices für den Taxonomieentwurf
- Ihre Taxonomie wird importiert
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung (NEU)
- Verstehen des Status Ihres Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- Wie funktioniert die Validierung?
- Verstehen und Verbessern der Modellleistung
- Warum kann eine Bezeichnung eine geringe durchschnittliche Genauigkeit haben?
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automatisierungs- und Communications Mining
- Lizenzierungsinformationen
- Häufige Fragen und mehr
Bezeichnungshierarchie und bewährte Methode
Bevor Sie mit dem Modelltraining beginnen, ist eswirklich wichtig zu verstehen, wie Sie bei der Erstellung Ihrer Taxonomie vorgehen müssen, einschließlich der Benennung und Strukturierung Ihrer Beschriftungen und was diese Beschriftungen tatsächlich erfassen sollten. In diesem Artikel wird jedes dieser Themen behandelt, beginnend mit der Benennung von Beschriftungen.
Im folgenden Artikel wird erläutert, warum es so wichtig ist, Ihre Taxonomie richtig zu strukturieren, um Ihre Geschäftsziele zu erreichen (hier).
Die Entscheidung, Namen für Ihre Beschriftungen festzulegen, kann entschlüsselt oder zeitaufwändig erscheinen – muss aber nicht sein.
Für den Anfang ist es egal, wie ein Label heißt; bei unseren Modellen ist der Labelname selbst nur eine Zahl. Wichtig ist, dass der Beschriftungsname einem geschäftlichen Zweck dient und eine nützliche Beschreibung des spezifischen Konzepts darstellt, das er erfassen soll.
Sie können Beschriftungen jederzeit umbenennen (siehe Wie) und bei Bedarf Hierarchieebenen hinzufügen. Verschwenden Sie also bei der ersten Erstellung Ihres Modells nicht zu viel Zeit mit dem Gedanken an den richtigen Namen.
Ein Teil der Benennung einer Bezeichnung bestimmt ihre Hierarchie innerhalb Ihrer Taxonomie. Bezeichnungen können mehrere Hierarchieebenen haben, die einfach durch '> ' getrennt sind, um zu erfassen, wenn ein Bezeichnungskonzept eine Teilmenge eines umfassenderen übergeordneten Konzepts ist.
Potenzielle Beschriftungsstrukturen können also so aussehen (siehe auch Beispiel in der Abbildung unten):
- [Übergeordnete Beschriftung]
- [Übergeordnete Beschriftung] > [Untergeordnete Beschriftung]
- [Übergeordnete Beschriftung] > [Verzweigungsbezeichnung] > [Untergeordnete Beschriftung]
Sie können mehr als drei Hierarchieebenen hinzufügen, aber wir empfehlen nicht, dies oft zu tun, da das Training immer komplexer wird. Dies kann in bestimmten Fällen erforderlich sein, sollte aber nicht als bewährte Methode betrachtet werden.
Konzeptionell ist es wichtig, dass jede Beschriftung, die unter einer anderen Beschriftung verschachtelt ist, eine Teilmenge der darüber stehenden Beschriftung ist. Diese Verschachtelung (Hierarchieebene) wird mit einem „>“ erstellt, wenn der Beschriftungsname eingegeben wird.
Die folgende Abbildung veranschaulicht diesen Punkt anhand eines Benn-Diagramms:
Auch hier können Sie zusätzliche Hierarchieebenen hinzufügen, indem Sie Ihre Bezeichnungen später im Modelltrainingsprozess umbenennen.
Um dies zu verstehen, nehmen wir als Beispiel „ Child Label X“ aus dem obigen Visual.
Wenn das Modell vorhersagt , dass „Child Label X“ auf eine Nachricht zutrifft, sagt es auch „Branch Label C“ und „Parent Label 1“ gleichzeitig vorher. Dies liegt daran, dass „Untergeordnetes Label X“ eine Teilmenge davon ist.
Da jede Hierarchieebene jedoch immer spezifischer wird, kann das Modell jedoch sicherer sein, dass eine übergeordnete oder Verzweigungsbezeichnung gilt als eine spezifischere untergeordnete Bezeichnung. Das bedeutet, dass das Modell verschiedenen Bezeichnungsvorhersagen innerhalb derselben Hierarchie unterschiedliche Wahrscheinlichkeiten zuweisen kann.
Für eine bestimmte Nachricht könnte das Modell also folgendermaßen aussehen:
- 99 % zuversichtlich , dass „ Übergeordnete Bezeichnung 1“ zutrifft
- 88 % zuversichtlich , dass Verzweigungsbezeichnung C zutrifft
- 75 % sind zuversichtlich , dass „ Untergeordnete Beschriftung X“ zutrifft.
Es ist erwähnenswert, dass das Modell, wenn eine untergeordnete Bezeichnung für eine Nachricht vorhergesagt wird, die übergeordnete Bezeichnung (und ggf.die Verzweigungsbezeichnung )immer mit mindestens der gleichen Konfidenz wie die untergeordnete Bezeichnung vorhersagen sollte, wenn nicht sogar höher.
Die Tatsache, dass das Modell jede Bezeichnung unabhängig vorhersagt,ist einer der Hauptgrund dafür, dass übergeordnete Beschriftungen echte Themen oder Konzepte erfassen sollten und keine abstrakten.
Beispielsweise ist eine übergeordnete Beschriftung wie „ Prozess“, mit der untergeordnete Beschriftungen zusammengefasst werden, die sich auf bestimmte Prozesse beziehen, keine übergeordnete Beschriftung. „Prozess“ selbst ist ein abstraktes Konzept und kann das Modell für sich genommen nicht gut vorhersagen. In einem Geschäftskontext wäre der Name des spezifischen Prozesses , auf den sich etwas bezieht (und der aus dem Text einer Nachricht identifiziert werden kann), eine nützliche übergeordnete Beschriftung. Nützliche Verzweigungs- und untergeordnete Beschriftungen könnten dann relevante Unterprozesse des übergeordneten Hauptprozesses sein.
Wie wähle ich aus, welche Konzepte übergeordnete und welche untergeordnete Beschriftungen sein sollen?
Manchmal müssen Sie schwierige Entscheidungen bezüglich der Struktur Ihrer Taxonomie treffen. Zum Beispiel könnte es schwierig sein, zu entscheiden, ob eine Bezeichnung eine übergeordnete oder eine untergeordnete Bezeichnung sein soll, da es sich logisch um eine umfassende übergeordnete Kategorie mit eigenen Unterkategorien handeln könnte, oder um eine bestimmte Unterkategorie einer anderen, übergeordneten Kategorie zu sein.
Stellen Sie sich zum Beispiel ein Dataset vor, das aus Hotelbewertungen besteht – es könnte viele Bewertungen geben, in denen die Preisgestaltung für verschiedene Aspekte ihres Urlaubs und des Systems besprochen wird: das Lokal, die Bar, die Suite, die Aktivitäten usw.
Logischerweise könnten Sie „Preise“ als übergeordnete Bezeichnung haben und jeden spezifischen Aspekt der Preisgestaltung (z. B Restaurant) als untergeordnete Beschriftungen.
Sie könnten jedoch auch übergeordnete Beschriftungen haben, die sich auf die spezifischen Aspekte beziehen, wie „Lokal“, und „Zelle“, und „Preise“ jeweils als untergeordnete Beschriftung.
Welche sollten Sie also wählen?
Es ist hilfreich, bei der Entscheidung einige Dinge zu berücksichtigen:
- Gibt es potenziell eine signifikante Anzahl anderer Konzepte, die Sie im Zusammenhang mit diesem umfassenderen Thema erfassen möchten? Wenn ja, sollte es sich wahrscheinlich um eine übergeordnete Bezeichnung handeln
- Was ist aus der Sicht der MI oder Berichterstattung am wichtigsten? Ist es bei unserem Beispiel hilfreicher, in der Communications Mining-Analyse klar zu sehen, wie viele Personen genau über die Preisgestaltung und Unterkategorien sprechen? Oder ist es hilfreicher, Gesamtstatistiken über das Feedback zu Bereichen, Lokalen, Aktivitäten usw. zu sehen, wobei die Preisgestaltung ein Aspekt davon ist?
In diesen Situationen gibt es nicht unbedingt eine richtige oder falsche Antwort – es kommt darauf an, was für Sie und Ihr Unternehmen wichtiger ist.
Bisher haben wir besprochen, wie Beschriftungen benennt und in Hierarchien strukturiert werden, aber Sie fragen sich vielleicht immer noch, was genau eine Beschriftung erfassen soll.
Wir dürfen nicht vergessen, dass Communications Mining ein Tool zur Verarbeitung natürlicher Sprache ist . Die Plattform liest und interpretiert jede Nachricht, der eine Bezeichnung zugewiesen wird, und beginnt damit, ein Verständnis dafür zu entwickeln, wie dieses Bezeichnungskonzept hauptsächlich auf der Grundlage des enthaltenen Textes identifiziert werden kann.
Wenn Sie für jede Bezeichnung vielfältigere und konsistentere Beispiele hinzufügen , verbessert das Modell sein Verständnis dieses Bezeichnungskonzepts. Das Hinzufügen weiterer Bezeichnungen ist jedoch ein Prozess mit sinkenden Ergebnissen, sobald eine Bezeichnung jedoch gut funktioniert. Das Akzeptieren vieler Vorhersagen mit hoher Konfidenz für eine Bezeichnung gibt dem Modell keine neuen Informationen und ist eine Praxis, die vermieden werden sollte.
Da Communications Mining die Sprache der Nachricht verwendet, um zu verstehen und zu identifizieren, was ein Bezeichnungskonzept ist, muss die Bezeichnung klar vom Text (d. h. der Sprache) der Nachrichten identifizierbar sein , auf die sie angewendet wird. Bei einer E- Mail -Nachricht umfasst dies den Betreff UND den Textkörper der E-Mail.
Sehen Sie sich diese Beispiel-E-Mail unten an, auf die die Bezeichnung „ Abbruch > Bestätigung > Beendigung“ angewendet wurde. Diese Bezeichnung ist eindeutig aus dem Betreff und dem Textkörper der E-Mail abgeleitet.
Das Modell ist zwar in der Lage, bestimmte Metadateneigenschaften beim Training zu berücksichtigen, insbesondere die NPS-Punktzahl (für Kundenfeedback-Datasets), die ihm helfen können, die Stimmung zu verstehen, aber der Text der Nachricht ist mit Abstand die wichtigsten Daten , die von den Benutzern berücksichtigt werden Communications Mining-Modelle.
Das Modell berücksichtigt nicht die spezifische Absender- oder Empfängeradresse einer E-Mail, daher sollte diese bei der Bestimmung, welche Bezeichnung auf eine E-Mail-Nachricht angewendet werden soll, überhaupt nicht verwendet werden .
Das bedeutet, dass es wichtig ist, dass jede Bezeichnung spezifisch ist, was sie zu erfassen versucht. Andernfalls kann das Modell keine Trends und Muster in der Sprache erkennen, die ihm helfen, ein Bezeichnungskonzept vorherzusagen.
Sehr breite Bezeichnungen wie „ Allgemeine Abfrage“ oder „ Alles andere“ können sehr nicht hilfreich sein , wenn viele verschiedene Themen zusammengeführt werden und kein klares Muster oder Gemeinsamkeit zwischen den Beispielen besteht, die dem Modell zur Verfügung gestellt wurden.
Wenn das Modell eine Bezeichnung gut vorhersagen soll, sind mehrere ähnliche Beispiele für die unterschiedlichen Ausdrücke jedes Konzepts erforderlich, das von einer Bezeichnung erfasst wird. Sehr breite Bezeichnungen erfordern daher eine sehr große Anzahl von Beispielen, um gut vorhergesagt zu werden.
Normalerweise ist es besser, breite Beschriftungen in verschiedene Beschriftungen aufzuteilen – auch wenn Sie „ Alles andere > [Verschiedene untergeordnete Beschriftungen]“ haben.
Wenn das Modell eine untergeordnete Bezeichnung besser identifizieren kann, weil sie spezifischer und klar identifizierbar ist (im Vergleich zu einer sehr breiten übergeordneten Kategorie), kann es seine Fähigkeit, auch die übergeordnete Bezeichnung vorherzusagen, erheblich verbessern.
Eine der besten Möglichkeiten, die Beschriftungskonsistenz während des gesamten Modellerstellungsprozesses aufrechtzuerhalten, besteht darin, jeder Ihrer Beschriftungen Konzeptbeschreibungen hinzuzufügen. Dies ist auf der Seite „Dataset-Einstellungen“ unter „Beschriftungen und allgemeine Felder“ möglich. Dies ist besonders hilfreich, wenn mehrere Personen Ihr Modell trainieren, um sicherzustellen, dass alle das gleiche Verständnis für eine bestimmte Bezeichnung und das zugehörige Konzept haben. Es ist auch hilfreich, wenn Sie das Modell an eine andere Person abgeben müssen.