Communications Mining
Neuestes
False
Bannerhintergrundbild
Communications Mining-Benutzerhandbuch
Letzte Aktualisierung 18. Apr. 2024

Bezeichnungshierarchie und bewährte Methode

Einleitung

Bevor Sie mit dem Modelltraining beginnen, ist eswirklich wichtig zu verstehen, wie Sie bei der Erstellung Ihrer Taxonomie vorgehen müssen, einschließlich der Benennung und Strukturierung Ihrer Beschriftungen und was diese Beschriftungen tatsächlich erfassen sollten. In diesem Artikel wird jedes dieser Themen behandelt, beginnend mit der Benennung von Beschriftungen.

Im folgenden Artikel wird erläutert, warum es so wichtig ist, Ihre Taxonomie richtig zu strukturieren, um Ihre Geschäftsziele zu erreichen (hier).

Benennen von Beschriftungen

Die Entscheidung, Namen für Ihre Beschriftungen festzulegen, kann entschlüsselt oder zeitaufwändig erscheinen – muss aber nicht sein.

Für den Anfang ist es egal, wie ein Label heißt; bei unseren Modellen ist der Labelname selbst nur eine Zahl. Wichtig ist, dass der Beschriftungsname einem geschäftlichen Zweck dient und eine nützliche Beschreibung des spezifischen Konzepts darstellt, das er erfassen soll.

Sie können Beschriftungen jederzeit umbenennen (siehe Wie) und bei Bedarf Hierarchieebenen hinzufügen. Verschwenden Sie also bei der ersten Erstellung Ihres Modells nicht zu viel Zeit mit dem Gedanken an den richtigen Namen.

Beschriftungshierarchien

Ein Teil der Benennung einer Bezeichnung bestimmt ihre Hierarchie innerhalb Ihrer Taxonomie. Bezeichnungen können mehrere Hierarchieebenen haben, die einfach durch '> ' getrennt sind, um zu erfassen, wenn ein Bezeichnungskonzept eine Teilmenge eines umfassenderen übergeordneten Konzepts ist.

Potenzielle Beschriftungsstrukturen können also so aussehen (siehe auch Beispiel in der Abbildung unten):

  1. [Übergeordnete Beschriftung]
  2. [Übergeordnete Beschriftung] > [Untergeordnete Beschriftung]
  3. [Übergeordnete Beschriftung] > [Verzweigungsbezeichnung] > [Untergeordnete Beschriftung]

Sie können mehr als drei Hierarchieebenen hinzufügen, aber wir empfehlen nicht, dies oft zu tun, da das Training immer komplexer wird. Dies kann in bestimmten Fällen erforderlich sein, sollte aber nicht als bewährte Methode betrachtet werden.

Konzeptionell ist es wichtig, dass jede Beschriftung, die unter einer anderen Beschriftung verschachtelt ist, eine Teilmenge der darüber stehenden Beschriftung ist. Diese Verschachtelung (Hierarchieebene) wird mit einem „>“ erstellt, wenn der Beschriftungsname eingegeben wird.

Die folgende Abbildung veranschaulicht diesen Punkt anhand eines Benn-Diagramms:

Veranschaulichung, wie Bezeichnungshierarchien konzeptionell funktionierendocs image

Auch hier können Sie zusätzliche Hierarchieebenen hinzufügen, indem Sie Ihre Bezeichnungen später im Modelltrainingsprozess umbenennen.

Wie funktionieren diese Hierarchien in der Praxis?

Um dies zu verstehen, nehmen wir als Beispiel „ Child Label X“ aus dem obigen Visual.

Wenn das Modell vorhersagt , dass „Child Label X“ auf eine Nachricht zutrifft, sagt es auch Branch Label C“ und „Parent Label 1gleichzeitig vorher. Dies liegt daran, dass „Untergeordnetes Label X“ eine Teilmenge davon ist.

Da jede Hierarchieebene jedoch immer spezifischer wird, kann das Modell jedoch sicherer sein, dass eine übergeordnete oder Verzweigungsbezeichnung gilt als eine spezifischere untergeordnete Bezeichnung. Das bedeutet, dass das Modell verschiedenen Bezeichnungsvorhersagen innerhalb derselben Hierarchie unterschiedliche Wahrscheinlichkeiten zuweisen kann.

Für eine bestimmte Nachricht könnte das Modell also folgendermaßen aussehen:

  • 99 % zuversichtlich , dass „ Übergeordnete Bezeichnung 1“ zutrifft
  • 88 % zuversichtlich , dass Verzweigungsbezeichnung C zutrifft
  • 75 % sind zuversichtlich , dass „ Untergeordnete Beschriftung X“ zutrifft.

Es ist erwähnenswert, dass das Modell, wenn eine untergeordnete Bezeichnung für eine Nachricht vorhergesagt wird, die übergeordnete Bezeichnung (und ggf.die Verzweigungsbezeichnung )immer mit mindestens der gleichen Konfidenz wie die untergeordnete Bezeichnung vorhersagen sollte, wenn nicht sogar höher.

Die Tatsache, dass das Modell jede Bezeichnung unabhängig vorhersagt,ist einer der Hauptgrund dafür, dass übergeordnete Beschriftungen echte Themen oder Konzepte erfassen sollten und keine abstrakten.

Beispielsweise ist eine übergeordnete Beschriftung wie „ Prozess“, mit der untergeordnete Beschriftungen zusammengefasst werden, die sich auf bestimmte Prozesse beziehen, keine übergeordnete Beschriftung. „Prozess“ selbst ist ein abstraktes Konzept und kann das Modell für sich genommen nicht gut vorhersagen. In einem Geschäftskontext wäre der Name des spezifischen Prozesses , auf den sich etwas bezieht (und der aus dem Text einer Nachricht identifiziert werden kann), eine nützliche übergeordnete Beschriftung. Nützliche Verzweigungs- und untergeordnete Beschriftungen könnten dann relevante Unterprozesse des übergeordneten Hauptprozesses sein.

Wie wähle ich aus, welche Konzepte übergeordnete und welche untergeordnete Beschriftungen sein sollen?

Manchmal müssen Sie schwierige Entscheidungen bezüglich der Struktur Ihrer Taxonomie treffen. Zum Beispiel könnte es schwierig sein, zu entscheiden, ob eine Bezeichnung eine übergeordnete oder eine untergeordnete Bezeichnung sein soll, da es sich logisch um eine umfassende übergeordnete Kategorie mit eigenen Unterkategorien handeln könnte, oder um eine bestimmte Unterkategorie einer anderen, übergeordneten Kategorie zu sein.

Stellen Sie sich zum Beispiel ein Dataset vor, das aus Hotelbewertungen besteht – es könnte viele Bewertungen geben, in denen die Preisgestaltung für verschiedene Aspekte ihres Urlaubs und des Systems besprochen wird: das Lokal, die Bar, die Suite, die Aktivitäten usw.

Logischerweise könnten Sie „Preise“ als übergeordnete Bezeichnung haben und jeden spezifischen Aspekt der Preisgestaltung (z. B Restaurant) als untergeordnete Beschriftungen.

Sie könnten jedoch auch übergeordnete Beschriftungen haben, die sich auf die spezifischen Aspekte beziehen, wie „Lokal“, und „Zelle“, und „Preise“ jeweils als untergeordnete Beschriftung.

Welche sollten Sie also wählen?

Es ist hilfreich, bei der Entscheidung einige Dinge zu berücksichtigen:

  • Gibt es potenziell eine signifikante Anzahl anderer Konzepte, die Sie im Zusammenhang mit diesem umfassenderen Thema erfassen möchten? Wenn ja, sollte es sich wahrscheinlich um eine übergeordnete Bezeichnung handeln
  • Was ist aus der Sicht der MI oder Berichterstattung am wichtigsten? Ist es bei unserem Beispiel hilfreicher, in der Communications Mining-Analyse klar zu sehen, wie viele Personen genau über die Preisgestaltung und Unterkategorien sprechen? Oder ist es hilfreicher, Gesamtstatistiken über das Feedback zu Bereichen, Lokalen, Aktivitäten usw. zu sehen, wobei die Preisgestaltung ein Aspekt davon ist?

In diesen Situationen gibt es nicht unbedingt eine richtige oder falsche Antwort – es kommt darauf an, was für Sie und Ihr Unternehmen wichtiger ist.

Was kann ich tatsächlich mit einer Beschriftung erfassen?

Bisher haben wir besprochen, wie Beschriftungen benennt und in Hierarchien strukturiert werden, aber Sie fragen sich vielleicht immer noch, was genau eine Beschriftung erfassen soll.

Wir dürfen nicht vergessen, dass Communications Mining ein Tool zur Verarbeitung natürlicher Sprache ist . Die Plattform liest und interpretiert jede Nachricht, der eine Bezeichnung zugewiesen wird, und beginnt damit, ein Verständnis dafür zu entwickeln, wie dieses Bezeichnungskonzept hauptsächlich auf der Grundlage des enthaltenen Textes identifiziert werden kann.

Wenn Sie für jede Bezeichnung vielfältigere und konsistentere Beispiele hinzufügen , verbessert das Modell sein Verständnis dieses Bezeichnungskonzepts. Das Hinzufügen weiterer Bezeichnungen ist jedoch ein Prozess mit sinkenden Ergebnissen, sobald eine Bezeichnung jedoch gut funktioniert. Das Akzeptieren vieler Vorhersagen mit hoher Konfidenz für eine Bezeichnung gibt dem Modell keine neuen Informationen und ist eine Praxis, die vermieden werden sollte.

Da Communications Mining die Sprache der Nachricht verwendet, um zu verstehen und zu identifizieren, was ein Bezeichnungskonzept ist, muss die Bezeichnung klar vom Text (d. h. der Sprache) der Nachrichten identifizierbar sein , auf die sie angewendet wird. Bei einer E- Mail -Nachricht umfasst dies den Betreff UND den Textkörper der E-Mail.

Sehen Sie sich diese Beispiel-E-Mail unten an, auf die die Bezeichnung „ Abbruch > Bestätigung > Beendigung“ angewendet wurde. Diese Bezeichnung ist eindeutig aus dem Betreff und dem Textkörper der E-Mail abgeleitet.

Beispiel-E-Mail-Nachricht mit Hervorhebung des Texts, den das Modell bei Vorhersagen berücksichtigt

Das Modell ist zwar in der Lage, bestimmte Metadateneigenschaften beim Training zu berücksichtigen, insbesondere die NPS-Punktzahl (für Kundenfeedback-Datasets), die ihm helfen können, die Stimmung zu verstehen, aber der Text der Nachricht ist mit Abstand die wichtigsten Daten , die von den Benutzern berücksichtigt werden Communications Mining-Modelle.

Hinweis:

Das Modell berücksichtigt nicht die spezifische Absender- oder Empfängeradresse einer E-Mail, daher sollte diese bei der Bestimmung, welche Bezeichnung auf eine E-Mail-Nachricht angewendet werden soll, überhaupt nicht verwendet werden .

Das bedeutet, dass es wichtig ist, dass jede Bezeichnung spezifisch ist, was sie zu erfassen versucht. Andernfalls kann das Modell keine Trends und Muster in der Sprache erkennen, die ihm helfen, ein Bezeichnungskonzept vorherzusagen.

Warum sollte ich versuchen, die Verwendung sehr allgemeiner Beschriftungen zu vermeiden?

Sehr breite Bezeichnungen wie „ Allgemeine Abfrage“ oder „ Alles anderekönnen sehr nicht hilfreich sein , wenn viele verschiedene Themen zusammengeführt werden und kein klares Muster oder Gemeinsamkeit zwischen den Beispielen besteht, die dem Modell zur Verfügung gestellt wurden.

Wenn das Modell eine Bezeichnung gut vorhersagen soll, sind mehrere ähnliche Beispiele für die unterschiedlichen Ausdrücke jedes Konzepts erforderlich, das von einer Bezeichnung erfasst wird. Sehr breite Bezeichnungen erfordern daher eine sehr große Anzahl von Beispielen, um gut vorhergesagt zu werden.

Normalerweise ist es besser, breite Beschriftungen in verschiedene Beschriftungen aufzuteilen – auch wenn Sie „ Alles andere > [Verschiedene untergeordnete Beschriftungen]“ haben.

Wenn das Modell eine untergeordnete Bezeichnung besser identifizieren kann, weil sie spezifischer und klar identifizierbar ist (im Vergleich zu einer sehr breiten übergeordneten Kategorie), kann es seine Fähigkeit, auch die übergeordnete Bezeichnung vorherzusagen, erheblich verbessern.

Labelbeschreibungen

Eine der besten Möglichkeiten, die Beschriftungskonsistenz während des gesamten Modellerstellungsprozesses aufrechtzuerhalten, besteht darin, jeder Ihrer Beschriftungen Konzeptbeschreibungen hinzuzufügen. Dies ist auf der Seite „Beschriftungen und Entitäten“ des Datasets möglich. Dies ist besonders hilfreich, wenn mehrere Personen Ihr Modell trainieren, um sicherzustellen, dass alle das gleiche Verständnis für eine bestimmte Bezeichnung und das zugehörige Konzept haben. Es ist auch hilfreich, wenn Sie das Modell an eine andere Person abgeben müssen.

Beispiele für Labelbeschreibungen auf der Seite Dataset-Einstellungen

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.