communications-mining
latest
false
Wichtig :
Dieser Inhalt wurde maschinell übersetzt.
UiPath logo, featuring letters U and I in white
Communications Mining-Entwicklerhandbuch
Last updated 7. Nov. 2024

Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten

Unternehmen setzen auf Kommunikation – Kunden melden sich, wenn sie etwas wollen, Kollegen kommunizieren, um ihre Arbeit zu erledigen. Jede Nachricht zählt. Unser Ziel bei Communications Mining ist es, den Wert dieser Nachrichten zu erschließen und jedem Team in einem Unternehmen zu helfen, bessere Produkte und Dienstleistungen effizient und in großem Umfang bereitzustellen.

Mit diesem Ziel erforschen und entwickeln wir kontinuierlich unsere Kerntechnologie für maschinelles Lernen und Verständnis der natürlichen Sprache weiter. Die Machine-Learning-Modelle bei Communications Mining nutzen Vortraining, nicht überwachtes Lernen, halbüberwachtes Lernen und aktives Lernen , um modernste Genauigkeit mit minimalem Zeit- und Mindestaufwand für unsere Benutzer zu erreichen.

In diesem Forschungsbeitrag untersuchen wir einen neuen, nicht überwachten Ansatz zur automatischen Erkennung der Themen und Absichten und deren Taxonomiestruktur aus einem Kommunikations-Dataset. Es geht darum, die Qualität der von uns gelieferten Erkenntnisse und die Geschwindigkeit, mit der diese gewonnen werden, zu verbessern.

Zusammenfassung​

Themenmodelle sind eine Klasse von Methoden zum Erkennen der „Themen“, die in einer Sammlung von „Dokumenten“ auftreten. Wichtig ist, dass Themenmodelle funktionieren, ohne dass kommentierte Trainingsdaten gesammelt werden müssen. Sie identifizieren automatisch die Themen in einem Dataset und welche Themen in jedem Dokument angezeigt werden.

Eine angenommene E-Mail mit „fehlgeschlagener Handel“ und die Typen der hierarchischen Themen, die wir automatisch ableiten möchten

In diesem Beitrag:

  • Wir erklären klassische Themenmodelle und diskutieren einige ihrer Schwachstellen, z. B. dass die Anzahl der Themen im Voraus bekannt sein muss, die Beziehungen zwischen Themen nicht erfasst werden usw.
  • Wir organisieren die Themen in einer Hierarchie, die basierend auf der aktuellen Struktur des Datasets automatisch abgeleitet wird. In der Hierarchie werden semantisch verwandte Themen gruppiert.
  • Wir erreichen eine kohärentere Themenhierarchie, indem wir Transformer-basierte Einbettungen in das Modell integrieren.

Hintergrund​

Themenmodelle gehen davon aus, dass ein Dataset (Sammlung von Dokumenten) eine Reihe von Themen enthält. Ein Thema gibt an, wie wahrscheinlich die einzelnen Wörter in einem Dokument vorkommen. Jedes Dokument im Dataset wird aus einer Mischung der Themen generiert. Im Allgemeinen haben Sätze von Wörtern, die häufig zusammen vorkommen, eine hohe Wahrscheinlichkeit in einem bestimmten Thema.

Angenommen, wir haben beispielsweise ein Dataset, das aus den folgenden Dokumenten besteht:

  • Dokument 1: „Hunde sind Excellence-Nachkommen von Wölfen“
  • Dokument 2: „Katzen sind zeichengierige Roboter mit Backenbart und einklappbaren Klauen“
  • Dokument 3: „GroßKatzen sind dafür bekannt, Hunde anzugreifen“
  • Dokument 4: „Nachdem sie von den Fähigkeitsobjekten von Tieren gestreichelt wurden, können einige Hunde Angst vor Tieren bekommen.“
  • Dokument 5: „Domainzifizierte Hunde ziehen eventuell die Anwesenheit vonKatzen anderen Diensten vor.“

Ein Themenmodell, das auf diesen Dokumenten trainiert wurde, kann die folgenden Themen und Dokument-Themenzuweisungen lernen:

Thema 1Thema 2
an einen OrtKatzen
gezeigtGreifen Sie zu
WöchentlichWhiskers
......

Beispielthemen mit Wörtern, die nach höchster Wahrscheinlichkeit sortiert sind.

 Thema 1Thema 2
Dokument 1100%0%
Dokument 20%100%
Dokument 350%50%
Dokument 433%67%
Dokument 567%33%

Beispiele für Dokumentthemenzuweisungen.

Die Anzeige der wahrscheinlichsten Wörter für jedes Thema sowie der Themen, zu denen jedes Dokument gehört, bietet einen Überblick darüber, worum es im Text in einem Dataset geht und welche Dokumente einander ähnlich sind.

Eingebettete Themenmodelle​

Das kanonische Themenmodell heißt Latenz- Dirichlet-Zuteilung (LDA). Es handelt sich um ein generatives Modell, das mit einer (angezeigten) Maximal-Wahrscheinlichkeitsschätzung trainiert wurde. LDA geht davon aus, dass:

  • Es gibt K Themen, von denen jedes eine Verteilung über den Wortstamm (den Satz von Wörtern im Dataset) angibt.
  • Jedes Dokument (Aufzählung von Wörtern) weist eine Verteilung über Themen auf.
    • Jedes Wort in einem Dokument wird aus einem Thema generiert, entsprechend der Verteilung des Dokuments über Themen und der Verteilung des Themas über den Wortstamm.

Die meisten modernen Themenmodelle basieren auf LDA. Zunächst konzentrieren wir uns auf das Embedded Topic Model (ETM). Das ETM verwendet Einbettungen, um sowohl Wörter als auch Themen darzustellen. Bei der klassischen Themenmodellierung ist jedes Thema eine vollständige Verteilung über den Wortstamm. Im ETM ist jedoch jedes Thema ein Vektor im Einbettungsbereich. Für jedes Thema verwendet der ETM die Themeneinbettung, um eine Verteilung über den Terminus zu bilden.

Training und Inferenz​

Der generative Prozess für ein Dokument sieht folgendermaßen aus:
  1. Probieren Sie die verborgene Darstellung z aus der vorherigen Verteilung aus: z∼N(0,I).
  2. Berechnen Sie die Themenproportionen θ=softmax(z).
  3. Für jedes Wort w im Dokument:
    1. Beispiel für die geheime Themenzuweisung


    2. Beispiel für das Wort


wobeiU∈ Runtime x E die Worteinbettungsmatrix und ​tyw​ ∈ RE die Einbettung des Themas yw​ ist; Dies sind die Modellparameter. V ist die Anzahl der Wörter im Wörterbuch und E die Einbettungsgröße.
Die Log-Wahrscheinlichkeit für ein Dokument mit den Wörtern v1​,v2​,…,vw​ ist:


wobei:


​​Leider ist das obige Integral nicht zu lösen. Daher ist es nicht einfach, die Log-Wahrscheinlichkeit direkt zu maximieren. Stattdessen wird sie mithilfe der Variationsinferenz näherungsweise maximiert. Dazu wird eine „Inferenz“-Verteilung qθ ​(zSx) (mit Parametern ϕ) verwendet, um eine Untergrenze für die Logarithmus-Wahrscheinlichkeit basierend auf der Jensen-Ungleichheit zu bilden, wobei x=​x1 ,…,xW:


Diese Untergrenze kann nun mithilfe von Installate-Carlo-Approaches des Farbverlaufs durch den so genannten „Neuparametrierungs-Trick“ maximiert werden.

Eine Kalkulationstabelle wird für die Inferenzverteilung verwendet, deren Mittelwert und Varianz die Ausgaben eines neuronalen Netzwerks sind, das als Eingabe die Darstellung des Dokuments in Form von Wörtern verwendet.

Dank des obigen Trainingsziels lernt die Inferenzverteilung, sich dem wahren, aber nicht kontrahierbaren Apostroph zu nähern, d. h . ​(zSx)≃p(zSx). Das bedeutet, dass wir nach dem Trainieren des Modells die Inferenzverteilung verwenden können, um die Themen zu finden, denen ein Dokument zugewiesen wurde. Wenn der Mittelwert der Inferenzverteilung verwendet wird und die Softmax-Funktion angewendet wird (wie in Schritt 2 des obigen generativen Prozesses), werden die ungefähren Proportionen des hinteren Themenbereichs für ein bestimmtes Dokument ermittelt.

Ein Beispiel aus der Praxis​

Wir trainieren einen ETM auf dem Dataset „ 20 Newsgroups “, das Kommentare aus Diskussionsforen zu 20 hierarchischen Themen enthält, die wie folgt kategorisiert sind:

  • Computer: Comp. Graphics, Comp.os.ms-windows.misc, Comp.sys.ibm.PC.Hardware, Comp.Sys.Mac.Hardware, komp.windows.x
  • Recreation: Rec.autos, Rec.maschinecycles, Rec.sport.baseball, Rec.sport.hovey
  • Science: sci.crypt, sci.elektoren, sci.ment, sci.space
  • Richtlinien : chat.politics.misc, Robot, chat.policies.Mideast
  • Konfession : chat.religion.misc, alt.atheism, soc.religion. Bedienfeld
  • Sonstiges: misc.forsale

Bei Communications Mining arbeiten wir ausschließlich mit Kommunikationsdaten, die notorisch privat sind. Zur Reproduzierbarkeit und da es das am häufigsten verwendete Dataset zur Themenmodellierung in der Forschungsliteratur zum maschinellen Lernen ist, verwenden wir hier das Dataset „20Newsgroups“. Dies gilt als „Hallo Welt“ der Themenmodellierung.

Wir trainieren das Modell mit 20 Themen (d. h K = 20), da wir für dieses Dataset bereits wissen, wie viele Themen es gibt (aber im Allgemeinen wird dies nicht der Fall sein). Wir verwendenGloVe, um die Einbettungsmatrix U zu initialisieren.

Nachfolgend sehen Sie die ersten 10 Wörter, die für jedes Thema gelernt wurden, und die Anzahl der Dokumente, die dieses Thema als das wahrscheinlichste haben:

Wahrscheinlichste Wörter für jedes Thema, das der ETM gelernt hat

Die gelernten Top-Wörter stimmen größtenteils mit den wahren Themen im Dataset überein, z. B Thema 2 = chat.politics.zuguns, Thema 13 = sci.space, usw. Für jedes Dokument können wir auch die Themenzuweisungswahrscheinlichkeiten anzeigen; einige Beispiele sind unten aufgeführt. Bestimmte Dokumente haben eine hohe Wahrscheinlichkeit für ein einzelnes Thema, während andere Dokumente Mischungen aus mehreren Themen sind.

Beispiel 1

Es erscheint mir dumm, aber während ich Dinge wie tgif gefunden habe, die GIF-Dateien bearbeiten können, und verschiedene Tools, um in das/aus dem GIF-Format zu konvertieren, konnte ich kein Programm finden, das nur ein Fenster öffnet und eine GIF-Datei anzeigt darin. Ich habe verschiedene FAQ-Dateien durchgesehen, auch ohne Erfolg. Lauert einer in einem Archiv? Nichts Anspruchsiges; nur „das schöne Bild zeigen“? Wenn ich alternativ die Spezifikationen für GIF finden könnte, wäre es nicht allzu schwierig, sie selbst zu schreiben, aber ich habe keine Idee, wo ich überhaupt mit der Suche nach der Spezifikation beginnen soll. (Nun, tatsächlich habe ich eine Idee - diese Nachrichtengruppe. ;-) Get, xv, Version 3.0. Es liest/zeigt/manipuliert viele verschiedene Formate.



Beispiel 2

Der Zielwart, auf den Sie sich beziehen, ist CLInt Malarchuk. Er spielt zu dieser Zeit bei den Sabres. Sein Team unmittelbar zuvor waren die Washington Hauptsitze. Während er sich erholt hat und weiterspielte, weiß ich nicht, wo er sich befindet.



Beispiel 3

Hallo out in net world, wir haben ein Lab mit alten Macs (SEs und Pluses). Wir haben nicht genug Geld, um alle neuen Maschinen zu kaufen, deshalb erwägen wir, ein paar Superdrives für unsere alten Macs zu kaufen, damit Benutzer mit hoher Festplattendichte unsere Geräte verwenden können. Ich frage mich, welche (guten oder schlechten) Erfahrungen mit dieser Art von Upgrade gemacht wurden. urry



Auch ohne im Voraus etwas über das Dataset zu wissen, zeigen diese Ergebnisse, dass es möglich ist, sich schnell und einfach einen Überblick über das Dataset zu verschaffen, zu identifizieren, zu welchen Themen jedes Dokument gehört, und ähnliche Dokumente zusammenzufassen. Wenn wir auch mit Anmerkungen versehene Daten sammeln möchten, um eine überwachte Aufgabe zu trainieren, können wir anhand der Ausgaben des Themenmodells mit der Anmerkung aus einer fundierten Perspektive beginnen.

Baumstrukturierte Themenmodelle​

Obwohl Themenmodelle, wie im vorherigen Abschnitt beschrieben, sehr nützlich sein können, haben sie bestimmte Einschränkungen:

  • Die Anzahl der Themen muss im Voraus angegeben werden. Im Allgemeinen werden wir nicht wissen, wie die richtige Zahl sein soll.
    • Es ist zwar möglich, mehrere Modelle mit unterschiedlicher Anzahl von Themen zu trainieren und das beste auszuwählen, aber das ist kostspielig.
    • Auch wenn wir die richtige Anzahl der Themen kennen, entsprechen die erlernten Themen möglicherweise nicht den richtigen, z. B Thema 16 in Abbildung 1 scheint keinem der wahren Themen im Dataset „20 Newsgroups“ zu entsprechen.
  • Das Modell erfasst nicht, wie die Themen miteinander zusammenhängen. In Abbildung 1 gibt es beispielsweise mehrere Themen über Computing, aber die Idee, dass diese zusammenhängen, wird vom Modell nicht gelernt.

In der Realität ist es normalerweise so, dass die Anzahl der Themen im Voraus nicht bekannt ist und die Themen in irgendeiner Weise miteinander zusammenhängen. Eine Methode, diese Probleme zu beheben, besteht darin, jedes Thema als Knoten in einer Struktur darzustellen. Dadurch können wir die Beziehungen zwischen Themen modellieren; verwandte Themen können sich im selben Teil der Struktur befinden. Dies würde Ausgaben liefern, die viel einfacher zu interpretieren sind. Wenn das Modell aus den Daten lernen kann, wie viele Themen es geben sollte und wie sie miteinander zusammenhängen, müssen wir nichts davon im Voraus wissen.

Um dies zu erreichen, verwenden wir ein Modell, das auf dem Tree-String Neural Topic Model (TSNTM) basiert. Der generative Prozess funktioniert, indem ein Pfad von der Basis der Struktur zu einem Blatt ausgewählt wird und dann ein Knoten auf diesem Pfad ausgewählt wird. Die Wahrscheinlichkeiten für die Pfade des Baums werden mithilfe eines Stick-Break-Prozesses modelliert, der mithilfe eines doppelt rekursiven neuronalen Netzwerks parametrisiert wird.

Stick-Break-Prozesse​

Der Stick-Break-Prozess kann verwendet werden, um die Wahrscheinlichkeiten für die Pfade eines Baums zu modellieren. Intuitiv bedeutet dies, dass ein Stick, der ursprünglich die Länge 1 hat, wiederholt gebrochen wird. Der Anteil des Sticks, der einem Knoten in der Struktur entspricht, stellt die Wahrscheinlichkeit auf diesem Pfad dar.

Der Stick-Break-Prozess, mit Proportionen in Grün

Betrachten Sie zum Beispiel die Struktur in Abbildung 2, mit 2 Ebenen und 2 untergeordneten Elementen auf jeder Ebene. Am Stammknoten ist die Stick-Länge 1. Es wird dann in zwei Teile mit einer Länge von 0,7 bzw. 0,3 unterteilt. Jedes dieser Teile wird dann weiter aufgeschlüsselt, bis wir die Blätter des Baums erreichen. Da wir den Stick weiter brechen können, kann die Struktur beliebig breit und tief sein.

Doppelt wiederkehrende neuronale Netzwerke​

Wie beim ETM beginnt der generative Prozess des TSPNTM mit der Stichprobe der verborgenen Darstellung z aus der vorherigen Verteilung:


Ein Doubly Recurrent Neural Network (DRNN) wird verwendet, um die Stick-Break-Proportionen zu bestimmen. Nach dem zufälligen Initialisieren des ausgeblendeten Zustands des Stammknotens, h1​, ist für jedes Thema k der ausgeblendete Zustand hk ​ gegeben durch:



wobei hpar(k) der ausgeblendete Status des übergeordneten Knotens und hk-1 der ausgeblendete Status des unmittelbar vorangegangenen gleichgeordneten Knotens ist (gleichgeordnete werden basierend auf ihrem ursprünglichen Index sortiert).

Der Anteil des verbleibenden Sticks, der dem Thema k,vk zugeordnet ist, ist vorgegeben durch:


Dann ist die Wahrscheinlichkeit an Knoten k,πk gegeben durch


wobei j∈{1,…,k–1} die vorangegangenen gleichgeordneten Elemente von Knoten k sind. Dies sind die grünen Werte in Abbildung 2. Der Wert an jedem Blattknoten ist die Wahrscheinlichkeit für diesen Pfad (es gibt nur einen Pfad zu jedem Blattknoten).

Da wir nun Wahrscheinlichkeiten für die Pfade der Struktur haben, benötigen wir Wahrscheinlichkeiten für Knoten innerhalb jedes Pfads. Diese werden mit einem anderen Stick-Break-Prozess berechnet. Auf jeder Ebene der Struktur ist der ausgeblendete Zustand ​gl gegeben durch:



Das bedeutet, dass alle Knoten auf der gleichen Ebene der Struktur den gleichen Wert für ​gl haben.

Der Anteil des verbleibenden Sticks, der der Ebene l,nl zugeordnet ist, ist vorgegeben durch:



Die Wahrscheinlichkeit auf Ebene l,θl ist gegeben durch:



Empirisch haben wir manchmal gefunden, dass die wahrscheinlichsten Wörter für untergeordnete Knoten in der Struktur semantisch nicht mit denen ihrer übergeordneten Knoten zusammenhängen. Um dies zu beheben, wenden wir in Gleichung 2 eine Temperierung an, um das Sigmoberfläche abzusoften:



In unseren Experimenten haben wir ψ=0,1 festgelegt. Dies macht es wahrscheinlicher, dass, wenn die Wahrscheinlichkeitsmenge eines untergeordneten Knotens nicht null ist, dies auch für die übergeordneten Knoten der Fall ist (und die Wahrscheinlichkeit wird verringert, dass untergeordnete Knoten nicht mehr mit ihren übergeordneten Elementen zusammenhängen).

Training und Inferenz​

Das Trainingsziel bleibt das gleiche wie in Gleichung 1; Die einzige Änderung besteht darin, wie p(xw=vw|z) angegeben wird. Dies ist nun gegeben durch:



Aktualisieren der Baumstruktur

Bisher wurde die Baumstruktur repariert. Wir möchten jedoch, dass dies basierend auf den Daten gelernt wird. Die genaue Struktur der Struktur als Hyperparameter anzugeben, ist viel schwieriger, als einfach eine Reihe von Themen anzugeben, wie es bei einem Modell mit flachem Thema der Fall wäre. Wenn wir die allgemeine Struktur der Struktur im Voraus kennen würden, müssten wir die Themen wahrscheinlich nicht modellieren. Daher müssen praktische Anwendungen von baumstrukturierten Themenmodellen die Struktur von Daten lernen können. Dazu werden zwei Heuristik-Regeln für das Hinzufügen und Löschen von Knoten in der Struktur verwendet. Zunächst wird die Gesamtwahrscheinlichkeitsmenge an jedem Knoten mithilfe einer zufälligen Teilmenge der Trainingsdaten geschätzt. Bei Knoten k beträgt diese Schätzung:



wobei d={1,…,D} die zufällig ausgewählte Teilmenge von Dokumenten indiziert und Nd ​die Anzahl der Wörter in Dokument d ist. Basierend auf diesen Schätzungen nach jeweils I Iterationen:

  • Wenn pk ​ über einem Schwellenwert liegt, wird ein untergeordnetes Element unterhalb von Knoten k hinzugefügt, um das Thema zu verfeinern.
  • Wenn die kumulierte Summe docs image​ ist kleiner als ein Schwellenwert, dann werden Knoten k und seine Nachfolger gelöscht.

Ergebnisse für 20 Nachrichtengruppen​

Wir führen das TNSTM auf demselben 20 Newsgroups-Dataset aus, das oben für das Training des ETM verwendet wird. Wir initialisieren die Struktur so, dass sie 2 Ebenen mit 3 untergeordneten Elementen auf jeder Ebene hat. Nachfolgend sehen Sie die endgültige Baumstruktur, die 10 wichtigsten Wörter, die für jedes Thema gelernt wurden, und die Anzahl der Dokumente, die dieses Thema als das wahrscheinlichste behandeln:

Wahrscheinlichste Wörter für jedes Thema, das der TNSTM gelernt hat

Im Vergleich zum Modell mit flachem Thema hat der Ansatz mit Baumstruktur klare Vorteile. Die Struktur wird automatisch aus den Daten gelernt, wobei ähnliche Themen in verschiedenen Teilen der Struktur gruppiert werden. Die Themen auf höherer Ebene befinden sich oben in der Struktur (z. B nicht aussagekräftige Wörter, die in vielen Dokumenten vorkommen, befinden sich am Stamm). Die genaueren/spezifischeren Themen befinden sich auf den Blättern. Dies führt zu Ergebnissen, die viel informativer und leichter zu interpretieren sind als die flache Modellausgabe in Abbildung 1.

Beispieldokumente und die zugehörigen, vom TNSTM gelernten Themenzuweisungswahrscheinlichkeiten sind unten aufgeführt:

Beispiel 1

Wir haben gerade einen AppleOne Color Scanner für unser Lab erhalten. Ich habe jedoch Probleme, beim Drucken eines gescannten Fotos auf einem Layouter IIg eine anständige gescannte Ausgabe zu erhalten. Ich habe versucht, mit einer höheren Auflösung zu scannen, und die Anzeige auf dem Bildschirm erscheint sehr ansprechend. Die gedruckte Version sieht jedoch hässlich aus! Ist dies auf die Auflösungsfunktionen des Drucks zurückzuführen? Oder gibt es Tricks, um eine bessere Qualität zu erzielen? Oder sollten wir etwas (zum Beispiel FotoLaden) brauchen, um das Bild „hübsch“ zu machen? Ich bin für jegliche Verbesserungsvorschläge Dankbar. Vielen Dank im Voraus, -Kris



Beispiel 2

Es ist vorbei – die Labels sind zurückgekehrt, um die Queues in OT 6-5 heute Abend zu schlagen und die Serie zu gewinnen. Ein großartiges Ziel von April 2018 (La Fontaine hat ihn auf dem Feld gestellt) beendete die Aktion. Fuhr verlassen das Spiel mit einer angeschlagenen Seite und auch La Fontaine wurde angeschlagen; Die Robots erhalten jedoch eine Woche Pause, sodass Fälle kein Problem darstellen sollten. Validation de Validation de Validation de Validation de Validant de Validation de Validation de Validation de Validation de Validation de Validation de Validation de Validation de Validation de Validation de Validation de Validation de Validation abgeschlossen, scheint auf das 7. Spiel zu zusteuern zu sein. Die Blatts dominieren die ersten beiden Perioden und hatten das Pech, nach 40 Minuten nur 2:2 zu haben. Ein früher Treffer von Brunet im 3. führte jedoch dazu. Die Islanders siegten in ihrem 3. OT-Match in der Serie durch ein Ziel von Ray ferroro mit 4:3; die Captures sind einfach zusammengebrochen, nachdem sie im 2. Platz mit 3:0 in Führen waren. Der All-Time Playoff OT-Rekord der Singles liegt jetzt bei 28-7.



Beispiel 3

Bitte sagen Sie mir, wo ich eine CD des Labels Wergo Orchestrator für weniger als 20 USD bekommen kann.



Dokumente, die eindeutig in ein bestimmtes Thema fallen (z. B. das erste) haben eine hohe Wahrscheinlichkeit an einem Blattknoten, während Dokumente, die eindeutig unter keines der gelernten Themen fallen (z. B. das dritte), eine hohe Wahrscheinlichkeit am Stammknoten haben .

Quantative Auswertung​

Themenmodelle sind bekannt dafür, dass sie quantitativ nur schwer auszuwerten sind. Dennoch ist die meistverwendete Metrik zur Messung der Themenkohärenz die Normalisierte punktweise gegenseitige Information (Normalized Pointweiser Gegenseitigkeitsinformationen, NPMI). Bei den ersten M Wörtern für jedes Thema ist der NPMI hoch, wenn jedes Wortpaar wi und wj​ eine hohe gemeinsame Wahrscheinlichkeit P(wi,wj) im Vergleich zu seinen Randwahrscheinlichkeiten P(wi) und P(wj) hat:



Die Wahrscheinlichkeiten werden mithilfe von empirischen Zählungen geschätzt.

 NPMI
ETM0.193
TSNTM0.227

Diese Ergebnisse unterstützen die qualitativen Ergebnisse, dass das TNTM ein kohärentes Modell ist als das ETM.

Integrieren von Transformern​

Obwohl das TNSTM intuitive und leicht zu interpretierende Ergebnisse liefert, weist das erlernte Modell immer noch Schwachstellen auf. In Abbildung 3 wurden beispielsweise die Themen in Bezug auf Richtlinie und Speicherplatz unter demselben übergeordneten Knoten gruppiert. Das ist vielleicht nicht unangemessen, aber ihr übergeordneter Knoten bezieht sich auf die Sekte, die möglicherweise nicht kohärent ist. Ein weiteres, subtileres Beispiel ist, dass Thema 1.3 Computerthemen zusammenfasst, die sowohl Hardware als auch Software betreffen; vielleicht sollten diese getrennt werden.

Wir nehmen an, dass diese Probleme darauf zurückzuführen sind, dass die bisher trainierten Modelle auf (nicht kontextbezogenen) Globale-Einbettungen basieren. Dies kann es schwierig machen, Wörter eindeutig zu machen, die in verschiedenen Kontexten unterschiedliche Bedeutung haben. In den letzten Jahren haben Transformer-basierte Modelle eine bahnbrechende Leistung beim Lernen von informativen, kontextbezogenen Textdarstellungen erreicht. Wir möchten Transformer-Einbettungen in den TSMnTM integrieren.

Wir folgen dem Ansatz des Combined Topic Model (CTM). Anstatt nur die „Bag-of-Words“-Darstellung als Eingabe für das Inferenzmodell zu verwenden, verknüpfen wir nun die „Bag-of-Words“-Darstellung mit dem Mittelwert der finalen Ebenenzustände eines Transformer-Modells. Obwohl es sich um eine einfache Änderung handelt, sollte das Inferenzmodell eine bessere hintere Annäherung lernen. Für das Transformer-Modell verwenden wir die all-mpnet-base-v2 -Variante von Sentence-BERT (SBERT), da sie bei einer Reihe von Aufgaben auf Satzebene konstant hohe Punktzahlen erreicht.

Wir trainieren ein Modell, das ansonsten identisch mit dem TNSTM aus dem vorherigen Abschnitt ist, mit Ausnahme der SBERT-Einbettungen, die dem Inferenzmodell hinzugefügt wurden. Nachfolgend sind wieder die ersten 10 Wörter aufgeführt, die für jedes Thema gelernt wurden, sowie die Anzahl der Dokumente, die dieses Thema als das wahrscheinlichste behandeln:

Wahrscheinlichste Wörter für jedes von SBERT+TSNTM gelernte Thema

Das TNSTM mit den SBERT-Einbettungen scheint einige der Inkahärenzprobleme des Nur-GloVe-Modells zu beheben. Die Themen „Religion“, „Policy“ und „Verschlüsselung“ sind jetzt unter demselben übergeordneten Thema gruppiert. Aber im Gegensatz zum Nur-GloVe-Modell ist dieses übergeordnete Thema jetzt ein allgemeineres Thema, bei dem sich die Top-Wörter auf Personen beziehen, die ihre Meinung äußern. Die Themen Computer-Hardware und -Software wurden nun aufgeteilt, und der Bereich befindet sich in einem eigenen Teil der Struktur. Der NPMI legt auch fest, dass das Modell mit den SBERT-Einbettungen kohärenter ist:

 NPMI
ETM0.193
TSNTM (nur GloVe)0.227
TSNTM (GloVe + SBERT)0.234

Zusammenfassung​

Wir haben gezeigt, dass Themenmodelle eine großartige Möglichkeit sein können, ein hohes Verständnis für ein Dataset zu erhalten, ohne Anmerkungen vornehmen zu müssen.

  • „Flat“-Themenmodelle werden am häufigsten verwendet, haben aber Schwachstellen (z. B die Ausgabe ist nicht am einfachsten zu interpretieren, da die Anzahl der Themen im Voraus bekannt sein muss).
  • Diese Schwachstellen können behoben werden, indem ein Modell mit Baumstruktur verwendet wird, das verwandte Themen zusammenfasst und die Themenstruktur automatisch von den Daten lernt.
  • Die Modellierungsergebnisse können durch die Verwendung von Transformer-Einbettungen weiter verbessert werden.

Wenn Sie Communications Mining in Ihrem Unternehmen ausprobieren möchten, melden Sie sich für eine Testversion an oder sehen Sie sich die Demo an.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten