ixp

latest

false

Communications Mining-Benutzerhandbuch

Letzte Aktualisierung 10. Nov. 2025

Effiziente Transformer I: Warnmechanismen

Geschäft läuft durch Kommunikation. Kunden melden sich, wenn sie etwas brauchen. Kollegen verbinden sich, um Arbeit zu erledigen. Unsere Aufgabe bei Communications Mining™ ist es, die Ökonom Dies tun wir, indem wir den Zugang zu modernen NLP und NLU demokratisieren.

Insbesondere verwenden die Modelle von Communications Mining Deep Learning-Architekturen namens Transformers. Transformer ermöglichen enorme Verbesserungen der NLU-Leistung. Sie sind jedoch auch sehr rechenintensiv – sowohl beim Training der Modelle zum Erlernen neuer Konzepte als auch bei deren Verwendung für Vorhersagen. In dieser zweiteiligen Serie werden mehrere Techniken vorgestellt, um die Geschwindigkeit zu erhöhen und die Rechenkosten für die Verwendung dieser großen Transformer-Architekturen zu reduzieren.

Dieser Beitrag wird:

Präsentieren Sie eine kurze Entwicklung der Einbettung von Modellen in NLP.
Beschreiben Sie, warum der Self-Attention-Mechanismus des Transformers einen hohen Rechenaufwand hat.
Überprüfen Sie Änderungen der klassischen Transformer-Architektur, die recheneffizienter zu trainieren und auszuführen sind, ohne die Leistung erheblich zu beeinträchtigen.

Im nächsten Beitrag werden zusätzliche Berechnungs- und Näherungstechniken behandelt, die zu weiteren Effizienzsteigerungen führen. Der nächste Beitrag:

Erkunden Sie Deaktivierungstechniken, bei denen kleinere Modelle trainiert werden, um die Leistung größerer Modelle zu nähern.
Erklären Sie effiziente Feinabstimmungstechniken, bei denen Parameteraktualisierungen eingeschränkt sind.
Geben Sie unsere Empfehlungen für die Verwendung jeder dieser Methoden.

Hintergrund

In den letzten zehn Jahren sind NLP-Methoden bei der Lösung einer Vielzahl von Aufgaben erheblich besser geworden. Dies ist zum großen Teil auf eine Verlagerung von manuell geführten, auf Feature-Engineering basierenden Ansätzen hin zu Methoden, die auf Machine Learning basieren, zurückzuführen. Die größten Leistungsverbesserungen sind auf Fortschritte beim nicht überwachten vortrainierten Lernen der semantischen Darstellung zurückzuführen. Dabei wird ein Modell trainiert, das Sequenzen in natürlicher Sprache abbildet (z. B Wörter, Sätze) zu Vektoren (Zahlenfolgen), die ihre semantische Bedeutung darstellen. Diese Vektoren können dann verwendet werden, um die Aufgabe von Interesse auszuführen, z. B Absichtserkennung, Stimmungsklassifizierung, benannte allgemeine Felderkennung usw.

Worteinbettungen

Der Paradigmenwechsel begann in den 2010er-Jahren mit Methoden zur Worteinbettung wie Word2vec und Global. Diese Techniken verwenden große Datasets in natürlicher Sprache, um Einbettungen (ein anderes Wort für Vektoren) von Wörtern auf unbeaufsichtigte Weise zu lernen. Die Einbettungen codieren semantische Informationen basierend auf den Kontexten, in denen die Wörter häufig vorkommen. Beispielsweise kommt das Wort „Computer“ häufig neben Wörtern wie „Tastatur“, „Software“ und „Internet“ vor; Diese gemeinsamen benachbarten Wörter verkörpern die Informationen, die durch die Einbettung von „computer“ codiert werden sollen.

Klassische Worteinbettungen haben einen wesentlichen Nachteil: Sie sind statisch, d. h. die Einbettung eines bestimmten Wortes ist immer gleich. Denken Sie zum Beispiel an das Wort „Bank“ – dies kann sich auf das Flussufer oder auf ein Finanzinstitut beziehen; die Einbettung müsste beide Bedeutungen codieren.

Kontextbezogene Einbettungen

Um diese Schwachstelle zu beheben, wurden Methoden für die kontextbezogene Einbettung entwickelt. Diese haben je nach Sequence eine unterschiedliche Einbettung für jedes Wort (z. B Satz, Dokument), in dem er vorkommt. Diese Arbeit hat alles verändert; Es ist jetzt äußerst selten, moderne Methoden zu finden, die nicht auf kontextbezogenen Einbettungen angewiesen sind.

Eine der ersten gängigen Techniken zur kontextbezogenen Einbettung war ElMo, bei der ein RNN-Modell (Recurrent Neural Network) auf einem großen Korpus in natürlicher Sprache unter Verwendung eines Vorhersageziels für das nächste Wort vortrainiert wird. Die internen Darstellungen dieses Modells werden dann als Eingaben für (normalerweise kleine) Modelle zur Durchführung überwachter Aufgaben verwendet. Seinerzeit wurde dieser Ansatz bei mehreren Aufgaben erheblich gegenüber dem vorherigen Stand der Technik verbessert.

RNNs verarbeiten jedes Wort in einer Sequence nacheinander, daher können sie bei langen Dokumenten langsam sein. Infolgedessen sind Modelle wie BERT und RoBERTa zu den bevorzugten Ansätzen geworden, die die wiederkehrende Komponente von ElMo durch den benutzerfreundlicheren Transformer für parallele Berechnungen ersetzen. Diese Modelle werden in der Regel mit einem maskierten Sprachmodellierungsziel vortrainiert – eine Teilmenge von Wörtern in einer Sequence wird entfernt, und das Modell hat die Aufgabe, die fehlenden Wörter vorherzusagen.

Moderne Transformer-basierte Sprachmodelle sind jedoch im Allgemeinen sehr umfangreich – sie können Milliarden von Parametern enthalten und sind sehr rechenintensiv in der Ausführung. Der typische Workflow sieht folgendermaßen aus:

Trainieren Sie das Sprachmodell an einem generischen Dataset ohne Anmerkungen vor.
Trainieren Sie das Sprachmodell außerdem auf einem domänenspezifischen Dataset ohne Anmerkungen.
Optimieren Sie das Sprachmodell mithilfe von mit Anmerkungen versehenen Daten, um die überwachte Aufgabe von Interesse auszuführen.

Obwohl der erste dieser Schritte in der Regel einmalige Kosten verursacht, sind dies die beiden letzten nicht. Und während die Rechenleistung niedriger wird, werden die Transformer-Architekturen größer. Das bedeutet, dass die Kosten für hochmoderne Leistung nicht unbedingt sinken.

Daher wird in diesem Beitrag eine Reihe von Techniken vorgestellt, die den Rechenaufwand reduzieren und gleichzeitig die Auswirkungen auf die Leistung minimieren.

Der Self-Attended-Mechanismus

Hinweis: Obwohl Transformer mit Unterwort-Tokens arbeiten, bezieht sich dieser Beitrag durchgängig auf Wörter, um die Sache leichter verständlich zu machen.

Die Transformer-Architektur beginnt mit einer lernfähigen Einbettungsebene. Jede nachfolgende Ebene erstellt ihre internen Darstellungen mithilfe eines „Self-Attended“-Mechanismus, d. h. die Darstellung für jedes Wort sieht jedes andere Wort in der Sequence aus (ein Beispiel finden Sie in Abbildung 1). Jede Selbstattended-Ebene umfasst mehrere „Heads“ (jeder Head führt eine eigene Selbstattended-Aktivität aus).

Der Self-Attended-Mechanismus

Angenommen, es gibt N Wörter in einer Sequence. Jeder Self-Attended-Head verfügt über D-dimensionale Abfrage-, Schlüssel- und Wertvektoren für jedes Wort, die mithilfe der Ausgabe der vorherigen Ebene n-1 berechnet werden:

Diese werden zu den NxD-Matrizen Q, K und V bzw. V verkettet. Die Attended-Matrix wird wie folgt berechnet:

Die Ausgabe der Selbstaufmerkbarkeitsebene wird dann wie folgt berechnet:

Die endgültige Ausgabe für jede Ebene wird berechnet, indem die Self-Attended-Ausgaben für jeden Head verkettet und durch ein kleines Feedforward-Netzwerk geführt werden.

Obwohl die Berechnung (im Gegensatz zu RNNs) parallel durchgeführt werden kann, zeigt Abbildung 1, dass N2 Selbstaufmerkmal-Operationen für eine Sequence mit N Wörtern durchgeführt werden müssen. Das heißt, die Rechenkomplexität skaliert quadratisch mit der Satzlänge. Wenn man bedenkt, dass moderne Übertrager Dutzende von Ebenen mit jeweils Dutzenden von Headern und Tausenden von Dimensionen verwenden, müssen Sie viele Operationen durchführen, selbst für eine einzelne Sequence.

Natürlich zielt eine Forschungsarbeit darauf ab, diese N2-Komplexität durch einfachere Selbstattended-Mechanismen zu reduzieren; dies ist der umfangreichste Bereich in der Erforsch von effizienten Transformer-Architekturen. Einige gängige Ansätze werden in den folgenden Abschnitten besprochen. Eine umfassendere Abdeckung finden Sie in diesem Umfragebericht.

Achten Sie Block für Block

Eine Möglichkeit, die Anzahl der Vorgänge zu reduzieren, besteht darin, die Anzahl der Wörter in der Sequence einzuschränken, die der Selbstattended-Mechanismus betrachtet. BlockBERT segmentiert dazu die Sequence in Blöcke. Bei einem bestimmten Aufmerksamkeitspunkt betrachtet der Aufmerksamkeitsmechanismus innerhalb eines Abschnitts nur die Wörter innerhalb eines der Abschnitte (ein Beispiel finden Sie in Abbildung 2). Jeder Aufmerksamkeitspunkt auf jeder Ebene verändert die Blöcke, die der Aufmerksamkeitsmechanismus betrachtet. Das bedeutet, dass nach Dutzenden Ebenen die Einbettung für jedes Wort wahrscheinlich die gesamte Sequence umfasst hat. Je nach Modellgröße ist BlockBERT im Vergleich zu RoBERTa 12 %–25 % schneller zu trainieren, erfordert 19 %–36 % weniger Speicher und ist bei der Beantwortung von Fragen fast genauso gut (F1-Punktzahlen sind ca. 0,8 Punkte niedriger bei SQuAD 2.0 ).

Der BlockBERT-Mechanismus zur Selbstaufbewahrung kümmert sich nur um Wörter innerhalb eines Blocks.

Kombinieren mehrerer Aufmerksamkeitsmuster

In ähnlicher Weise schränkt der Longformer auch ein, wie viele Wörter der Selbstattended-Mechanismus betrachtet. Dazu werden mehrere einfache Aufmerksamkeitsmuster kombiniert (ein Beispiel finden Sie in Abbildung 3).

Schiebefenster
- Achten Sie nur auf die k benachbarten Wörter.
Erweitertes Schiebefenster
- Achten Sie auf jedes l-te Wort bis zu einem vordefinierten Grenzwert.
Globale Aufmerksamkeit
- Achten Sie an einigen vorab ausgewählten Positionen auf die gesamte Sequence.
- Achten Sie an jeder Position auf die vorab ausgewählten Positionen.

Bei dieser Kombination von Aufmerksamkeitsmustern hat die Einbettung für jedes Wort nach mehreren Ebenen wahrscheinlich die gesamte Sequence umfasst. Insbesondere bei langen Sequences ist der Longformer viel schneller und verbraucht weniger Speicher als RoBERTa. Überraschenderweise übertrifft der Longformer RoBERTa bei einer Vielzahl von Aufgaben – Beantworten von Fragen, Koreferenzauflösung und Stimmungsklassifizierung.

Der Longformer-Selbst-Aufmerkmal-Mechanismus kombiniert ein gleitendes Fenster, ein erweitertes Schiebefenster und globale Aufmerksamkeit an einigen vorab ausgewählten Positionen

BiBder ist ein weiterer bekannter Ansatz und dem Longformer sehr ähnlich. Allerdings wird anstelle des erweiterten Schiebefensters ein Muster mit zufälliger Aufmerksamkeit verwendet (d. h. jede Darstellung kümmert sich um eine feste Anzahl zufälliger Wörter in der Sequence).

Es wird eine Annäherung mit niedriger Stufe verwendet

Ein anderer Typ von Ansatz als die bisher vorgestellten ist der Linux-Ansatz, der auf dem theoretischen Ergebnis basiert, dass der Selbstattended-Vorgang einen niedrigen Rang hat. Der Linealer prognostiziert die Schlüssel- und Wertmatrizen (K und V) linear nach unten, innerhalb der Längendimension, zu einer kürzeren Sequence (festgelegte Länge), auf die volle Aufmerksamkeit angewendet werden kann (ein Beispiel finden Sie in Abbildung 4). Im Vergleich zur Standard-Self-Attended-Roboter ist der Linux-Sequences bei kurzen Sequences 1,3–3-mal schneller und bei langen Sequences ist er 3–20-mal schneller in der Ausführung. Bei einer Vielzahl von Textklassifizierungsaufgaben ist die Leistung ähnlich (und bei bestimmten Aufgaben etwas besser als) RoBERTa.

Der Linux-Mechanismus zur Selbstaufmerkhaltung beinhaltet eine Herabprojektion der Länge auf eine kürzere Sequence (in diesem Fall Länge 4), auf die die volle Aufmerksamkeit angewendet werden kann

Zusammenfassung

In dieser zweiteiligen Serie wird untersucht, wie modernes NLP effizienter gestaltet werden kann, indem Modifikationen der gängigen, aber rechenintensiven Sprachmodellierungstechniken auf Transformer-Basis erkundet werden. Dieser Beitrag:

Präsentation einer kurzen Entwicklung im Bereich des Lernens der semantischen Darstellung in NLP, einschließlich traditioneller Worteinbettungen und kontextbezogener Einbettungsmodelle.
Es wurde der Self-Attention-Mechanismus erklärt, der das Herzstück der Transformer-Architektur ist, und warum er rechenintensiv in der Ausführung ist.
Erkundung alternativer Beobachtungsmechanismen, die rechnungsmäßig effizienter sind, ohne die Leistung zu beeinträchtigen.

Im nächsten Beitrag geht es um:

Eine Übersicht über Methoden, die kleine Modelle trainieren, um die Ausgaben großer Modelle zu reproduzieren.
So werden Sprachmodelle auf Parameter-effiziente Weise optimiert.
Unsere Empfehlungen für Szenarien, in denen die verschiedenen effizienten Transformer-Ansätze zum Einsatz kommen sollten.

Wenn Sie Communications Mining™ in Ihrem Unternehmen ausprobieren möchten, registrieren Sie sich für eine Testversion oder sehen Sie sich eine Demo an .

Auf dieser Seite