UiPath Documentation
ixp
latest
false

Communications Mining-Benutzerhandbuch

Letzte Aktualisierung 5. Mai 2026

Effiziente Transformer I: Warnmechanismen

Geschäft läuft durch Kommunikation. Kunden melden sich, wenn sie etwas brauchen. Kollegen verbinden sich, um Arbeit zu erledigen. Unsere Aufgabe bei Communications Mining™ ist es, die Ökonom Dies tun wir, indem wir den Zugang zu modernen NLP und NLU demokratisieren.

Insbesondere verwenden die Modelle von Communications Mining Deep-Learning-Architekturen namens Transformers. Transformer ermöglichen enorme Verbesserungen der NLU-Leistung. Sie sind jedoch auch sehr rechenintensiv – sowohl beim Training der Modelle, um neue Konzepte zu lernen, als auch bei deren Verwendung, um Vorhersagen zu treffen. In dieser zweiteiligen Serie werden mehrere Techniken betrachtet, um die Geschwindigkeit zu erhöhen und die Rechenkosten für die Verwendung dieser großen Transformer-Architekturen zu reduzieren.

Dieser Beitrag wird:

  • Präsentieren Sie eine kurze Entwicklung der Einbettung von Modellen in NLP.
  • Beschreiben Sie, warum der Self-Attention-Mechanismus des Transformers einen hohen Rechenaufwand hat.
  • Überprüfen Sie Änderungen der klassischen Transformer-Architektur, die recheneffizienter zu trainieren und auszuführen sind, ohne die Leistung erheblich zu beeinträchtigen.

Im nächsten Beitrag werden zusätzliche Rechen- und Approach-Techniken behandelt, die zu weiteren Effizienzsteigerungen führen. Im nächsten Beitrag:

  • Erkunden Sie Deaktivierungstechniken, bei denen kleinere Modelle trainiert werden, um die Leistung größerer Modelle zu nähern.
  • Erklären Sie effiziente Feinabstimmungstechniken, bei denen Parameteraktualisierungen eingeschränkt sind.
  • Geben Sie unsere Empfehlungen für die Verwendung jeder dieser Methoden.

Hintergrund​

In den letzten zehn Jahren sind NLP-Methoden bei der Lösung einer Vielzahl von Aufgaben erheblich besser geworden. Dies ist zum großen Teil auf eine Verlagerung von manuell geführten, auf Feature-Engineering basierenden Ansätzen hin zu Methoden, die auf Machine Learning basieren, zurückzuführen. Die größten Leistungsverbesserungen sind auf Fortschritte beim nicht überwachten vortrainierten Lernen der semantischen Darstellung zurückzuführen. Dabei wird ein Modell trainiert, das Sequenzen in natürlicher Sprache abbildet (z. B Wörter, Sätze) zu Vektoren (Zahlenfolgen), die ihre semantische Bedeutung darstellen. Diese Vektoren können dann verwendet werden, um die Aufgabe von Interesse auszuführen, z. B Absichtserkennung, Stimmungsklassifizierung, benannte allgemeine Felderkennung usw.

Worteinbettungen​

Der Paradigmenwechsel begann in den 2010er-Jahren mit Methoden zur Einbettung von Wörtern wie Word2vec und GloVe. Diese Techniken verwenden große Datasets in natürlicher Sprache, um Einbettungen (ein anderes Wort für Vektoren) von Wörtern auf unbeaufsichtigte Weise zu lernen. Die Einbettungen codieren semantische Informationen basierend auf den Kontexten, in denen die Wörter häufig vorkommen. Beispielsweise kann das Wort „Computer“ häufig neben Wörtern wie „Tastatur“, „Software“ und „Internet“ vorkommen. Diese gemeinsamen benachbarten Wörter verkörpern die Informationen, welche die Einbettung von „computer“ codieren sollte.

Klassische Worteinbettungen haben einen wesentlichen Nachteil: Sie sind statisch, d. h. die Einbettung eines bestimmten Wortes ist immer gleich. Denken Sie zum Beispiel an das Wort „Bank“ – dies kann sich auf das Flussufer oder auf ein Finanzinstitut beziehen; die Einbettung müsste beide Bedeutungen codieren.

Kontextbezogene Einbettungen​

Um diese Schwachstelle zu beheben, wurden Methoden für die kontextbezogene Einbettung entwickelt. Diese haben je nach Sequence eine unterschiedliche Einbettung für jedes Wort (z. B Satz, Dokument), in dem er vorkommt. Diese Arbeit hat alles verändert; Es ist jetzt äußerst selten, moderne Methoden zu finden, die nicht auf kontextbezogenen Einbettungen angewiesen sind.

Eine der ersten beliebten kontextbezogenen Einbettungstechniken war ELMo, bei der ein RNN-Modell auf einem großen Korpus in natürlicher Sprache mithilfe eines Nächstes Wort-Vorhersageziels vortrainiert wird. Die internen Darstellungen dieses Modells werden dann als Eingaben für (in der Regel kleine) Modelle zur Durchführung überwachter Aufgaben verwendet. Zu diesem Zeitpunkt wurde dieser Ansatz gegenüber dem vorherigen Stand der Technik in mehreren Aufgaben erheblich verbessert.

RNNs verarbeiten jedes Wort in einer Sequence nacheinander, daher können sie bei langen Dokumenten langsam sein. Infolgedessen sind Modelle wie BERT und RoBERTa, die die wiederkehrende Komponente von ELMo durch den stärker parallelen Rechenprozess ersetzen, zu den bevorzugten Ansätzen geworden. Diese Modelle werden in der Regel mit einem maskierten Sprachmodellierungsziel vortrainiert – eine Teilmenge von Wörtern in einer Sequence wird entfernt und das Modell hat die Aufgabe, die fehlenden Wörter vorherzusagen.

Moderne Transformer-basierte Sprachmodelle sind jedoch im Allgemeinen sehr umfangreich – sie können Milliarden von Parametern enthalten und sind sehr rechenintensiv in der Ausführung. Der typische Workflow sieht folgendermaßen aus:

  1. Trainieren Sie das Sprachmodell an einem generischen Dataset ohne Anmerkungen vor.
  2. Trainieren Sie das Sprachmodell außerdem auf einem domänenspezifischen Dataset ohne Anmerkungen.
  3. Optimieren Sie das Sprachmodell mithilfe von mit Anmerkungen versehenen Daten, um die überwachte Aufgabe von Interesse auszuführen.

Obwohl der erste dieser Schritte in der Regel einmalige Kosten verursacht, sind dies die beiden letzten nicht. Und während die Rechenleistung niedriger wird, werden die Transformer-Architekturen größer. Das bedeutet, dass die Kosten für hochmoderne Leistung nicht unbedingt sinken.

Daher wird in diesem Beitrag eine Reihe von Techniken vorgestellt, die den Rechenaufwand reduzieren und gleichzeitig die Auswirkungen auf die Leistung minimieren.

Der Self-Attended-Mechanismus​

Hinweis:

Obwohl Transformer mit Unterwörtern arbeiten, bezieht sich dieser Beitrag durchgängig auf Wörter, um das Verständnis zu erleichtern.

Die Transformer-Architektur beginnt mit einer lernfähigen Einbettungsebene. Jede nachfolgende Ebene erstellt ihre internen Darstellungen mithilfe eines „Self-Attended“-Mechanismus, d. h. die Darstellung für jedes Wort sieht jedes andere Wort in der Sequence aus (ein Beispiel finden Sie in Abbildung 1). Jede Selbstattended-Ebene umfasst mehrere „Heads“ (jeder Head führt eine eigene Selbstattended-Aktivität aus).

Der Self-Attended-Mechanismus

Dokumentationsbild

Angenommen, es gibt N Wörter in einer Sequence. Jeder Self-Attended-Head verfügt über D-dimensionale Abfrage-, Schlüssel- und Wertvektoren für jedes Wort, die mithilfe der Ausgabe der vorherigen Ebene n-1 berechnet werden:

Dokumentationsbild

Diese werden zu den NxD-Matrizen Q, K bzw. V verkettet. Die Aufmerksamkeitsmatrix wird berechnet als:

Dokumentationsbild

Die Ausgabe der Selbstaufmerkbarkeitsebene wird dann wie folgt berechnet:

Dokumentationsbild

Die endgültige Ausgabe für jede Ebene wird berechnet, indem die Self-Attended-Ausgaben für jeden Head verkettet und durch ein kleines Feedforward-Netzwerk geführt werden.

Obwohl die Berechnung (im Gegensatz zu RNNs) parallel durchgeführt werden kann, zeigt Abbildung 1, dass es N2 Selbstattended-Operationen für eine Sequence mit N Wörtern gibt. Das heißt, die Rechenkomplexität skaliert viermal mit der Satzlänge. Wenn man bedenkt, dass moderne Transformer Dutzende Ebenen mit jeweils Dutzenden Headern und Tausenden von Dimensionen verwenden, müssen viele Vorgänge selbst für eine einzelne Sequence ausgeführt werden.

Natürlich zielt eine Forschungsarbeit darauf ab, diese N2-Komplexität durch einfachere Selbstattended-Mechanismen zu reduzieren; dies ist der umfangreichste Bereich in der Erforsch von effizienten Transformer-Architekturen. Einige gängige Ansätze werden in den folgenden Abschnitten besprochen. Eine umfassendere Abdeckung finden Sie in diesem Umfragebericht.

Achten Sie Block für Block​

Eine Möglichkeit, die Anzahl der Vorgänge zu reduzieren, besteht darin, die Anzahl der Wörter in der Sequence einzuschränken, die der Selbstattended-Mechanismus betrachtet. BlockBERT segmentiert dazu die Sequence in Blöcke. Bei einem bestimmten Aufmerksamkeitspunkt betrachtet der Aufmerksamkeitsmechanismus innerhalb eines Abschnitts nur die Wörter innerhalb eines der Abschnitte (ein Beispiel finden Sie in Abbildung 2). Jeder Aufmerksamkeitspunkt auf jeder Ebene verändert die Blöcke, die der Aufmerksamkeitsmechanismus betrachtet. Das bedeutet, dass nach Dutzenden Ebenen die Einbettung für jedes Wort wahrscheinlich die gesamte Sequence umfasst hat. Je nach Modellgröße ist BlockBERT im Vergleich zu RoBERTa 12 %–25 % schneller zu trainieren, erfordert 19 %–36 % weniger Speicher und ist bei der Beantwortung von Fragen fast genauso gut (F1-Punktzahlen sind ca. 0,8 Punkte niedriger bei SQuAD 2.0 ).

Der BlockBERT-Mechanismus zur Selbstaufbewahrung kümmert sich nur um Wörter innerhalb eines Blocks.

Dokumentationsbild

Kombinieren mehrerer Aufmerksamkeitsmuster​

In ähnlicher Weise schränkt der Longformer auch ein, wie viele Wörter der Selbstattended-Mechanismus betrachtet. Dazu werden mehrere einfache Aufmerksamkeitsmuster kombiniert (ein Beispiel finden Sie in Abbildung 3).

  • Schiebefenster
    • Achten Sie nur auf die k benachbarten Wörter.
  • Erweitertes Schiebefenster
    • Achten Sie auf jedes l-te Wort bis zu einem vordefinierten Grenzwert.
  • Globale Aufmerksamkeit
    • Achten Sie an einigen vorab ausgewählten Positionen auf die gesamte Sequence.
    • Achten Sie an jeder Position auf die vorab ausgewählten Positionen.

Bei dieser Kombination von Aufmerksamkeitsmustern hat die Einbettung für jedes Wort nach mehreren Ebenen wahrscheinlich die gesamte Sequence umfasst. Insbesondere bei langen Sequences ist der Longformer viel schneller und verbraucht weniger Speicher als RoBERTa. Überraschenderweise übertrifft der Longformer RoBERTa bei einer Vielzahl von Aufgaben – Beantworten von Fragen, Koreferenzauflösung und Stimmungsklassifizierung.

Der Longformer-Selbst-Aufmerkmal-Mechanismus kombiniert ein gleitendes Fenster, ein erweitertes Schiebefenster und globale Aufmerksamkeit an einigen vorab ausgewählten Positionen

Dokumentationsbild

BigBird ist ein weiterer beliebten Ansatz und ist dem Longformer sehr ähnlich, mit dem Unterschied, dass anstelle des erweiterten Schiebefensters ein zufälliges Aufmerksamkeitsmuster verwendet wird (d. h. jede Darstellung umfasst eine feste Anzahl zufälliger Wörter in der Sequence).

Es wird eine Annäherung mit niedriger Stufe verwendet​

Ein anderer Typ von Ansatz als die bisher vorgestellten ist der Linux-Ansatz, der auf dem theoretischen Ergebnis basiert, dass der Selbstattended-Vorgang einen niedrigen Rang hat. Der Linealer prognostiziert die Schlüssel- und Wertmatrizen (K und V) linear nach unten, innerhalb der Längendimension, zu einer kürzeren Sequence (festgelegte Länge), auf die volle Aufmerksamkeit angewendet werden kann (ein Beispiel finden Sie in Abbildung 4). Im Vergleich zur Standard-Self-Attended-Roboter ist der Linux-Sequences bei kurzen Sequences 1,3–3-mal schneller und bei langen Sequences ist er 3–20-mal schneller in der Ausführung. Bei einer Vielzahl von Textklassifizierungsaufgaben ist die Leistung ähnlich (und bei bestimmten Aufgaben etwas besser als) RoBERTa.

Der Linux-Mechanismus zur Selbstaufmerkhaltung beinhaltet eine Herabprojektion der Länge auf eine kürzere Sequence (in diesem Fall Länge 4), auf die die volle Aufmerksamkeit angewendet werden kann

Dokumentationsbild

Zusammenfassung​

In dieser zweiteiligen Serie wird untersucht, wie modernes NLP effizienter gestaltet werden kann, indem Modifikationen der gängigen, aber rechenintensiven Sprachmodellierungstechniken auf Transformer-Basis erkundet werden. Dieser Beitrag:

  • Präsentation einer kurzen Entwicklung im Bereich des Lernens der semantischen Darstellung in NLP, einschließlich traditioneller Worteinbettungen und kontextbezogener Einbettungsmodelle.
  • Es wurde der Self-Attention-Mechanismus erklärt, der das Herzstück der Transformer-Architektur ist, und warum er rechenintensiv in der Ausführung ist.
  • Erkundung alternativer Beobachtungsmechanismen, die rechnungsmäßig effizienter sind, ohne die Leistung zu beeinträchtigen.

Der nächste Beitrag behandelt:

  • Eine Übersicht über Methoden, die kleine Modelle trainieren, um die Ausgaben großer Modelle zu reproduzieren.
  • So werden Sprachmodelle auf Parameter-effiziente Weise optimiert.
  • Unsere Empfehlungen für Szenarien, in denen die verschiedenen effizienten Transformer-Ansätze zum Einsatz kommen sollten.

Wenn Sie Communications Mining™ in Ihrem Unternehmen ausprobieren möchten, registrieren Sie sich für eine Testversion oder sehen Sie sich eine Demo an .

  • Hintergrund​
  • Der Self-Attended-Mechanismus​
  • Zusammenfassung​

War diese Seite hilfreich?

Verbinden

Benötigen Sie Hilfe? Support

Möchten Sie lernen? UiPath Academy

Haben Sie Fragen? UiPath-Forum

Auf dem neuesten Stand bleiben