- Einleitung
- Einrichten Ihres Kontos
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder
- Beschriftungen (Vorhersagen, Konfidenzniveaus, Beschriftungshierarchie und Beschriftungsstimmung)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Nachrichten mit und ohne Anmerkungen
- Extraktionsfelder
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Zugriffskontrolle und Verwaltung
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen oder Löschen einer Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein Dataset wird erstellt
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern der Dataset-Einstellungen
- Löschen einer Nachricht
- Löschen eines Datasets
- Exportieren eines Datasets
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Grundlegendes zu Beschriftungen, allgemeinen Feldern und Metadaten
- Beschriftungshierarchie und Best Practices
- Vergleichen von Anwendungsfällen für Analyse und Automatisierung
- Konvertieren Ihrer Ziele in Bezeichnungen
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Training von Chat- und Anrufdaten
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- So funktioniert die Validierung
- Verstehen und Verbessern der Modellleistung
- Gründe für die geringe durchschnittliche Beschriftungsgenauigkeit
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automations and Communications Mining™
- Entwickler (Developer)
- Einleitung
- Verwenden der API
- API-Tutorial
- Zusammenfassung
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Exchange-Integration mit Azure Application Authentication und Graph
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Selbst gehostete Exchange-Integration
- UiPath® Automatisierungs-Framework
- UiPath® Marketplace-Aktivitäten
- Offizielle UiPath®-Aktivitäten
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben von Anmerkungsverzerrungen mit Communications Mining™
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining™ und Google AutoML für Conversation Data Intelligence
- Lizenzierung
- Häufige Fragen und mehr

Communications Mining-Benutzerhandbuch
Effiziente Transformer I: Warnmechanismen
linkGeschäft läuft durch Kommunikation. Kunden melden sich, wenn sie etwas brauchen. Kollegen verbinden sich, um Arbeit zu erledigen. Unsere Aufgabe bei Communications Mining™ ist es, die Ökonom Dies tun wir, indem wir den Zugang zu modernen NLP und NLU demokratisieren.
Insbesondere verwenden die Modelle von Communications Mining Deep Learning-Architekturen namens Transformers. Transformer ermöglichen enorme Verbesserungen der NLU-Leistung. Sie sind jedoch auch sehr rechenintensiv – sowohl beim Training der Modelle zum Erlernen neuer Konzepte als auch bei deren Verwendung für Vorhersagen. In dieser zweiteiligen Serie werden mehrere Techniken vorgestellt, um die Geschwindigkeit zu erhöhen und die Rechenkosten für die Verwendung dieser großen Transformer-Architekturen zu reduzieren.
Dieser Beitrag wird:
- Präsentieren Sie eine kurze Entwicklung der Einbettung von Modellen in NLP.
- Beschreiben Sie, warum der Self-Attention-Mechanismus des Transformers einen hohen Rechenaufwand hat.
- Überprüfen Sie Änderungen der klassischen Transformer-Architektur, die recheneffizienter zu trainieren und auszuführen sind, ohne die Leistung erheblich zu beeinträchtigen.
Im nächsten Beitrag werden zusätzliche Berechnungs- und Näherungstechniken behandelt, die zu weiteren Effizienzsteigerungen führen. Der nächste Beitrag:
- Erkunden Sie Deaktivierungstechniken, bei denen kleinere Modelle trainiert werden, um die Leistung größerer Modelle zu nähern.
- Erklären Sie effiziente Feinabstimmungstechniken, bei denen Parameteraktualisierungen eingeschränkt sind.
- Geben Sie unsere Empfehlungen für die Verwendung jeder dieser Methoden.
Hintergrund
linkIn den letzten zehn Jahren sind NLP-Methoden bei der Lösung einer Vielzahl von Aufgaben erheblich besser geworden. Dies ist zum großen Teil auf eine Verlagerung von manuell geführten, auf Feature-Engineering basierenden Ansätzen hin zu Methoden, die auf Machine Learning basieren, zurückzuführen. Die größten Leistungsverbesserungen sind auf Fortschritte beim nicht überwachten vortrainierten Lernen der semantischen Darstellung zurückzuführen. Dabei wird ein Modell trainiert, das Sequenzen in natürlicher Sprache abbildet (z. B Wörter, Sätze) zu Vektoren (Zahlenfolgen), die ihre semantische Bedeutung darstellen. Diese Vektoren können dann verwendet werden, um die Aufgabe von Interesse auszuführen, z. B Absichtserkennung, Stimmungsklassifizierung, benannte allgemeine Felderkennung usw.
Worteinbettungen
Der Paradigmenwechsel begann in den 2010er-Jahren mit Methoden zur Worteinbettung wie Word2vec und Global. Diese Techniken verwenden große Datasets in natürlicher Sprache, um Einbettungen (ein anderes Wort für Vektoren) von Wörtern auf unbeaufsichtigte Weise zu lernen. Die Einbettungen codieren semantische Informationen basierend auf den Kontexten, in denen die Wörter häufig vorkommen. Beispielsweise kommt das Wort „Computer“ häufig neben Wörtern wie „Tastatur“, „Software“ und „Internet“ vor; Diese gemeinsamen benachbarten Wörter verkörpern die Informationen, die durch die Einbettung von „computer“ codiert werden sollen.
Klassische Worteinbettungen haben einen wesentlichen Nachteil: Sie sind statisch, d. h. die Einbettung eines bestimmten Wortes ist immer gleich. Denken Sie zum Beispiel an das Wort „Bank“ – dies kann sich auf das Flussufer oder auf ein Finanzinstitut beziehen; die Einbettung müsste beide Bedeutungen codieren.
Kontextbezogene Einbettungen
Um diese Schwachstelle zu beheben, wurden Methoden für die kontextbezogene Einbettung entwickelt. Diese haben je nach Sequence eine unterschiedliche Einbettung für jedes Wort (z. B Satz, Dokument), in dem er vorkommt. Diese Arbeit hat alles verändert; Es ist jetzt äußerst selten, moderne Methoden zu finden, die nicht auf kontextbezogenen Einbettungen angewiesen sind.
Eine der ersten gängigen Techniken zur kontextbezogenen Einbettung war ElMo, bei der ein RNN-Modell (Recurrent Neural Network) auf einem großen Korpus in natürlicher Sprache unter Verwendung eines Vorhersageziels für das nächste Wort vortrainiert wird. Die internen Darstellungen dieses Modells werden dann als Eingaben für (normalerweise kleine) Modelle zur Durchführung überwachter Aufgaben verwendet. Seinerzeit wurde dieser Ansatz bei mehreren Aufgaben erheblich gegenüber dem vorherigen Stand der Technik verbessert.
RNNs verarbeiten jedes Wort in einer Sequence nacheinander, daher können sie bei langen Dokumenten langsam sein. Infolgedessen sind Modelle wie BERT und RoBERTa zu den bevorzugten Ansätzen geworden, die die wiederkehrende Komponente von ElMo durch den benutzerfreundlicheren Transformer für parallele Berechnungen ersetzen. Diese Modelle werden in der Regel mit einem maskierten Sprachmodellierungsziel vortrainiert – eine Teilmenge von Wörtern in einer Sequence wird entfernt, und das Modell hat die Aufgabe, die fehlenden Wörter vorherzusagen.
Moderne Transformer-basierte Sprachmodelle sind jedoch im Allgemeinen sehr umfangreich – sie können Milliarden von Parametern enthalten und sind sehr rechenintensiv in der Ausführung. Der typische Workflow sieht folgendermaßen aus:
- Trainieren Sie das Sprachmodell an einem generischen Dataset ohne Anmerkungen vor.
- Trainieren Sie das Sprachmodell außerdem auf einem domänenspezifischen Dataset ohne Anmerkungen.
- Optimieren Sie das Sprachmodell mithilfe von mit Anmerkungen versehenen Daten, um die überwachte Aufgabe von Interesse auszuführen.
Obwohl der erste dieser Schritte in der Regel einmalige Kosten verursacht, sind dies die beiden letzten nicht. Und während die Rechenleistung niedriger wird, werden die Transformer-Architekturen größer. Das bedeutet, dass die Kosten für hochmoderne Leistung nicht unbedingt sinken.
Daher wird in diesem Beitrag eine Reihe von Techniken vorgestellt, die den Rechenaufwand reduzieren und gleichzeitig die Auswirkungen auf die Leistung minimieren.
Der Self-Attended-Mechanismus
linkDie Transformer-Architektur beginnt mit einer lernfähigen Einbettungsebene. Jede nachfolgende Ebene erstellt ihre internen Darstellungen mithilfe eines „Self-Attended“-Mechanismus, d. h. die Darstellung für jedes Wort sieht jedes andere Wort in der Sequence aus (ein Beispiel finden Sie in Abbildung 1). Jede Selbstattended-Ebene umfasst mehrere „Heads“ (jeder Head führt eine eigene Selbstattended-Aktivität aus).
Diese werden zu den NxD-Matrizen Q, K und V bzw. V verkettet. Die Attended-Matrix wird wie folgt berechnet:
Die Ausgabe der Selbstaufmerkbarkeitsebene wird dann wie folgt berechnet:
Die endgültige Ausgabe für jede Ebene wird berechnet, indem die Self-Attended-Ausgaben für jeden Kopf verkettet und diese über ein kleines Feedforward-Netzwerk eingespeist werden.
Obwohl die Berechnung (im Gegensatz zu RNNs) parallel durchgeführt werden kann, zeigt Abbildung 1, dass N2 Selbstaufmerkmal-Operationen für eine Sequence mit N Wörtern durchgeführt werden müssen. Das heißt, die Rechenkomplexität skaliert quadratisch mit der Satzlänge. Wenn man bedenkt, dass moderne Übertrager Dutzende von Ebenen mit jeweils Dutzenden von Headern und Tausenden von Dimensionen verwenden, müssen Sie viele Operationen durchführen, selbst für eine einzelne Sequence.
Natürlich zielt eine Forschungsarbeit darauf ab, diese N2-Komplexität durch einfachere Selbstattended-Mechanismen zu reduzieren; dies ist der umfangreichste Bereich in der Erforsch von effizienten Transformer-Architekturen. Einige gängige Ansätze werden im Folgenden überprüft; In diesem Umfragedokument finden Sie eine umfassendere Abdeckung.
Achten Sie Block für Block
Eine Möglichkeit, die Anzahl der Vorgänge zu reduzieren, besteht darin, die Anzahl der Wörter in der Sequence einzuschränken, die der Selbstattended-Mechanismus betrachtet. BlockBERT segmentiert dazu die Sequence in Blöcke. Bei einem bestimmten Aufmerksamkeitspunkt betrachtet der Aufmerksamkeitsmechanismus innerhalb eines Abschnitts nur die Wörter innerhalb eines der Abschnitte (ein Beispiel finden Sie in Abbildung 2). Jeder Aufmerksamkeitspunkt auf jeder Ebene verändert die Blöcke, die der Aufmerksamkeitsmechanismus betrachtet. Das bedeutet, dass nach Dutzenden Ebenen die Einbettung für jedes Wort wahrscheinlich die gesamte Sequence umfasst hat. Je nach Modellgröße ist BlockBERT im Vergleich zu RoBERTa 12 %–25 % schneller zu trainieren, erfordert 19 %–36 % weniger Speicher und ist bei der Beantwortung von Fragen fast genauso gut (F1-Punktzahlen sind ca. 0,8 Punkte niedriger bei SQuAD 2.0 ).
Kombinieren mehrerer Aufmerksamkeitsmuster
In ähnlicher Weise schränkt der Longformer auch ein, wie viele Wörter der Selbstattended-Mechanismus betrachtet. Dazu werden mehrere einfache Aufmerksamkeitsmuster kombiniert (ein Beispiel finden Sie in Abbildung 3).
- Schiebefenster
- Achten Sie nur auf die k benachbarten Wörter.
- Erweitertes Schiebefenster
- Achten Sie auf jedes l-te Wort bis zu einem vordefinierten Grenzwert.
- Globale Aufmerksamkeit
- Achten Sie an einigen vorab ausgewählten Positionen auf die gesamte Sequence.
- Achten Sie an jeder Position auf die vorab ausgewählten Positionen.
Bei dieser Kombination von Aufmerksamkeitsmustern hat die Einbettung für jedes Wort nach mehreren Ebenen wahrscheinlich die gesamte Sequence umfasst. Insbesondere bei langen Sequences ist der Longformer viel schneller und verbraucht weniger Speicher als RoBERTa. Überraschenderweise übertrifft der Longformer RoBERTa bei einer Vielzahl von Aufgaben – Beantworten von Fragen, Koreferenzauflösung und Stimmungsklassifizierung.
BiBder ist ein weiterer bekannter Ansatz und dem Longformer sehr ähnlich. Allerdings wird anstelle des erweiterten Schiebefensters ein Muster mit zufälliger Aufmerksamkeit verwendet (d. h. jede Darstellung kümmert sich um eine feste Anzahl zufälliger Wörter in der Sequence).
Es wird eine Annäherung mit niedriger Stufe verwendet
Ein anderer Typ von Ansatz als die bisher vorgestellten ist der Linux-Ansatz, der auf dem theoretischen Ergebnis basiert, dass der Selbstattended-Vorgang einen niedrigen Rang hat. Der Linealer prognostiziert die Schlüssel- und Wertmatrizen (K und V) linear nach unten, innerhalb der Längendimension, zu einer kürzeren Sequence (festgelegte Länge), auf die volle Aufmerksamkeit angewendet werden kann (ein Beispiel finden Sie in Abbildung 4). Im Vergleich zur Standard-Self-Attended-Roboter ist der Linux-Sequences bei kurzen Sequences 1,3–3-mal schneller und bei langen Sequences ist er 3–20-mal schneller in der Ausführung. Bei einer Vielzahl von Textklassifizierungsaufgaben ist die Leistung ähnlich (und bei bestimmten Aufgaben etwas besser als) RoBERTa.
Zusammenfassung
linkIn dieser zweiteiligen Serie wird untersucht, wie modernes NLP effizienter gestaltet werden kann, indem Modifikationen der gängigen, aber rechenintensiven Sprachmodellierungstechniken auf Transformer-Basis erkundet werden. Dieser Beitrag:
- Präsentation einer kurzen Entwicklung im Bereich des Lernens der semantischen Darstellung in NLP, einschließlich traditioneller Worteinbettungen und kontextbezogener Einbettungsmodelle.
- Es wurde der Self-Attention-Mechanismus erklärt, der das Herzstück der Transformer-Architektur ist, und warum er rechenintensiv in der Ausführung ist.
- Erkundung alternativer Beobachtungsmechanismen, die rechnungsmäßig effizienter sind, ohne die Leistung zu beeinträchtigen.
Im nächsten Beitrag geht es um:
- Eine Übersicht über Methoden, die kleine Modelle trainieren, um die Ausgaben großer Modelle zu reproduzieren.
- So werden Sprachmodelle auf Parameter-effiziente Weise optimiert.
- Unsere Empfehlungen für Szenarien, in denen die verschiedenen effizienten Transformer-Ansätze zum Einsatz kommen sollten.
Wenn Sie Communications Mining™ in Ihrem Unternehmen ausprobieren möchten, registrieren Sie sich für eine Testversion oder sehen Sie sich eine Demo an .