- Einleitung
- Einrichten Ihres Kontos
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder
- Beschriftungen (Vorhersagen, Konfidenzniveaus, Beschriftungshierarchie und Beschriftungsstimmung)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Nachrichten mit und ohne Anmerkungen
- Extraktionsfelder
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Zugriffssteuerung und Administration
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen oder Löschen einer Datenquelle in der GUI
- Vorbereiten von Daten für den CSV-Upload
- Hochladen einer CSV-Datei in eine Quelle
- Ein Dataset wird erstellt
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern der Dataset-Einstellungen
- Löschen einer Nachricht
- Löschen eines Datasets
- Exportieren eines Datasets
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Grundlegendes zu Beschriftungen, allgemeinen Feldern und Metadaten
- Beschriftungshierarchie und Best Practices
- Vergleichen von Anwendungsfällen für Analyse und Automatisierung
- Konvertieren Ihrer Ziele in Bezeichnungen
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- So funktioniert die Validierung
- Verstehen und Verbessern der Modellleistung
- Gründe für die geringe durchschnittliche Beschriftungsgenauigkeit
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automations and Communications Mining™
- Entwickler (Developer)
- Verwenden der API
- API-Tutorial
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- Hochladen von Daten
- Herunterladen von Daten
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Exchange-Integration mit Azure Application Authentication und Graph
- Migrationsanleitung: Exchange Web Services (EWS) zur Microsoft Graph-API
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Allgemeine Feldextraktion
- Selbst gehostete Exchange-Integration
- UiPath® Automatisierungs-Framework
- Offizielle UiPath®-Aktivitäten
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben von Anmerkungsverzerrungen mit Communications Mining™
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining™ und Google AutoML für Conversation Data Intelligence
- Lizenzierung
- Häufige Fragen und mehr
Communications Mining-Benutzerhandbuch
Geschäft läuft durch Kommunikation. Kunden melden sich, wenn sie etwas brauchen. Kollegen verbinden sich, um Arbeit zu erledigen. Unsere Aufgabe bei Communications Mining™ ist es, die Ökonom Dies tun wir, indem wir den Zugang zu modernen NLP und NLU demokratisieren.
Insbesondere verwenden die Modelle von Communications Mining Deep-Learning-Architekturen namens Transformers. Transformer ermöglichen enorme Verbesserungen der NLU-Leistung. Sie sind jedoch auch sehr rechenintensiv – sowohl beim Training der Modelle, um neue Konzepte zu lernen, als auch bei deren Verwendung, um Vorhersagen zu treffen. In dieser zweiteiligen Serie werden mehrere Techniken betrachtet, um die Geschwindigkeit zu erhöhen und die Rechenkosten für die Verwendung dieser großen Transformer-Architekturen zu reduzieren.
Dieser Beitrag wird:
- Präsentieren Sie eine kurze Entwicklung der Einbettung von Modellen in NLP.
- Beschreiben Sie, warum der Self-Attention-Mechanismus des Transformers einen hohen Rechenaufwand hat.
- Überprüfen Sie Änderungen der klassischen Transformer-Architektur, die recheneffizienter zu trainieren und auszuführen sind, ohne die Leistung erheblich zu beeinträchtigen.
Im nächsten Beitrag werden zusätzliche Rechen- und Approach-Techniken behandelt, die zu weiteren Effizienzsteigerungen führen. Im nächsten Beitrag:
- Erkunden Sie Deaktivierungstechniken, bei denen kleinere Modelle trainiert werden, um die Leistung größerer Modelle zu nähern.
- Erklären Sie effiziente Feinabstimmungstechniken, bei denen Parameteraktualisierungen eingeschränkt sind.
- Geben Sie unsere Empfehlungen für die Verwendung jeder dieser Methoden.
Hintergrund
In den letzten zehn Jahren sind NLP-Methoden bei der Lösung einer Vielzahl von Aufgaben erheblich besser geworden. Dies ist zum großen Teil auf eine Verlagerung von manuell geführten, auf Feature-Engineering basierenden Ansätzen hin zu Methoden, die auf Machine Learning basieren, zurückzuführen. Die größten Leistungsverbesserungen sind auf Fortschritte beim nicht überwachten vortrainierten Lernen der semantischen Darstellung zurückzuführen. Dabei wird ein Modell trainiert, das Sequenzen in natürlicher Sprache abbildet (z. B Wörter, Sätze) zu Vektoren (Zahlenfolgen), die ihre semantische Bedeutung darstellen. Diese Vektoren können dann verwendet werden, um die Aufgabe von Interesse auszuführen, z. B Absichtserkennung, Stimmungsklassifizierung, benannte allgemeine Felderkennung usw.
Worteinbettungen
Der Paradigmenwechsel begann in den 2010er-Jahren mit Methoden zur Einbettung von Wörtern wie Word2vec und GloVe. Diese Techniken verwenden große Datasets in natürlicher Sprache, um Einbettungen (ein anderes Wort für Vektoren) von Wörtern auf unbeaufsichtigte Weise zu lernen. Die Einbettungen codieren semantische Informationen basierend auf den Kontexten, in denen die Wörter häufig vorkommen. Beispielsweise kann das Wort „Computer“ häufig neben Wörtern wie „Tastatur“, „Software“ und „Internet“ vorkommen. Diese gemeinsamen benachbarten Wörter verkörpern die Informationen, welche die Einbettung von „computer“ codieren sollte.
Klassische Worteinbettungen haben einen wesentlichen Nachteil: Sie sind statisch, d. h. die Einbettung eines bestimmten Wortes ist immer gleich. Denken Sie zum Beispiel an das Wort „Bank“ – dies kann sich auf das Flussufer oder auf ein Finanzinstitut beziehen; die Einbettung müsste beide Bedeutungen codieren.
Kontextbezogene Einbettungen
Um diese Schwachstelle zu beheben, wurden Methoden für die kontextbezogene Einbettung entwickelt. Diese haben je nach Sequence eine unterschiedliche Einbettung für jedes Wort (z. B Satz, Dokument), in dem er vorkommt. Diese Arbeit hat alles verändert; Es ist jetzt äußerst selten, moderne Methoden zu finden, die nicht auf kontextbezogenen Einbettungen angewiesen sind.
Eine der ersten beliebten kontextbezogenen Einbettungstechniken war ELMo, bei der ein RNN-Modell auf einem großen Korpus in natürlicher Sprache mithilfe eines Nächstes Wort-Vorhersageziels vortrainiert wird. Die internen Darstellungen dieses Modells werden dann als Eingaben für (in der Regel kleine) Modelle zur Durchführung überwachter Aufgaben verwendet. Zu diesem Zeitpunkt wurde dieser Ansatz gegenüber dem vorherigen Stand der Technik in mehreren Aufgaben erheblich verbessert.
RNNs verarbeiten jedes Wort in einer Sequence nacheinander, daher können sie bei langen Dokumenten langsam sein. Infolgedessen sind Modelle wie BERT und RoBERTa, die die wiederkehrende Komponente von ELMo durch den stärker parallelen Rechenprozess ersetzen, zu den bevorzugten Ansätzen geworden. Diese Modelle werden in der Regel mit einem maskierten Sprachmodellierungsziel vortrainiert – eine Teilmenge von Wörtern in einer Sequence wird entfernt und das Modell hat die Aufgabe, die fehlenden Wörter vorherzusagen.
Moderne Transformer-basierte Sprachmodelle sind jedoch im Allgemeinen sehr umfangreich – sie können Milliarden von Parametern enthalten und sind sehr rechenintensiv in der Ausführung. Der typische Workflow sieht folgendermaßen aus:
- Trainieren Sie das Sprachmodell an einem generischen Dataset ohne Anmerkungen vor.
- Trainieren Sie das Sprachmodell außerdem auf einem domänenspezifischen Dataset ohne Anmerkungen.
- Optimieren Sie das Sprachmodell mithilfe von mit Anmerkungen versehenen Daten, um die überwachte Aufgabe von Interesse auszuführen.
Obwohl der erste dieser Schritte in der Regel einmalige Kosten verursacht, sind dies die beiden letzten nicht. Und während die Rechenleistung niedriger wird, werden die Transformer-Architekturen größer. Das bedeutet, dass die Kosten für hochmoderne Leistung nicht unbedingt sinken.
Daher wird in diesem Beitrag eine Reihe von Techniken vorgestellt, die den Rechenaufwand reduzieren und gleichzeitig die Auswirkungen auf die Leistung minimieren.
Der Self-Attended-Mechanismus
Obwohl Transformer mit Unterwörtern arbeiten, bezieht sich dieser Beitrag durchgängig auf Wörter, um das Verständnis zu erleichtern.
Die Transformer-Architektur beginnt mit einer lernfähigen Einbettungsebene. Jede nachfolgende Ebene erstellt ihre internen Darstellungen mithilfe eines „Self-Attended“-Mechanismus, d. h. die Darstellung für jedes Wort sieht jedes andere Wort in der Sequence aus (ein Beispiel finden Sie in Abbildung 1). Jede Selbstattended-Ebene umfasst mehrere „Heads“ (jeder Head führt eine eigene Selbstattended-Aktivität aus).
Der Self-Attended-Mechanismus

Angenommen, es gibt N Wörter in einer Sequence. Jeder Self-Attended-Head verfügt über D-dimensionale Abfrage-, Schlüssel- und Wertvektoren für jedes Wort, die mithilfe der Ausgabe der vorherigen Ebene n-1 berechnet werden:

Diese werden zu den NxD-Matrizen Q, K bzw. V verkettet. Die Aufmerksamkeitsmatrix wird berechnet als:

Die Ausgabe der Selbstaufmerkbarkeitsebene wird dann wie folgt berechnet:

Die endgültige Ausgabe für jede Ebene wird berechnet, indem die Self-Attended-Ausgaben für jeden Head verkettet und durch ein kleines Feedforward-Netzwerk geführt werden.
Obwohl die Berechnung (im Gegensatz zu RNNs) parallel durchgeführt werden kann, zeigt Abbildung 1, dass es N2 Selbstattended-Operationen für eine Sequence mit N Wörtern gibt. Das heißt, die Rechenkomplexität skaliert viermal mit der Satzlänge. Wenn man bedenkt, dass moderne Transformer Dutzende Ebenen mit jeweils Dutzenden Headern und Tausenden von Dimensionen verwenden, müssen viele Vorgänge selbst für eine einzelne Sequence ausgeführt werden.
Natürlich zielt eine Forschungsarbeit darauf ab, diese N2-Komplexität durch einfachere Selbstattended-Mechanismen zu reduzieren; dies ist der umfangreichste Bereich in der Erforsch von effizienten Transformer-Architekturen. Einige gängige Ansätze werden in den folgenden Abschnitten besprochen. Eine umfassendere Abdeckung finden Sie in diesem Umfragebericht.
Achten Sie Block für Block
Eine Möglichkeit, die Anzahl der Vorgänge zu reduzieren, besteht darin, die Anzahl der Wörter in der Sequence einzuschränken, die der Selbstattended-Mechanismus betrachtet. BlockBERT segmentiert dazu die Sequence in Blöcke. Bei einem bestimmten Aufmerksamkeitspunkt betrachtet der Aufmerksamkeitsmechanismus innerhalb eines Abschnitts nur die Wörter innerhalb eines der Abschnitte (ein Beispiel finden Sie in Abbildung 2). Jeder Aufmerksamkeitspunkt auf jeder Ebene verändert die Blöcke, die der Aufmerksamkeitsmechanismus betrachtet. Das bedeutet, dass nach Dutzenden Ebenen die Einbettung für jedes Wort wahrscheinlich die gesamte Sequence umfasst hat. Je nach Modellgröße ist BlockBERT im Vergleich zu RoBERTa 12 %–25 % schneller zu trainieren, erfordert 19 %–36 % weniger Speicher und ist bei der Beantwortung von Fragen fast genauso gut (F1-Punktzahlen sind ca. 0,8 Punkte niedriger bei SQuAD 2.0 ).
Der BlockBERT-Mechanismus zur Selbstaufbewahrung kümmert sich nur um Wörter innerhalb eines Blocks.

Kombinieren mehrerer Aufmerksamkeitsmuster
In ähnlicher Weise schränkt der Longformer auch ein, wie viele Wörter der Selbstattended-Mechanismus betrachtet. Dazu werden mehrere einfache Aufmerksamkeitsmuster kombiniert (ein Beispiel finden Sie in Abbildung 3).
- Schiebefenster
- Achten Sie nur auf die k benachbarten Wörter.
- Erweitertes Schiebefenster
- Achten Sie auf jedes l-te Wort bis zu einem vordefinierten Grenzwert.
- Globale Aufmerksamkeit
- Achten Sie an einigen vorab ausgewählten Positionen auf die gesamte Sequence.
- Achten Sie an jeder Position auf die vorab ausgewählten Positionen.
Bei dieser Kombination von Aufmerksamkeitsmustern hat die Einbettung für jedes Wort nach mehreren Ebenen wahrscheinlich die gesamte Sequence umfasst. Insbesondere bei langen Sequences ist der Longformer viel schneller und verbraucht weniger Speicher als RoBERTa. Überraschenderweise übertrifft der Longformer RoBERTa bei einer Vielzahl von Aufgaben – Beantworten von Fragen, Koreferenzauflösung und Stimmungsklassifizierung.
Der Longformer-Selbst-Aufmerkmal-Mechanismus kombiniert ein gleitendes Fenster, ein erweitertes Schiebefenster und globale Aufmerksamkeit an einigen vorab ausgewählten Positionen

BigBird ist ein weiterer beliebten Ansatz und ist dem Longformer sehr ähnlich, mit dem Unterschied, dass anstelle des erweiterten Schiebefensters ein zufälliges Aufmerksamkeitsmuster verwendet wird (d. h. jede Darstellung umfasst eine feste Anzahl zufälliger Wörter in der Sequence).
Es wird eine Annäherung mit niedriger Stufe verwendet
Ein anderer Typ von Ansatz als die bisher vorgestellten ist der Linux-Ansatz, der auf dem theoretischen Ergebnis basiert, dass der Selbstattended-Vorgang einen niedrigen Rang hat. Der Linealer prognostiziert die Schlüssel- und Wertmatrizen (K und V) linear nach unten, innerhalb der Längendimension, zu einer kürzeren Sequence (festgelegte Länge), auf die volle Aufmerksamkeit angewendet werden kann (ein Beispiel finden Sie in Abbildung 4). Im Vergleich zur Standard-Self-Attended-Roboter ist der Linux-Sequences bei kurzen Sequences 1,3–3-mal schneller und bei langen Sequences ist er 3–20-mal schneller in der Ausführung. Bei einer Vielzahl von Textklassifizierungsaufgaben ist die Leistung ähnlich (und bei bestimmten Aufgaben etwas besser als) RoBERTa.
Der Linux-Mechanismus zur Selbstaufmerkhaltung beinhaltet eine Herabprojektion der Länge auf eine kürzere Sequence (in diesem Fall Länge 4), auf die die volle Aufmerksamkeit angewendet werden kann

Zusammenfassung
In dieser zweiteiligen Serie wird untersucht, wie modernes NLP effizienter gestaltet werden kann, indem Modifikationen der gängigen, aber rechenintensiven Sprachmodellierungstechniken auf Transformer-Basis erkundet werden. Dieser Beitrag:
- Präsentation einer kurzen Entwicklung im Bereich des Lernens der semantischen Darstellung in NLP, einschließlich traditioneller Worteinbettungen und kontextbezogener Einbettungsmodelle.
- Es wurde der Self-Attention-Mechanismus erklärt, der das Herzstück der Transformer-Architektur ist, und warum er rechenintensiv in der Ausführung ist.
- Erkundung alternativer Beobachtungsmechanismen, die rechnungsmäßig effizienter sind, ohne die Leistung zu beeinträchtigen.
Der nächste Beitrag behandelt:
- Eine Übersicht über Methoden, die kleine Modelle trainieren, um die Ausgaben großer Modelle zu reproduzieren.
- So werden Sprachmodelle auf Parameter-effiziente Weise optimiert.
- Unsere Empfehlungen für Szenarien, in denen die verschiedenen effizienten Transformer-Ansätze zum Einsatz kommen sollten.
Wenn Sie Communications Mining™ in Ihrem Unternehmen ausprobieren möchten, registrieren Sie sich für eine Testversion oder sehen Sie sich eine Demo an .