ixp

latest

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l’utilisateur de Communications Mining

Efficient Transformers II : Dilarisation des connaissances et affinement

Cet article en deux parties explique comment rendre le NLP de pointe plus efficace en explorant les modifications apportées aux techniques de modélisation du langage populaires mais exigeantes en termes de calcul basées sur Transformer .

Le post précédent:

Explication des raisons pour lesquelles le mécanisme d'auto-attention du Transformer a une charge de travail informatique élevée.
Présentation de mécanismes d’attention alternatifs qui sont plus efficaces à fonctionner sans affecter considérablement les performances.

Ce post permettra :

Explorez les méthodes qui entraînent de petits modèles pour reproduire les sorties de grands modèles.
Expliquer comment affiner efficacement les modèles de langage.
Fournissez nos recommandations de scénarios dans lesquels utiliser les différentes approches efficaces de Transformer.

L'article précédent comprenait un bref historique de l'apprentissage de la représentation sémantique en NLP, ainsi qu'un aperçu du fonctionnement du mécanisme d'auto-attention de Transformer. Nous vous suggérons de lire d'abord ces sections pour les lecteurs qui ne sont peut-être pas familiarisés. Cette publication partage également certaines de la notation introduite dans la publication précédente.

Extraction des connaissances

La synthèse des connaissances est un domaine de recherche pour transformer les transformations plus efficaces qui entraînent de petits modèles (apprentissage) en les encourageant à reproduire les résultats des grands modèles de formation. Il s’agit d’une technique qui a initialement compris le développement pour les tâches de classification dans Computer Vision, mais qui a été appliquée avec succès dans plusieurs domaines, notamment le traitement de langage naturel. Le workflow type est le suivant :

Entraînez un grand modèle à l'aide de données génériques annotées.
Entraînez un petit modèle pour imiter le grand modèle à l'aide de données non annotées spécifiques à la tâche (et de données annotées spécifiques à la tâche, si disponibles).

Bien que ce processus implique toujours l'entraînement d'un grand modèle, il s'agit d'un coût unique. La tâche la plus fréquente des prédictions sera effectuée par le petit modèle, qui est considérablement plus efficace. Par conséquent, la technique de la classification des connaissances est particulièrement populaire pour exécuter l'apprentissage automatique dans des environnements limités en matériel, par exemple sur des appareils mobiles.

Remarque :

Il est capital de tenir compte du fait qu'un petit modèle pourrait simplement être entraîné (à partir de zéro) sur les mêmes données utilisées pour entraîner le grand. Cependant, le petit modèle peut ne pas avoir la capacité d’apprendre des représentations de la même qualité que le grand. Le petit modèle apprend à partir des probabilités prédites du grand modèle, qui encodent généralement plus d'informations que le libellé de classe seul. Cela permet au petit modèle d'apprendre des représentations plus riches et dans de nombreux scénarios, cela signifie que le petit modèle a une meilleure puissance prédictive que s'il est entraîné à partir de zéro.

Prenons un document x et un libellé de classe y, le libellé de classe appartenant à l’une des catégories C (c’est-à-dire y∈ {1,2,…,C}). Décrivez la probabilité avec laquelle un grand modèle f prévoit que le document x a un libellé de classe y=c en tant que p(c;f(x)). Cette probabilité est généralement calculée à l'aide d'une fonction du formulaire :

où f(x) est la sortie d'un réseau neuronal (par exemple un Transformer) qui prend x comme entrée. Le grand modèle est entraîné à l’aide de l’objectif de probabilité maximale suivant :

où I(c;y)=1 si y=c else 0.

Le petit modèle g peut être entraîné pour reproduire les probabilités prédites par le grand modèle f à l'aide d'un objectif du formulaire :

Voici quelques exemples de fonctions objectifs :

Un objectif de style de probabilité maximum :
- Cela équivaut à minimiser la divergence de KL entre p(c;f) et p(c;g).
Erreur carrée moyenne négative (MSE) entre les journaux :

Si des données annotées spécifiques à une tâche sont disponibles lors de l'entraînement du petit modèle, l'objectif supervisé et l'objectif de utilisant une classification sont combinés à l'aide d'une moyenne pondérée :

Extraction spécifique à la tâche

Le modèle biLSTM-SOFT effectue une synthèse spécifique aux tâches en tentant de reproduire les prédictions d’un modèle BERT déjà affiné sur les tâches de classification. Pour le modèle d'apprentissage, il utilise une seule couche LSTM bidirectionnelle. Bien que ce soit un modèle récurrent, car il n'a qu'une couche, son exécution est toujours rapide.

L'objectif de laminage est le MSE négatif entre les journaux de l'apprentissage et de l'apprentissage. Il est plus de 400 fois plus rapide à exécuter que le modèle BERT à partir duquel il est résumé, mais affiche une précision/F1 inférieure de 4 à 7 points (selon la tâche).

Disperser pendant le pré-entraînement

Jusqu'à présent, ce post a présenté la décomposition des connaissances dans le contexte de l'apprentissage supervisé, car c'est le paramètre dans lequel il est le plus couramment utilisé. Cependant, DistilBERT procède à une décomposition des connaissances tant au niveau du pré-entraînement que du réglage du modèle.

Comme expliqué dans la section Arrière-plan du post précédent, le BERT est pré-entraîné à l'aide d'une modélisation en langage masquée ; DistilBERT traite les mots manquants comme les libellés de classe et utilise la fonction de l'objectif de synthèse du style de probabilité maximal. Il utilise les distributions de probabilité prédites de BERT pour les mots manquants comme cibles temporaires dans le cadre de l’objectif de Archive. Les auteurs ajoutent également un objectif d'intégration cos ajoutée qui encourage le petit modèle à aligner la direction de ses intégrations sur celles produites par BERT.

DistilBERT adopte la même architecture de base que BERT, mais possède deux fois moins de couches et est environ 38 % plus rapide à exécuter. Lorsqu'il est résume lors du pré-entraînement uniquement, il conserve 97 % des performances du BERT. Les auteurs ont également constaté que l’exécution de la classification spécifique à la tâche lors du peaufinage (à l’aide d’un modèle BERT qui avait également été affiné dans la même tâche) donnait une amélioration supplémentaire aux performances.

Exploitation de l'architecture du Transformer

MinyBERT est une approche similaire à DistilBERT dans la mesure où elle effectue une décomposition des connaissances aux étapes du pré-entraînement et du peaufinage du modèle de langue. Cependant, MinyBERT extrait directement des connaissances à partir de représentations intermédiaires de BERT ( pas seulement des sorties finales) en exploitant spécifiquement les fonctionnalités de l’architecture Transformer.

Comme avec DistilBERT, MinyBERT adopte la même architecture que BERT, mais avec moins de couches. Tout d'abord, un mappage est défini de chaque couche du modèle apprentissage vers une couche du modèle enseignant, c'est-à-dire que chaque couche hôte est associée à une couche enseigneur. Ensuite, selon la couche supérieure, elle utilise l'une des trois fonctions cibles de classification :

Couche d'intégration
- Réduit le MSE entre les matrices d'intégration de l'abonné et de l'enseignant.
Couches d'attention
- Minimise le MSE entre les matrices d’attention des études et des leçons (A dans l’équation (4) dans le message précédent) ainsi que le MSE entre les sorties de l’étudiant et de l’entraîneur des couches de flux qui suivent l’opération d’auto-attention.
Couche finale (prédiction)
- Utilise l'objectif de rétention du style de vraisemblance maximale pour essayer de faire correspondre les probabilités prédites par l'élève et par l'enseignant. C'est le même que DistilBERT.

Par rapport au modèle BERT à partir duquel il est résumé, l'exécution de MinyBERT est 2 x à 9 fois plus rapide (selon le nombre de couches et les tailles d'états cachés). Il surpasse systématiquement DistilBERT dans une large gamme de tâches, indiquant que les objectifs de disistilisation au niveau de chaque couche sont utiles par rapport à la couche finale seule.

Réglage

Comme indiqué dans la section Arrière-plan du post précédent, la dernière étape de l'entraînement des modèles LLM consiste généralement à les affiner sur la tâche qui vous intéresse. Bien que cette étape puisse être relativement rapide à exécuter, elle implique tout de même la mise à jour de tous les paramètres du modèle. Cela signifie que la configuration matérielle requise est la même que pour les étapes de pré-entraînement. Étant donné que l’étape de peaufinage est généralement exécutée séparément pour chaque tâche, il s’agit d’une étape coûteuse du processus d’entraînement. Par conséquent, une autre ligne de recherche vise à réduire le nombre de paramètres à mettre à jour lors du réglage.

Ajuster un sous-ensemble de pondérations

Une façon d'éviter d'avoir à mettre à jour tous les paramètres du modèle consiste simplement à figer certaines des couches. Lee et autres. réalisez une étude emp licence sur l’efficacité de cette approche. Avec un modèle BERT à 12 couches, ils constatent que les 9 premières couches et que seul le réglage des 3 dernières couches atteint au moins 90 % des performances du réglage complet sur la plupart des tâches. Cependant, le gel de l’ensemble du modèle de langage et l’entraînement automatique de la couche de prédiction finale produisent des résultats considérablement pires dans toutes les tâches.

Mise à jour uniquement des termes de biais

La plupart des opérations effectuées dans la plupart des architectures de réseau neuronal impliquent de multiplier une entrée par une matrice, puis d'ajouter un terme de biais. La manière dont ces opérations sont composées est ce qui définit l'architecture.

Dans Transformers, les termes de biais (par exemple les termes b dans Ééquations (1)–(3) dans la publication précédente) représentent moins de 0,1 % du total des paramètres. Par conséquent, BitFit propose de ne les mettre à jour que lors du réglage et de figer le reste des paramètres. En utilisant des données d’entraînement annotées limitées, BitFit produit des résultats compétitifs par rapport à des ajustements de l’ensemble du modèle. Avec les ensembles de données d’entraînement volumineux, les résultats ne sont que légèrement légèrement pires que le réglage complet.

Insérer de petits réseaux entraînables dans le Transformer

Un autre ensemble de méthodes de réglage efficaces des paramètres bloque l’ensemble du modèle de langage pré-entraîné, mais introduit un petit ensemble de paramètres supplémentaires qui sont entraînés pour la tâche d’intérêt. Les adaptateurs font cela en insérant deux réseaux de flux de données à 2 couches dans chacune des couches de Transformer. Ils sont insérés directement avant et après le réseau de flux existant qui suit le mécanisme d'auto-attention. Les 2 couches effectuent les opérations suivantes :

La première couche projette l'état caché du transformation dans un vecteur à faible dimension et applique une non-linéarité.
La deuxième couche projette le vecteur à faible dimension à la taille de l'état caché du Transformer.

L'idée derrière cela est que l'insertion de paramètres apprentissages dans l'architecture Transformer (plutôt que la simple formation de la couche de prédiction finale) permet au modèle d'ajuster ses représentations internes de la même manière que le fait le peaufinage, mais de manière beaucoup plus efficace. Le réglage de l'adaptateur n'est que environ 0,4 % plus mauvais que le réglage fin complet, avec seulement 3,6 % plus de paramètres entraînés.

Recommandations

Ces deux articles ont couverte plusieurs méthodes différentes de Transformer efficaces. Quand convient-il être approprié de les utiliser ?

Si vous travaillez avec des documents particulièrement longs, nous vous recommandons d'utiliser un mécanisme d'attention efficace, tel que ceux présentés dans le post précédent. Cela permettra de réduire les temps de pré-entraînement et d'inférence. Les performances peuvent même être meilleures que le fait d’utiliser une attention à part entière.
Si votre goulot d'étranglement est la mémoire (c'est-à-dire que même un lot de documents courts provoque des erreurs de mémoire insuffisante), essayez d'utiliser un modèle résumé (par exemple MinyBERT). Avec moins de couches et des représentations de dimensions inférieures, cela réduira l'empreinte mémoire du modèle tout en étant plus rapide à entraîner.
- Cependant, gardez à l'esprit que les modèles résumés nécessitent toujours un modèle taille réelle pré-entraîné à partir duquel apprendre, et qu'ils fonctionnent généralement mieux lorsqu'ils sont résumés à la fois pendant le pré-entraînement et le peaufinage.
Si vous avez des données annotées limitées au stade du peaufinage, en utilisant une méthode de peaufinage qui bloque la plupart ou la totalité des paramètres du modèle de langue (par ex. Les adaptateurs) atténue le risque de sur-ajustement et devrait généralement fonctionner mieux que le modèle complet.
Si vous avez beaucoup de tâches supervisées en aval, nous vous suggérons d'utiliser une méthode de peaufinage efficace. Cela permettra de réduire le nombre de paramètres qui doivent être entraînés et stockés pour chaque tâche.
- Bien que les méthodes de réglage fin efficaces puissent être plus rapides à entraîner que le réglage complet, elles n'amélioreront généralement pas la vitesse d'inférence (c'est-à-dire l'obtention de prédictions à partir d'un modèle entraîné). En fait, certains d’entre eux peuvent être légèrement plus lents pour l’inférence, en raison de l’insertion de couches supplémentaires.

Résumé

Cette série en deux parties examine comment rendre le traitement des langages naturels (NLP) de pointe largement accessible en explorant des alternatives efficaces aux techniques de modélisation des langages basées sur Transformer, populaires mais exigeantes en termes de calculs.

Le post précédent:

Explication des raisons pour lesquelles le mécanisme d'auto-attention du Transformer a une charge de travail informatique élevée.
Présentation de mécanismes d’attention alternatifs qui sont plus efficaces à fonctionner sans affecter considérablement les performances.

Ce message :

Discussions sur les techniques de classification des connaissances, qui entraînent des modèles petits et efficaces en les encourageant à reproduire les sorties de leurs homologues plus grands.
A exploré des méthodes efficaces pour affiner les modèles de langage en réduisant le nombre de paramètres mis à jour.
Fournit nos recommandations pour des scénarios dans lesquels utiliser les différentes approches efficaces de Transformer.

Si vous souhaitez essayer Communications Mining dans votre entreprise, inscrivez-vous pour un essai ou regardez une démo.

Cette page vous a-t-elle été utile ?

PrécédentApprentissage basé sur des invites avec des Transformers

SuivantTransformateurs efficaces I : mécanismes d'attention

Guide de l’utilisateur de Communications Mining

Extraction des connaissances​

Extraction spécifique à la tâche​​

Disperser pendant le pré-entraînement​​

Exploitation de l'architecture du Transformer​​

Réglage​​

Ajuster un sous-ensemble de pondérations​​

Mise à jour uniquement des termes de biais​​

Insérer de petits réseaux entraînables dans le Transformer​​

Recommandations​​

Résumé​​