IXP – Apprentissage basé sur invite avec Transformers

ixp

latest

false

Guide de l’utilisateur de Communications Mining

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Apprentissage basé sur des invites avec des Transformers

Les modèles d’apprentissage automatique de Communications Mining™ utilisent une architecture appelée Transformer, qui au cours des dernières années a obtenu des résultats de pointe sur la majorité des tâches courantes de traitement du langage naturel (NLP). L'approche de choix a consiste à utiliser un modèle de langage Transformer pré-entraîné et à l'affiner sur la tâche qui vous intéresse.

Plus récemment, nous nous sommes penchés sur les « invites », un groupe de méthodes prometteuses et de plus en plus populaires. Celles-ci impliquent de spécifier directement la tâche en langage naturel pour que le modèle de langage pré-entraîné interprète et termine.

Les méthodes basées sur les invites ont des avantages potentiels importants, alors devez-vous les utiliser ? Ce post permettra :

illustrez la différence entre le réglage fin et l'invite.
Expliquer les détails du fonctionnement de certaines méthodes populaires basées sur des invites.
Discutez des avantages et des inconvénients des méthodes basées sur les invites et fournissez notre recommandation sur l'utilisation ou non de ces méthodes.

Arrière-plan

Au cours des dernières années, le domaine de la traitement automatique du langage naturel a abandonné l'utilisation d' intégrations de mots statiques pré-entraînés telles que Word2vec et GlobalVe pour utiliser de grands modèles de langage basés sur Transformer, tels que BERT et GPT-3.

Ces modèles de langage sont d'abord pré-entraînés à l'aide de données non annotées, dans le but de pouvoir encoder le sens sémantique de séquences de texte (par ex. phrases/documents). L'objectif du pré-entraînement est d'apprendre des représentations qui seront généralement utiles pour toute tâche en aval.

Une fois pré-entraîné, le modèle de langue est généralement affiné (c'est-à-dire que les paramètres pré-entraînés sont entraînés à nouveau) pour une tâche en aval, par exemple reconnaissance d'intention, classification de sentiment, reconnaissance de champ nommé, etc. Le processus de peaufinage nécessite des données d’entraînement annotées, et le modèle est ajusté séparément pour chaque tâche.

Pré-entraînement

Remarque :

Bien que les Transformers fonctionnent sur des jetons de sous-mots, cette publication fait référence à des mots tout au long afin de garder les choses plus faciles à comprendre.

Les robots fonctionnent en encodant d’abord chaque mot dans une séquence de texte sous la forme d’un vecteur de nombres appelé « intégration ». La couche d'intégration est ensuite suivie d'une séquence de couches d'attention, qui sont utilisées pour créer les représentations internes du modèle de la séquence. Enfin, il y a la couche de prédiction, dont la fonction d'objectif dépend du type de pré-entraînement utilisé.

Les transformations sont pré-entraînés de manière non supervisée. Cette étape est le plus souvent effectuée à l'aide de l'un des deux types d'entraînement suivants :

Modélisation du langage masqué (un exemple est illustré à la figure 1)
- Certains mots choisis au hasard sont supprimés de la séquence et le modèle est entraîné pour prédire ces mots manquants.
Prédiction du mot suivant (un exemple est affiché à la figure 2)
- Le modèle doit prédire chaque mot de la séquence en fonction de ceux qui l'ont précédé.

La procédure de pré-entraînement de la modélisation du langage masqué.

La procédure de pré-entraînement de la prédiction du mot suivant.

Réglage

Une fois le modèle pré-entraîné, il est affiné pour une tâche en aval et supervisée (par ex. reconnaissance des intentions). Cela implique généralement de prendre la représentation à l'étape finale d'une séquence (ou la moyenne des représentations) et de la faire passer par un petit réseau de flux pour faire une prédiction (consultez la Figure 3 à titre d'exemple).

La plupart du temps, les paramètres du modèle de langage pré-entraîné et du modèle de flux direct sont mis à jour pendant le processus de réglage.

Réalisation d'une reconnaissance d'intention en ajustant un modèle de langue pré-entraîné.

Apprentissage basé sur des invites

Supposons que nous disposions d’un modèle de langage pré-entraîné avec lequel nous souhaitons effectuer une tâche en aval. Au lieu d'utiliser les représentations du modèle de langage comme entrées dans un autre modèle pour résoudre la tâche, comme décrit précédemment, nous pouvions utiliser directement sa capacité à modéliser le langage naturel en lui fournissant une « invite » et en la demandant de remplir les champs vides ou terminer la séquence (un exemple est illustré à l'image 4).

Utilisation d'une invite de langage naturel pour résoudre une tâche directement à l'aide du modèle de langage pré-entraîné.

Il est également possible de fournir des exemples dans l'invite pour montrer au modèle comment la tâche doit être effectuée. C'est ce qu'on appelle le K - Windows Learning , où K fait référence au nombre d'exemples fournis. Cela signifie que l'image 4 est un exemple d'apprentissage sur zéro.

Fourniture d'exemples de la tâche terminée dans l'invite.

Lorsque vous utilisez des requêtes, le modèle peut toujours être affiné (de la même manière que décrit précédemment, mais cela n'est souvent pas nécessaire, comme expliqué dans les sections suivantes.

Pour la suite de cette section, nous allons passer en revue certaines méthodes populaires basées sur des invites ; consultez ce document d’enquête pour une couverture plus complète.

GPT-3

GPT-3 est un grand modèle linguistique basé sur un transformeur qui est entraîné à l'aide de l'objectif de prédiction du mot suivant sur une version filtrée de l' ensemble de données Apps Community. En plus d'être connu pour générer des séquences de texte d'une qualité notable, GPT-3 est également utilisé pour effectuer des tâches supervisées dans les paramètres zero-shot, one-shot et few-shot sans passer par un ajustement.

Les auteurs entraînent des modèles de tailles différentes, le plus grand ayant 175 millions de paramètres.

Dans l'ensemble, GPT-3 obtient de bons résultats dans les paramètres zéro-shot et one-shot. Dans le cas de quelques captures, il fonctionne parfois mieux que les modèles de pointe, même s'ils peuvent être affinés pour de grands ensembles de données annotés. Sur la grande majorité des tâches, les performances de GPT-3 s'améliorent à la fois avec la taille du modèle et avec le nombre d'exemples affichés dans l'invite.

Cependant, elle rencontre également des difficultés pour certaines tâches, en particulier celles qui impliquent de comparer plusieurs séquences de texte. Celles-ci comprennent :

Inférence du langage naturel
- Le modèle se voit attribuer deux phrases et doit déterminer si la seconde implique, contredit ou est neutre par rapport à la première.
Compréhension de lecture
- Le modèle se voit attribuer un paragraphe et doit répondre à des questions à ce sujet.

Les auteurs supposent que cela est dû au fait que GPT-3 est entraîné pour la prédiction du mot suivant, c'est-à-dire de gauche à droite (plutôt que bidirectionnel).

Entraînement à l'exploitation de modèles

Pour une tâche donnée, l'entraînement à l'exploitation de modèles (PAT) définit un ensemble d'invites, chacune avec exactement un jeton de masque, qui est transmise à un modèle de langage qui a été pré-entraîné dans le cadre de la modélisation de la langue masquée. Le processus ETP fonctionne comme suit :

Ajustez un modèle de langue distinct pour chaque invite, en créant un ensemble de modèles pour la tâche.
Utilisez cet ensemble de modèles affinés pour générer des libellés « soft » pour un ensemble de points de données non annotés, de manière similaire à la décomposition des connaissances.
Utilisez ces libellés flexibles pour affiner un modèle de langage final à la manière définie dans la section de réglage mentionnée précédemment, c'est-à-dire en n'utilisant pas d'invites.

Le protocole ETP a également été étendu pour fonctionner avec plusieurs jetons de masque et fonctionne bien même lorsque les étapes précédentes 2 et 3 sont ignorées, c'est-à-dire que l'ensemble des modèles affinés de l'étape 1 est directement utilisé comme modèle final. Les auteurs utilisent ALBERT comme modèle de langage masqué de base et évaluent le PE dans le paramètre de 32 capture d'écran. Sur la plupart des tâches du banc d'essai SuperGUE, il dépasse GPT-3 tout en n'ayant qu'un nombre égal de paramètres de 0,1 %.

Réglage rapide

Contrairement aux méthodes que nous avons examinées jusqu’à présent, l’ajustement des invites ne permet pas de concevoir manuellement les invites qui sont transmises au modèle. Au lieu de cela, il utilise des intégrations d'apprentissage supplémentaires qui sont directement ajoutées à la séquence au niveau de la couche d'intégration. Dans la pratique, cela permet d’ignorer l’étape d’écriture des invites en langage naturel et de permettre au modèle d’apprendre l’invite optimale directement au niveau de la couche d’intégration.

L'approche d'ajustement des invites (illustrée dans l'image 6) est basée sur le modèle de langage T5 pré-entraîné. Ceci est similaire à l'original Transformer, qui a été conçu pour effectuer la traduction. Le modèle T5 comporte deux composants :

L'encodeur mappe la séquence d'entrée aux représentations de vecteurs à l'aide d'un mécanisme d'auto-attention, les intégrations d'invites identifiables étant insérées dans la première couche.
Le décodage génère le texte pour classer l'exemple sur la base des représentations de l'encodeur, à nouveau en utilisant un mécanisme d'attention.

Classer si une phrase est ou non linguistiquement acceptable à l'aide du réglage de l'invite.

Le modèle est affiné sur un ensemble de données complet annoté pour chaque tâche, mais seuls les intégrations d'invites sont mises à jour (le reste du modèle, qui contient la grande majorité des paramètres, est figé après le pré-entraînement). Le réglage rapide surpasse considérablement le GPT-3 à quelques captures, et le plus grand modèle réglé en invite correspond aux performances du réglage complet.

Doit-on utiliser des méthodes basées sur les invites ?

Avantages de l’apprentissage basé sur les invites

Point de vue pratique

D’un point de vue pratique, le plus grand avantage des méthodes basées sur des invites est qu’elles fonctionnent généralement bien avec de très petites quantités de données annotées. Par exemple, avec GPT-3, il est possible d’obtenir des performances de pointe sur certaines tâches avec un seul exemple annoté.

Bien qu'il puisse être impossible d'exécuter un modèle de la taille de GPT-3 dans de nombreux paramètres, il est possible de surpasser GPT-3 dans le paramètre en quelques exemples avec un modèle beaucoup plus petit en utilisant la méthode ETP.

Point de vue de la modélisation

Du point de vue de la modélisation, il peut être argumenté que l’utilisation des invites est un moyen plus naturel d’exploiter des modèles de langage pré-entraînés pour les tâches en aval par rapport au réglage traditionnel. En effet, lors de l'utilisation d'invites, nous utilisons le modèle de langage pour générer le texte qui résout une tâche; c’est également ce qu’il a été formé dans la procédure de pré-entraînement.

En revanche, le réglage traditionnel peut être considéré comme un moyen moins intuitif d'utiliser des modèles de langage pour les tâches en aval, car il utilise un modèle distinct avec une fonction objective complètement différente par rapport à la procédure de pré-entraînement.

Inavantages de l'apprentissage basé sur les invites

L’apprentissage basé sur les invites peut présenter certains inconvénients, tels que:

Hhallucination
Invites conçues par la main
Longueur d’invite limitée

Hhallucination

Bien que les méthodes basées sur les invites soient déjà prometteuses pour effectuer des tâches avec très peu d’exemples annotés, elles présentent également certains inconvénients. Tout d’abord, les modèles linguistiques sont sujets à des « hallucinations», c’est-à-dire qu’ils peuvent générer du texte qui est insensible, biaisé ou pensif, ou agent malveillant. Cela peut rendre ces modèles inutilisables dans tout paramètre du monde réel.

Il est possible de contraindre le texte généré par les modèles linguistiques, mais selon la tâche, il n'est pas toujours possible de spécifier un ensemble approprié de restrictions tout en conservant les performances.

Invites conçues par la main

Un autre inconvénient avec beaucoup de ces méthodes est que les invites elles-mêmes sont conçues à la main. Non seulement cela est susceptible d'être sous-optimal en termes de performances, mais la sélection de l'invite optimale nécessite elle-même des données de validation annotées.

Le protocole ETP contourne ce problème en utilisant un ensemble d'invites, mais cela nécessite ensuite d'affiner un modèle de langage distinct pour chaque invite. Les méthodes d’invite « souples » (telles que l’ajustement des invites) ne nécessitent pas d’invites conçues à la main, mais nécessitent plutôt des ensembles de données d’entraînement plus volumineux.

Longueur d’invite limitée

Les méthodes telles que GPT-3 tel que décrit précédemment et le modèle PaLM récent insèrent les exemples annotés dans le cadre de l’invite en langage naturel et n’ajustent pas le modèle de langage lui-même. Bien que cela fonctionne très bien dans le paramètre d’apprentissage en quelques exemples, cela peut s’avérer sous-optimal lorsqu’un ensemble plus important d’exemples annotés est disponible.

En effet, seul un petit nombre d’exemples peut être inséré dans l’invite avant qu’une longueur maximale de séquence ne soit atteinte; Cela limite le modèle à effectuer uniquement un apprentissage en quelques exemples.

Résumé

Dans cet article, nous nous sommes penchés sur les méthodes basées sur les invites. Celles-ci impliquent de spécifier directement la tâche en langage naturel pour qu'un modèle de langage pré-entraîné interprète et termine.

L'invite montre beaucoup de potentiel pour obtenir de solides performances avec très peu d'exemples d'entraînement annotés. Cependant, ces techniques reposent souvent sur des invites conçues à la main et peuvent être sujettes à des apparitions, ce qui les rend douteuses à utiliser dans des paramètres du monde réel. Par conséquent, bien que ces méthodes semblent prometteuses, il reste encore beaucoup de recherches à effectuer pour les rendre pratiques à utiliser.

Chez Communications Mining™, nous cherchons activement à rendre les méthodes d’invite plus sécurisées, en fournissant des estimations de précision précises et en générant des données structurées exploitables. Les résultats de cette recherche seront bientôt disponibles.

Si vous souhaitez essayer Communications Mining dans votre entreprise, inscrivez-vous pour un essai ou regardez une démo.

Cette page vous a-t-elle été utile ?

PrécédentComment les machines apprennent à comprendre les mots : guide d'intégration dans NLP

SuivantEfficient Transformers II : Dilarisation des connaissances et affinement

Arrière-plan​​

Pré-entraînement​​

Réglage​​

Apprentissage basé sur des invites​​

GPT-3​​

Entraînement à l'exploitation de modèles​​

Réglage rapide​​

Doit-on utiliser des méthodes basées sur les invites ?​​

Avantages de l’apprentissage basé sur les invites​

Point de vue pratique​

Point de vue de la modélisation​

Inavantages de l'apprentissage basé sur les invites​​

Hhallucination​

Invites conçues par la main​

Longueur d’invite limitée​

Résumé​​