ixp

latest

false

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

Communications Mining ガイド

最終更新日時 2026年3月6日

トランスフォーマーによるプロンプトベースの学習

Communications Mining™ のマシンラーニングモデルは、 Transformer と呼ばれるアーキテクチャを使用しており、ここ数年で一般的な自然言語処理 (NLP) タスクの大部分で最先端の結果を達成しています。頼りになるアプローチは、事前トレーニング済みのTransformer言語モデルを取得し、関心のあるタスクに合わせて微調整することでした。

最近では、人気が高まっている有望な方法のグループである「プロンプト」を検討しています。これには、事前トレーニング済みの言語モデルが解釈して完了するために、自然言語でタスクを直接指定することが含まれます。

プロンプトベースのメソッドには大きな潜在的な利点があるため、それらを使用する必要がありますか? この投稿では、次のことを行います。

従来の微調整とプロンプトの違いを説明します。
いくつかの一般的なプロンプトベースの方法がどのように機能するかの詳細を説明します。
プロンプトベースの方法の長所と短所について話し合い、それらを使用するかどうかに関する推奨事項を提供します。

背景

ここ数年で、NLP の分野は、 word2vec や Glove などの事前トレーニング済みの静的単語埋め込みの使用から、 BERT や GPT-3 などの大規模な Transformer ベースの言語モデルの使用へと移行しています。

これらの言語モデルは、テキストのシーケンスの意味的意味をエンコードできるようにすることを目的として、注釈なしのデータを使用して最初に事前トレーニングされます(例: 文章/文書)。事前トレーニングの目標は、一般的に下流のタスクに役立つ表現を学習することです。

事前トレーニングが完了すると、言語モデルは通常、ダウンストリームタスク用に微調整されます(つまり、事前トレーニングされたパラメーターはさらにトレーニングされます)。インテント認識、センチメント分類、名前付き一般フィールド認識など微調整プロセスには注釈付きのトレーニングデータが必要であり、モデルはタスクごとに個別に微調整されます。

事前トレーニング

注:

トランスフォーマーはサブワードトークンで動作しますが、この記事では、物事を理解しやすくするために、全体を通して単語を参照しています。

トランスフォーマーは、最初にテキストのシーケンス内の各単語を「埋め込み」と呼ばれる数値のベクトルとしてエンコードすることによって機能します。次に、埋め込みレイヤーの後に一連のアテンションレイヤーが続き、モデルのシーケンスの内部表現を構築するために使用されます。最後に予測層があり、その目的関数は使用される事前トレーニングの種類によって異なります。

変圧器は、教師なしの方法で事前にトレーニングされています。この手順は、ほとんどの場合、次の 2 種類のトレーニングのいずれかを使用して行われます。

マスクされた言語モデリング (図 1 に例を示します)
- ランダムに選択された一部の単語がシーケンスから削除され、不足している単語を予測するようにモデルがトレーニングされます。
次の単語予測 (図 2 に例を示します)
- モデルは、シーケンス内の各単語を、それより前の単語を条件として予測する必要があります。

マスクされた言語モデリングの事前トレーニング手順。

docs image

次の単語予測事前トレーニング手順。

docs image

微調整

モデルを事前トレーニングすると、下流の教師ありタスク (例:意図認識)。これには、通常、シーケンスの最後のステップで表現 (または表現の平均) を取得し、それを小さなフィードフォワードネットワークに渡して予測を行うことが含まれます (例については、図 3 を参照してください)。ほとんどの場合、事前トレーニング済みの言語モデルとフィードフォワードモデルの両方のパラメーターが微調整プロセス中に更新されます。

事前トレーニング済みの言語モデルを微調整して意図認識を実行する。

docs image

プロンプトベースの学習

事前トレーニング済みの言語モデルがあり、それを使用して下流のタスクを実行するとします。前述のように、言語モデルからの表現を別のモデルへの入力としてタスクを解決するために使用する代わりに、自然言語に「プロンプト」を与えて空白を埋めたり、シーケンスを完了させたりすることで、自然言語をモデル化する機能を直接使用できます(例を図4に示します)。

自然言語プロンプトを使用し、事前トレーニング済みの言語モデルを使用してタスクを直接解決する。

docs image

また、プロンプトで例を提供して、タスクをどのように完了すべきかをモデルに示すこともできます (例については、図 5 を参照してください)。これは K ショット学習と呼ばれ、 K は提供された例の数を指します。これは、図4がゼロショット学習の例であることを意味します。

プロンプトで完了したタスクの例を指定します。

docs image

プロンプトを使用する場合でも、モデルを微調整できます (前述と同じ方法ですが、次のセクションで説明するように、多くの場合、この必要はありません)。

このセクションの残りの部分では、いくつかの一般的なプロンプトベースの方法を確認します。より包括的なカバレッジについては、この調査用紙を確認してください。

GPT-3

GPT-3 は、大規模な Transformer ベースの言語モデルであり、 Common Crawl データセットのフィルター処理されたバージョンで次の単語予測目標を使用してトレーニングされます。GPT-3 は、非常に高品質なテキストシーケンスを生成することで有名であるだけでなく、ゼロショット、ワンショット、およびフェーショット (10K100) の設定で、微調整なしで教師ありタスクを実行するためにも使用されます。著者らは、さまざまなサイズのモデルを訓練し、最大のものは1750億のパラメータを持っていた。

全体として、GPT-3はゼロショットとワンショットの設定で強力な結果を達成します。数ショットの設定では、大規模な注釈付きデータセットで微調整されている場合でも、最先端のモデルよりもパフォーマンスが向上する場合があります。ほとんどのタスクでは、GPT-3のパフォーマンスは、モデルのサイズとプロンプトに表示される例の数の両方で向上します。

ただし、特定のタスク、特に複数のテキストのシーケンスを比較するタスクには苦労します。たとえば、次のような要因があります。

自然言語推論
- モデルには2つの文が与えられ、2番目の文が最初の文に対して中立であるか、矛盾するか、中立であるかを判断する必要があります。
読解
- モデルには段落が与えられ、それに関する質問に答える必要があります。

著者らは、これはGPT-3が次の単語予測のために、すなわち(双方向ではなく)左から右への方法で訓練されているためであると仮定している。

パターン活用トレーニング

特定のタスクに対して、パターン活用トレーニング (PET) は一連のプロンプトを定義します。各プロンプトにはマスクトークンが 1 つだけ含まれており、マスクされた言語モデリングの目的で事前トレーニングされた言語モデルに入力されます。PETプロセスは次のように機能します。

プロンプトごとに個別の言語モデルを微調整し、タスクのモデルのアンサンブルを作成します。
この微調整されたモデルのアンサンブルを使用して、知識蒸留と同様の方法で、アノテーションが行われていない一連のデータポイントの「ソフト」ラベルを生成します。
これらのソフトラベルを使用して、前述の微調整のセクションで定義した方法、つまりプロンプトを使用せずに最終的な言語モデルを微調整します。

PETも複数のマスクトークンで動作するように拡張されており、前のステップ2と3をスキップした場合、つまりステップ1の微調整されたモデルのアンサンブルが最終モデルとして直接使用される場合でもうまく機能します。著者らは、ALBERT をベースマスク言語モデルとして使用し、32ショットの設定でPETを評価します。SuperGLUEベンチマークのほとんどのタスクでは、GPT-3を上回っていますが、パラメータは0.1%しかありません。

迅速なチューニング

これまでに見てきた方法とは異なり、プロンプトチューニングでは、モデルに供給されるプロンプトを手作業で設計しません。代わりに、埋め込みレイヤーでシーケンスの直接前に追加される追加の学習可能な埋め込みを使用します。これにより、プロンプトを自然言語で記述する手順が実質的に省略され、代わりにモデルが最適なプロンプトを埋め込みレイヤーで直接学習できます。

プロンプトチューニングアプローチ(図6を参照)は、事前トレーニング済みの T5 言語モデルに基づいています。これは、翻訳を実行するように設計されたオリジナルのトランスフォーマーに似ています。T5モデルには2つのコンポーネントがあります。

エンコーダーは、自己注意メカニズムを使用して入力シーケンスをベクトル表現にマップし、学習可能なプロンプト埋め込みが最初のレイヤーに挿入されます。
デコーダーは、再びアテンションメカニズムを使用して、エンコーダー表現に基づいて例を分類するテキストを生成します。

プロンプトチューニングを使用して、文が言語的に受け入れられるかどうかを分類します。

docs image

モデルはタスクごとに完全な注釈付きデータセットで微調整されますが、プロンプト埋め込みのみが更新されます(パラメーターの大部分を含むモデルの残りの部分は、事前トレーニング後にフリーズされます)。プロンプトチューニングは、数ショットのGPT-3を大幅に上回り、最大のプロンプトチューニングモデルはフル微調整のパフォーマンスに匹敵します。

プロンプトベースのメソッドを使用する必要がありますか?

プロンプトベースの学習の利点

実用的な観点から見ると、プロンプトベースのメソッドの最大の利点は、通常、非常に少量の注釈付きデータでうまく機能することです。たとえば、GPT-3を使用すると、注釈付きの例を1つだけで特定のタスクで最先端のパフォーマンスを実現できます。 GPT-3のサイズのモデルを多くの設定で実行することは実用的ではないかもしれませんが、PET法を使用すると、はるかに小さいモデルで数ショットの設定でGPT-3を上回っています。

モデリングの観点からは、プロンプトを使用することは、従来の微調整と比較して、ダウンストリームタスクに事前トレーニング済みの言語モデルを活用するためのより自然な方法であると主張することができます。これは、プロンプトを使用する場合、言語モデルを使用してタスクを解決するテキストを生成するためです。これは、事前トレーニング手順で実行するようにトレーニングされたものでもあります。対照的に、従来の微調整(図3)は、事前学習手順とはまったく異なる目的関数を持つ別のモデルを使用するため、下流のタスクに言語モデルを使用するための直感的ではない方法と見なすことができます。

プロンプトベースの学習のデメリット

プロンプトベースのメソッドは、アノテーションされた例がほとんどないタスクで適切に実行できるという点で大きな期待が寄せられていますが、いくつかの欠点もあります。第一に、言語モデルは「幻覚」に陥りやすい、つまり、無意味、偏見、または攻撃的なテキストを生成する可能性があります。これにより、そのようなモデルは現実世界の設定で使用できなくなる可能性があります。言語モデルによって生成されるテキストを制約することは可能ですが、タスクによっては、パフォーマンスを維持しながら適切な制限のセットを指定できるとは限りません。

これらのメソッドの多くに関するもう1つの欠点は、プロンプト自体が手動で設計されていることです。これはパフォーマンスの点で最適ではない可能性が高いだけでなく、最適なプロンプト自体を選択するには、注釈付きの検証データが必要です。 PET はプロンプトのアンサンブルを使用してこの問題を回避しますが、プロンプトごとに個別の言語モデルを微調整する必要があります。「ソフト」プロンプトメソッド(プロンプトチューニングなど)は、手動で設計されたプロンプトを必要としませんが、代わりにより大きなトレーニングデータセットを必要とします。

前述の GPT-3 や最近の PaLM モデルのような方法では、アノテーションされた例を自然言語プロンプトの一部として挿入し、言語モデル自体を微調整しません。これは、少数のショットの学習設定では非常にうまく機能しますが、利用可能なアノテーション済みの例のセットが大きい場合は、最適ではない可能性があります。これは、最大シーケンス長に達する前にプロンプトに挿入できる例の数はごくわずかであるためです。これにより、モデルの実行は数ショット学習のみに制限されます。

概要

この投稿では、事前トレーニング済みの言語モデルが解釈して完了するために、自然言語でタスクを直接指定することを含む、プロンプトベースのメソッドについて説明しました。

プロンプトは、注釈付きのトレーニング例がほとんどなく、強力なパフォーマンスを達成する上で多くの可能性を示しています。ただし、これらの手法は、多くの場合、手作業で設計されたプロンプトに依存しており、幻覚を起こしやすいため、実際の設定で使用するのは安全ではありません。したがって、これらの方法は有望であるように見えますが、それらを実用的に使用するために行われるべき研究はまだたくさんあります。

Communications Mining™ では、プロンプトによる方法を安全に使用し、正確な精度の推定を提供し、構造化された実用的なデータを生成するための研究を積極的に行っています。この研究の結果は近日中に発表されます。

会社で Communications Mining を試用したい場合は、無料トライアルに登録するか、デモをご覧ください。

背景
プロンプトベースの学習
プロンプトベースのメソッドを使用する必要がありますか?
概要

このページは役に立ちましたか?

前へ機械が単語を理解する方法:NLPに埋め込むためのガイド

次へ効率的な変圧器II:知識蒸留と微調整

Communications Mining ガイド

背景​​

プロンプトベースの学習​

プロンプトベースのメソッドを使用する必要がありますか?​

概要​​

このページは役に立ちましたか?

背景

プロンプトベースの学習

プロンプトベースのメソッドを使用する必要がありますか?

概要