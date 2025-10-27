プロンプト・チューニングの仕組みとメリットを明確に説明するセンチメント分析タスクについて説明します。映画のレビューを「肯定的」または「否定的」に分類するために、1,750億のパラメーター・モデルを適応させることが目標だと仮定します。完全なファイン・チューニング・アプローチでは、法外な費用と時間がかかります。プロンプト・チューニングの場合、プロセスは次のようになります。



凍結した事前トレーニング済みモデルから開始：1,750億のパラメーターのバックボーンは完全に変更されていないため、事前トレーニング中に学習された一般知識の膨大なリポジトリーが保持されます。5



ソフト・プロンプトを追加：トレーニング可能な小規模なベクトル・セット（例：20の仮想トークン）が、すべての映画レビューのインプットの埋め込みに追加されます。これらのベクトルは人間が読み取れるテキストではありません。これらは、モデルの語彙と同じ高次元空間（例えば、この規模のモデルなら12,288次元空間）に存在する連続した埋め込みです。最適化によって、これらのベクトルは、モデルの行動を制御する連続的でタスクに特化した信号をエンコードするように学習します。



インプットをフィード：例えば、

[Soft Prompts] The movie was absolutely fantastic!

この例では、センチメント分析タスクのために20個のソフト・プロンプト・トークンを初期化するとします。トレーニング後、インプットは内部的に次のようになります。

[<v1>, <v2>, <v3>, ... <v20>, The, movie, was, absolutely, fantastic, !]

ここで、各v1は学習された高次元プロンプト・ベクトルです。学習の目標は、凍結モデルが後続のテキストのセンチメントを正しく分類するよう導くベクトルの最適値を見つけることです。



ソフト・プロンプトのみをトレーニング：映画レビューのラベル付きデータセットを使用して、トレーニング・プロセスを開始します。バックプロパゲーションを通じて、誤差勾配が計算されますが、最適化ステップではソフト・プロンプト埋め込みのパラメーターのみが更新されます。このアプローチでは、モデルの1,750億の重みではなく、数千のパラメーターのみをチューニングします。5



モジュール方式でデプロイ：トレーニングが完了すると、結果として得られる20個のベクトルのセットが、タスク固有の適応全体を構成します。同じベース・モデルをスパム検知などの別のタスクに適応させるには、スパム・データセットで新しいソフト・プロンプトのセットをトレーニングし、推論時にそれらを交換するだけです。



この手法は、効率性に関して大きなメリットをもたらします。各タスクのモデルの完全なコピーを個別に保管する代わりに（1,750億のパラメーター・モデルでは最大350GBが必要）タスク固有のプロンプト・パラメーターを保管する必要がありますが、そのサイズはわずか数KBです。1このモジュール性により、プロンプト・チューニングは、大規模なモデル適応のための実用的で費用対効果の高いソリューションになります。2