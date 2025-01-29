Think Newsletter
方向性刺激プロンプティング（DSP）とは、自然言語処理（NLP）における新しいプロンプト作成手法であり、モデルに指示的または構造化刺激を与えて、望ましいアウトプットを生成します。
one-shot、zero-shot、few-shotプロンプティングとは異なり、このアプローチでは、基準を設定したり指示を提供したりすることでモデルのアウトプットを直接制御できるという点で際立っています。このアプローチでは、誘導刺激が、特定の基準で定義されたラインに沿ったモデルの生成プロセスの制御メカニズムとして機能します。
方向性刺激プロンプティング（DSP）は、タスクが特定の応答セットを必要とする場合に有効で、文脈にほとんど依存せず、ラベル付きデータがない場合に役立ちます。
例えば、重要な情報を保持することが重要な要約タスクの場合、DSPではモデルが特定の方法で生成できるように導く指針を提供します。これにより、より正確で文脈に適した要約が全体的に生成されます。1
GPT-3、4、PaLMなどの大規模言語モデル（LLM）は、ユーザーがパラメーター、調整方法、意思決定プロセスなどの内部にアクセスできないため、一般的に「ブラックボックス」モデルと呼ばれます。
このようなやり取りは、基本的にアプリケーション・プログラミング・インターフェース（API）呼び出しを主要な入出力メカニズムとして使用するテキストプロンプトを介して行われます。これらのモデルは非常に優れていますが、タスクに特化した正確なアウトプットを生成する能力は、迅速な品質に大きく依存することがよくあります。2, 3
これにより、モデルの動作を誘導するターゲットを絞ったプロンプトを設計するプロンプト・エンジニアリングが重要になります。プロンプト・エンジニアリングに対する手動アプローチと自動化されたアプローチのどちらも、目覚ましい成功を収めています。それでいて、特に強力な制御や大量のインスタンス固有のアウトプットを必要とするタスクでも、苦難に直面することはありません。
例えば、要約や対話の生成などのタスクでは、重要な詳細を含めたり、厳密な推論パターンや所定のスタイルのガイドラインに準拠したりするなど、モデルがターゲットの動作に体系的に従うことが求められます。従来の技術では、こうした微妙な要件への一貫したコンプライアンスを保証するには十分ではないことがよくあります。
このギャップを埋めるために、方向性刺激プロンプティング（DSP）が登場します。DSPは小規模な補助ポリシー・モデルであり、LLMを決定に導くインスタンス固有の方向性刺激プロンプトを生成します。
発行されるプロンプトは、各インスタンスの特定のコンテキストに役立ち、より整合性の高い望ましいアウトプットを生成するようにLLMを誘導することが見られます。DSPをプロセスに接続することで、ユーザーはブラックボックスLLMの動作を修正し、精度が必要な作業の一貫性、関連性、精度を高める強力なツールを手に入れることができます。1
教師ありファイン・チューニング（SFT）を使用したポリシー・モデルのトレーニング
ポリシー・モデルをトレーニングするプロセスは、T5、GPT-2、またはその他の適切なLLMなどの事前トレーニングされたモデルに対する教師ありファイン・チューニング（SFT）から始まります。重要なアイデアは、LLMを直接変更するのではなく、方向性刺激を生成するトレーニング・データに対し、より小さなポリシー・モデルをファイン・チューニングすることです。
このプロセスは、より小規模なタスク固有のポリシー・モデルをファイン・チューニングすることで、大規模で複雑なモデルを直接トレーニングすることに伴う課題や計算コストを回避できるため、効率的です。
このポリシー・モデルをトレーニングするために、各インプットが擬似刺激と対になった小さなラベル付きデータセットが作成されます。これらの擬似刺激は、目の前のタスクに基づいて、LLMの応答を望ましい方向に導くように設計されています。
例えば、要約タスクでは、擬似刺激が参照要約から抽出されたキーワードまたはフレーズで構成される場合があります。同様に、対話生成タスクでは、リクエスト、質問、声明などの対話動作を擬似刺激として使用できます。
これらの刺激は、LLMのアウトプットをターゲットの動作に効果的に誘導するタスク固有のインプットを生成するために、ポリシー・モデルで使用するシグナルとして機能します。
大規模なLLMをゼロからトレーニングすることではなく、刺激を生成するために必要な知識をポリシー言語モデルに提供することに重点を置いているため、SFTに使用されるラベル付きデータセットは比較的小規模かもしれません。これにより、SFTは、タスク固有の要件に関する基礎知識を使用してポリシー・モデルをBootstrappingする参考情報効率の高い方法になります。4
強化学習（RL）による改良
SFTによる最初のファイン・チューニングの後、ポリシー・モデルは強化学習（RL）を通じて最適化されます。RLにより、ポリシー・モデルでは、より高品質なLLMアウトプットにつながる刺激を生成する能力を調査し、改良することができます。この段階で中心となる考え方は、報酬関数を使用して、生成された刺激の有効性を評価することです。
例えば、要約タスクでは、報酬関数は、生成された要約の品質を比較して測定するROUGEやBLEUスコアなどのメトリクスに基づくことができます。
DSPでは、LLMではなくポリシー・モデルのトレーニングに重点を置くことで、ブラックボックス・モデルのファイン・チューニングに伴う課題を克服し、より効率的でスケーラブルな方法を実現します。
図1：DSPフレームワークのアーキテクチャー
方向性刺激プロンプティングには、注目すべき利点といくつかの課題があり、魅力的でありながら複雑な手法となっています。ここでは、その長所と短所を詳しく見ていきます。5
長所：
標的を絞った注意メカニズム：DSPの標的を絞った注意メカニズムでは、関連するトークンや情報を強調し、重要なコンポーネントに処理を集中させることで精度と効率を向上させます。
リソース使用量の最適化：関連する刺激に集中することにより、方向性刺激プロンプティングによってデータセット要件が削減され、処理時間が短縮され、計算コストが削減されます。
精度の向上：最も関連性の高い入力トークンを分離して強調することにより、方向性刺激プロンプティングでは言語モデルの応答と解釈の精度を向上させます。
適応性：このアプローチは、テキスト生成からセンチメント分析まで、さまざまな言語タスクに合わせてカスタマイズでき、さまざまな自然言語処理アプリケーション間で汎用性を提供します。
短所：
正確な手がかりへの依存：方向性刺激プロンプティングの成功は正確な刺激に大きく依存しているため、複雑でノイズの多い環境での達成は困難な場合があります。コンテキストや刺激が大きく変化すると、この方法の有効性が低下し、信頼性が低下する可能性があります。
構成の複雑さ：方向性刺激のセットアップには慎重な設計と調整が必要であり、初期構成プロセスがより複雑になる可能性があります。
限定的な一般化：異なる信号タイプや予期しない入力バリエーション間で一般化できる能力は限られており、より広範な文脈での適用可能性は制限されます。
方向性刺激プロンプティング（DSP）は、さまざまなNLPタスクで大きな可能性を示し、モデルを効果的に導き、パフォーマンスを向上させることができます。
要約：DSPは、より密接に参照要約に合わせた必要な要約を作成するために使用されます。CNN/Daily Mailデータセットからわずか4,000サンプルの小規模データセットを使用した実験結果では、DSPはROUGEやBLEU、人間の嗜好スコアを含むその他の指標などのベンチマーク・パフォーマンスを4～13％向上させ、一部の完全な教師ありモデルを上回りました。6
対話の応答生成：タスク指向の対話生成において、DSPはChatGPTを支援し、より正確で適切な応答を生成しました。例えば、MultiWOZデータセットのわずか80の対話で、DSPでは41.4%のパフォーマンス向上を達成し、より大規模なデータセットでトレーニングされたいくつかの最先端モデル（ChatGPT、Codex、InstructGPTなど）を上回りました。7
思考の連鎖による推論：DSPでは、人間が設計した、および自動的に生成されたタスク固有のプロンプトよりも優れたパフォーマンスを発揮するインスタンス固有のプロンプトを生成することで、思考の連鎖による推論を強化し、推論の精度を向上させます。これらのサンプルでは、DSPによりどのようにターゲットを絞ったガイダンスを提供し、さまざまなNLPアプリケーションにわたってモデルのパフォーマンスを向上させることができるかを示しています。8
