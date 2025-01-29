教師ありファイン・チューニング（SFT）を使用したポリシー・モデルのトレーニング

ポリシー・モデルをトレーニングするプロセスは、T5、GPT-2、またはその他の適切なLLMなどの事前トレーニングされたモデルに対する教師ありファイン・チューニング（SFT）から始まります。重要なアイデアは、LLMを直接変更するのではなく、方向性刺激を生成するトレーニング・データに対し、より小さなポリシー・モデルをファイン・チューニングすることです。

このプロセスは、より小規模なタスク固有のポリシー・モデルをファイン・チューニングすることで、大規模で複雑なモデルを直接トレーニングすることに伴う課題や計算コストを回避できるため、効率的です。

このポリシー・モデルをトレーニングするために、各インプットが擬似刺激と対になった小さなラベル付きデータセットが作成されます。これらの擬似刺激は、目の前のタスクに基づいて、LLMの応答を望ましい方向に導くように設計されています。

例えば、要約タスクでは、擬似刺激が参照要約から抽出されたキーワードまたはフレーズで構成される場合があります。同様に、対話生成タスクでは、リクエスト、質問、声明などの対話動作を擬似刺激として使用できます。

これらの刺激は、LLMのアウトプットをターゲットの動作に効果的に誘導するタスク固有のインプットを生成するために、ポリシー・モデルで使用するシグナルとして機能します。

大規模なLLMをゼロからトレーニングすることではなく、刺激を生成するために必要な知識をポリシー言語モデルに提供することに重点を置いているため、SFTに使用されるラベル付きデータセットは比較的小規模かもしれません。これにより、SFTは、タスク固有の要件に関する基礎知識を使用してポリシー・モデルをBootstrappingする参考情報効率の高い方法になります。4