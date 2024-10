ほとんどのファインチューニング手法と同様、インストラクション・チューニングの有用性は、事前トレーニング済みLLMが対話や指示追従性に向けて最適化されていないという事実にあります。文字通りの意味だと、LLMはプロンプトに応答するわけではなく、テキストをアペンドするだけです。インストラクション・チューニングは、そのアペンドされたテキストをより有用なものにするための助けとなります。

自己回帰言語モデル(MetaのLlama 2、OpenAIのGPT、GoogleのGemini、IBMのGraniteなど、テキスト生成に使用されるLLM)の事前トレーニング プロセスでは、こうしたLLMを最適化して、与えられたシーケンスで次に来る単語だけを、そのシーケンスが終わるまで予測します。

LLMは、膨大なコーパスに書き込まれたコンテンツで、自己教師あり学習を使用して事前トレーニングされます。事前トレーニングでは、自己回帰モデルにテキスト・サンプルの先頭が入力され、シーケンスで次に来る単語を予測するタスクが、引用部分の終わりまで繰り返し実行されます。予測ごとに、元のサンプル文で実際に次に来る単語が「グランド・トゥルース」となります。モデルパラメーター(ニューラル・ネットワークの各ノードで発生する数学的演算に適用されるさまざまな重みとバイアス)を反復的に調整する勾配降下法などの最適化アルゴリズムを通じて、モデルの予測を元のテキストに近づけるようにすることで、モデルでは、そのトレーニングデータにある言語パターン(ひいては、それらの言語パターンで伝えられる「ナレッジ」)を「学習」します。

この事前トレーニング・プロセスにより、言語的に一貫性のあるテキストを生成するという優れた能力が与えられますが、モデルのパフォーマンスを必ずしも人間のユーザーの実際のニーズに合わせることはありません。ファインチューニングをしない基本モデルからは、「teach me how to bake bread(パンの焼き方を教えてください)」というプロンプトに対し「in a home oven(家庭用オーブンで)」という応答が返ってくるかもしれないのです。これは文法的に正しい方法で作られた文ですが、ユーザーが望んでいたものではありません。

それにもかかわらず、LLMを特定の目的(指示に従うなど)に向けて事前トレーニングすることは非現実的です。「大規模言語モデル」の「大規模」とは、そのモデルのパラメーターがしばしば数十億個単位になるという事実をいうものです。そうした巨大なモデルをゼロからトレーニングするのに伴うエネルギー、時間、計算リソース、トレーニング・データの量は膨大なものになります。逆に、トレーニング済みLLMをファインチューニングするのに要するデータははるかに少なく、特にパラメーター効率的なファインチューニング(PEFT)手法(部分的なファインチューニングや低ランク適応(LoRA)など)を使用する場合に占めるのは計算需要のほんの一部です。

ファインチューニングは、強化学習、半教師あり学習、追加的な自己教師あり学習など、ほぼすべての機械学習パラダイムで実現できますが、インストラクション・チューニングには、ラベル付き(インプット、アウトプット)ペアに対する教師あり学習が伴います。インストラクション・チューニングと他の形式の教師ありファインチューニング(SFT)とを区別するのは、インストラクション・データ・セットのインプットサンプル全体を構成するのが、ユーザーがプロンプトで行う可能性のある要求に似せたタスクばかりである、ということです。アウトプットでは、その要求に対して望まれている応答を示します。モデルの重みを調整して、LLMのアウトプットをインストラクション・データセットにあるサンプルに似せるようにする中で、LLMでは、「teach me how to bake bread(パンの焼き方を教えてください)」というようなプロンプトに対する応答にパンを焼くための実際的なアドバイスを含むテキストをアペンドするよう「学習」します。

したがって、インストラクション・チューニングは、モデルの基本的な目的(次に来る単語の予測)と、モデルには特定のタスクを指示に従って実行してもらうというユーザーの目標との間のギャップを埋めるのに役立ちます。これで、モデルの振る舞いがより有用で予測可能なものとなるのです。