LLMのカスタマイズとは

執筆者

Staff writer

Staff Editor, AI Models

IBM Think

LLMのカスタマイズとは

LLMカスタマイズ、すなわち大規模言語モデルのカスタマイズとは、事前学習済みのLLMを特定のタスクに適応させるプロセスです。LLMのカスタマイズ・プロセスでは、事前学習済みモデル（基盤モデルとも呼ばれる）を選択し、その後、モデルを想定されるユースケースに合わせて調整します。

LLMカスタマイズのワークフロー

カスタムLLMを作成するプロセスは、汎用モデルをより特定のコンテキストに適用できるように設計されています。LLMをカスタマイズする方法はいくつかありますが、一般的なプロセスは類似した一連の手順に従う傾向があります。

データ準備： 最適なモデル性能は、質の高いトレーニング・データにかかっています。モデルの作成者やデータサイエンティストは、モデルの目的に関連するドメイン固有のトレーニング・データセットを収集、構築する必要があります。高品質なデータを基盤として活用することで、モデルの応答はより正確で有用になる可能性が高まります。
モデル選択：LLMのリストは、多種多様で数も非常に多くあります。AIモデルは、規模、有効性、計算リソースの使用量、アーキテクチャーがそれぞれ異なり、これらすべてが性能に影響します。適切なモデルを選択するには、機械学習プロジェクトの目標と制約の両方を理解する必要があります。
モデル・カスタマイズ：ここでは、機械学習の専門家が基盤モデルを特化型のツールへと変換します。モデルのアウトプットは、特定の下流タスクに合わせて調整されます。開発者は、基盤モデルの仕組みと選択したカスタマイズ手法を理解することで、モデルの動作を適切に最適化することができます。
反復：MLアルゴリズムは、大きな調整を一度に行うよりも、段階的なプロセスでトレーニングした方が最良の結果を発揮します。開発者は各ステップでカスタマイズ手法の効果を測定し、その結果を次の反復に反映させることができます。
テスト：トレーニング完了後、実運用前に、モデルの信頼性の高いパフォーマンスが確認されます。開発者は、モデルの適応が効果的であること、そしてモデルが新たに獲得した特定の知識を、壊滅的忘却を起こすことなく適用できることを確認します。
モデルのデプロイ：カスタムモデルは、AIを活用したソフトウェア・アプリケーションやAPIなどの本番環境にデプロイされ、実世界の特定のユースケースで利用可能になります。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

LLMカスタマイズ手法

ユースケースや求められる出力に応じて、開発者や機械学習の専門家は、さまざまなLLMカスタマイズ手法の中から選択します。すべてのタイプのLLMカスタマイズは、生成AIモデルのパフォーマンスを特定の下流タスクに合わせて調整することができます。

LLMのカスタマイズ手法には、次のようなものがあります。

検索拡張生成（RAG）

検索拡張生成（RAG）は、LLMを外部データソースと接続し、その知識ベースを拡張します。ユーザーがクエリーを送信すると、RAGシステムは接続されたデータベースを検索して関連情報を取得し、それをクエリーと組み合わせてLLMに追加のコンテキストを与え、応答を生成します。

RAGは埋め込みを使用して、データベース、ソースコード、その他の情報を検索可能なベクトル・データベースに変換します。埋め込みは、各データ・ポイントを数理的に三次元のベクトル空間にプロットします。関連データを見つけるために、RAGシステムの情報検索モデルはユーザーのクエリーを埋め込みに変換し、ベクトル・データベース内で類似した埋め込みを特定します。

RAGシステムは、通常次の標準的な手順に従います。

プロンプト入力： ユーザーは、AIを活用したチャットボットなどのユーザー・インターフェースにプロンプトを入力します。
クエリー処理：情報検索モデルがプロンプトを埋め込みに変換し、データベースに対して類似データを検索します。
検索： 検索モデルがデータベースから関連データを取得します。
生成：RAGシステムは取得したデータをユーザーのクエリーと組み合わせてLLMに入力し、応答を生成します。
応答の提供：RAGシステムは生成された応答をユーザーに返します。

RAGという名称は、RAGシステムが関連データを検索（Retrieve）し、それを用いてLLMの生成（Generate）応答を拡張（Augment）する仕組みに由来しています。より複雑なRAGシステムでは、プロセスを洗練させ、応答品質をさらに向上させるために追加のコンポーネントが導入されます。

RAGメリット

LLMにドメイン固有の知識へのアクセス権を与えることで、そのデータを応答生成プロセスに組み込むことができます。これは、外部データがすでに利用可能で機械学習に適している場合、特に大きなコスト投資をせずにAIソリューションの精度と信頼性を向上させることができます。

例えば、質問応答用に設計されたRAGモデルは、リンクされたナレッジベースから正しい答えを見つけられる場合、より適切な回答を返すことができます。

小規模なモデルでもRAGを活用することで、より高いレベルでの性能を発揮できるようになります。スモール言語モデル（SLM）は、計算要件が低く、トレーニング時間が短く、推論時のレイテンシーも少ないという特長があります。SLMを中心にRAGシステムを構築することで、これらのメリットを維持しつつ、RAGが提供するより高い文脈依存の精度を活用できます。

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

エピソードに移動

ファイン・チューニング

LLMのファイン・チューニングとは、その挙動を制御する内部設定を反復的に調整することを指します。これらの設定はモデル・パラメーターまたは重みと呼ばれ、モデルがデータを処理・評価する方法を制御します。

トレーニング中、モデルの学習アルゴリズムはパラメーターを調整し、最適なパフォーマンスに達するまでトレーニングを進めます。その時点で、トレーニング・プロセスは正常に完了したと見なされます。

高度なLLM、特にOpenAIのGPTやMetaのLlama 2といったTransformerでは、パラメーター数が数十億に及ぶことがあります。これらのモデルは非常に大規模であるため、完全なファイン・チューニングは多大なコストと時間を要し、現実的でない場合が多くあります。

より精緻なファイン・チューニング手法では、モデルの一部のパラメーターを調整したり新たに追加したりすることで、トレーニングで得られた性能を維持しつつ、特定タスクへの適応力を高めることを目指します。

代表的なファイン・チューニング手法には、次のようなものがあります。

パラメーター効率的なファイン・チューニング（PEFT）

PEFTは、事前学習済みモデルの大部分のパラメーターを固定し、新しいタスクに最も関連するパラメーターの調整に注力します。その結果、完全なファイン・チューニングと比べてはるかに少ない計算リソースで済みます。PEFTは幅広い分野であり、多くの実装があります。

転移学習

転移学習は、事前学習済みモデルの知識を新しいタスクに活用し、既に習得している内容を新たなコンテキストに適用します。新しいタスクが元のタスクに関連している場合に最も効果的に機能し、例えば分類器を用いて新しいカテゴリやオブジェクトの種類を認識・分類するようなケースが挙げられます。

この例で適用されている転移学習のタイプはマルチタスク学習と呼ばれ、モデルが複数のタスクを同時にファイン・チューニングされます。ここでは、新しいタスクとしてオブジェクト認識と分類が設定されています。

Low-rank adaptation（LoRA）

Low-rank adaptation（LoRA）は、事前学習済みモデルに補助的なパラメーターを追加してファイン・チューニングを行うモジュール型の手法です。LoRAでは、事前学習済みモデルのパラメーターを固定し、低ランク行列と呼ばれる補助を追加して、モデルの応答を特定のユースケースやタスクの要件に合わせて調整します。

LoRAを、かぶると特定のスキルを発揮できる魔法の帽子のようなものだと考えてみてください。魔法のシェフ帽をかぶれば、五つ星レベルの料理を作ることができます。魔法のヘルメットをかぶれば、家を建てることができます。魔法のオートバイ用ヘルメットをかぶれば、有名なオートバイのロードレースであるマン島TTで優勝することができます。魔法の野球帽をかぶれば、決勝点を打つことができます。

人間のフィードバックからの強化学習（RLHF）

人間のフィードバックによる強化学習（RLHF）は、報酬モデルを組み合わせて活用し、事前学習済みモデルを複雑かつ主観的なタスクに合わせてファイン・チューニングします。MLモデルは文章が感情を喚起するかどうかを判断できませんが、人間にはそれができ、人間は自身の嗜好をモデルに学習させて模倣させることができます。

RLHFでは、人間が新しいタスクに対して報酬モデルをトレーニングします。報酬モデルの役割は、与えられた入力に対して人間がどのように反応するかを正しく予測することです。標準的なモデル・トレーニングが誤りにペナルティーを課すのに対し、報酬トレーニングは良好な性能にインセンティブを与えます。

その後、報酬モデルは人間のトレーナーの嗜好に基づいて、基盤モデルにどのように振る舞うべきかを教えます。報酬モデルがトレーニングされると、人間をループ（HITL）に介在させることなく、基盤モデルをトレーニングできるようになります。

すべての機械学習タイプに共通するように、モデルは批判的に考えているわけでも、そもそも考えているわけでもありません。むしろ、モデルは数学的に、トレーナーである人間の好みに最も合致する結果を選択しているにすぎません。

継続的なファイン・チューニング（CFT）

継続的ファイン・チューニング（CFT）は、モデルを新しいタスクに逐次適応させる継続学習の一種です。インストラクション・チューニング（指示入力と関連出力のラベル付きペアを用いたモデル・トレーニング）を活用することで、モデルはダウンストリーム・タスクに向けてより広範なデータセットに適応します。CFTは、異なるデータ分布に対して同じタスクを実行できるようモデルを学習させることがよくあります。

あらゆる種類の継続学習に共通するリスクのひとつが破滅的忘却です。これは、新しいタスクに適応した結果、モデルが従来のタスクを実行する能力を失ってしまう現象を指します。幸いなことに、機械学習研究者は、継続学習を進める中で開発者が破滅的忘却を回避できるよう、いくつかの緩和手法を開発しています。

ファイン・チューニングのメリット

ファイン・チューニングは、新しいモデルを開発するコストを回避しながら、モデルを新たなユースケースに適応させます。多くの種類のファイン・チューニングは、ごく一部のパラメーターだけを調整することで、さらに効率を高めます。ファイン・チューニングは、モデルをゼロからトレーニングするのに十分なデータがない状況でも威力を発揮します。

プロンプト・エンジニアリング

インコンテキスト学習またはプロンプトベース学習とも呼ばれるプロンプト・エンジニアリングは、プロンプトに関連情報を含めることで、LLMがより優れた応答を生成できるようにする手法です。推論時、つまりモデルがユーザーのプロンプトに応答する際には、ユーザーが通常、明示的な指示や例を与えます。

例えば、テキスト要約を行うよう求められたモデルは、要約をどのように整形するかを示したプロンプト（例えば箇条書き形式など）を与えられることで精度が高まります。より包括的なプロンプトは、ユーザーが期待する形式の応答をモデルから得やすくします。

ディープラーニング研究者は、さまざまな種類のプロンプト・エンジニアリング手法を開発しています。画期的な開発例としては、次のようなものがあります。

few-shotプロンプティング：モデルに少数の出力例（ショットと呼ばれる）を提示し、それに倣って応答を生成します。モデルは提示された例に従い、ユーザーがプロンプト内で与えたショットを基に回答を生成します。
Chain-of-thought（CoT）プロンプティング：モデルが従うべき段階的な推論手順をプロンプトに含めます。モデルは、ユーザーが提示したCoTに従って応答を構築します。CoTプロンプティングは、LLMがどのように応答を生成するかについて熟練した理解を必要とする高度な手法です。

プロンプト・エンジニアリングのメリット

多くのLLMカスタマイズ手法と異なり、プロンプト・エンジニアリングには追加のコーディングや開発が必要ありません。その代わりに、プロンプト・エンジニアはLLMが導入されるコンテキストに精通している必要があり、その知識を基に効果的で的確なプロンプトを作成しなければなりません。

正しく実装すれば、プロンプト・エンジニアリングは有用な自然言語処理（NLP）手法となり、特に人工知能（AI）の初心者でもLLMをカスタマイズできるようになります。オープンソースLLMやオープンソースAIツールの広範な利用可能性とあわせて、プロンプト・エンジニアリングは機械学習への身近な入り口であり、試行や好奇心、粘り強い取り組みが成果につながる分野です。