RAGとファイン・チューニングの比較

共同執筆者

Staff writer

Staff Editor, AI Models

IBM Think

RAGとファイン・チューニングの比較

検索拡張生成（RAG）とファイン・チューニングは、企業が大規模言語モデル（LLM）からより多くの価値を引き出すために使用できる2つの手法です。どちらもLLMを特定のユースケースに合わせて調整することで機能しますが、その背後にある方法論は大きく異なります。

生成AIは登場以来長い道のりを歩んできましたが、ユーザーのクエリーに対してリアルタイムで自動応答を生成するというタスクは依然として大きな課題です。企業はコストを削減し、ワークフローを合理化し、競合他社に先んじるために、自社のプロセスに世代AIを組み込む競争を繰り広げていますが、チャットボットやその他のモデルで正確な回答を確実に生成することに苦労することがよくあります。

RAGとファイン・チューニングの違い

RAGとファイン・チューニングの違いは、RAGでは組織の独自のデータベースに接続することで自然言語処理（NLP）モデルを拡張するのに対し、ファイン・チューニングでは、ドメイン固有のタスク向けにディープラーニングモデルを最適化することです。RAGとファイン・チューニングの目的は同じです。つまり、モデルのパフォーマンスを向上させて、それを使用する企業の価値を最大化することです。

RAGは組織の内部データを活用して迅速なエンジニアリングを強化し、ファイン・チューニングによって重点的な外部データ・セットでモデルを再トレーニングしてパフォーマンスを向上させます。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

RAGとファイン・チューニングが重要な理由

RAGは、通常はアクセスできない現在のプライベート・データのストレージにLLMをつなぎます。RAGモデルは、内部データのコンテキストを追加することで、コンテキストがない場合よりも正確な回答を返すことができます。

ファイン・チューニングされたモデルは、通常、ドメイン固有のデータを使用してトレーニングを適用すると、GPT-3やGPT-4などの対応する基本モデルよりも優れたパフォーマンスを発揮します。ファイン・チューニングされたLLMは、特定のドメインとその用語をより深く理解し、正確な応答を生成できます。

一方、新しいデータに継続的にアクセスできない場合、大規模な言語モデルは停滞します。現代のLLMは、トレーニングに膨大なデータ・セットと計算リソースを必要とする大規模なニューラルネットワークです。Meta、Microsoft、OpenAIをはじめとする最大手のLLMベンダーでさえ、モデルを定期的に再トレーニングしているため、LLMはリリースされるとほぼ同時に既に時代遅れになります。

モデルが新しいデータから学習できない場合、多くの場合、ハルシネーションや作話が発生します。これは、生成AIモデルが明確に答えられない質問に対して答えを「作り上げる」ときに発生する現象です。生成AIモデルは、複雑な統計アルゴリズムを使用して、ユーザーのクエリに対する回答を予測します。ユーザーが、トレーニング用データ・セット内では簡単に見つけられない質問をした場合、AIは推測することになります。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

検索拡張生成（RAG）とは

RAGは、Meta AI社が2020年の論文「知識集約型タスクのための検索拡張生成」で導入したLLM最適化手法です。^[1]これは、LLMを組織の独自データに接続するデータ・アーキテクチャー・フレームワークであり、多くの場合、データ・レイクハウスに保存されます。これらの膨大なデータ・プラットフォームは動的であり、内部と外部のすべてのタッチポイントにわたって組織内を移動するすべてのデータが含まれています。

RAGの仕組み

検索拡張生成は、ユーザーのクエリーに関連する情報を内部データ・ソース内で見つけ、そのデータを使用してより正確な応答を生成するものです。より関連性の高い応答を「生成」できるようにすることで、LLM を「拡張」するためのデータ「取得」メカニズムが追加されました。

RAGモデルは、次の4段階のプロセスを通じて回答を生成します。

クエリー：ユーザーがクエリーを送信し、RAGシステムを初期化します。
情報検索：複雑なアルゴリズムにより、組織のナレッジベースをくまなく調べて関連情報を検索します。
統合：取得されたデータはユーザーのクエリーと結合され、RAGモデルに渡されて回答されます。この時点では、LLMはクエリーをまだ処理していません。
応答：取得したデータを独自のトレーニングおよび保存された知識と組み合わせることで、LLMはコンテキストに合わせて正確な応答を生成します。

内部ドキュメントを検索する場合、RAGシステムはセマンティック検索を使用します。ベクター・データベースは類似性に基づいてデータを整理するため、キーワードではなく意味による検索が可能になります。セマンティック検索技術により、RAGアルゴリズムは過去のキーワードからクエリーの意図に到達し、最も関連性の高いデータを返すことができます。

RAGシステムでは、広範なデータ・アーキテクチャーの構築と保守が欠かせません。データ・エンジニアは、組織のデータ・レイクハウスをLLMとつなげるために必要なデータ・パイプラインを構築する必要があります。

RAGを概念化するために、AIモデルをアマチュアの家庭料理人と想像してみてください。彼らは料理の基礎は知っていますが、特定の料理の訓練を受けたシェフの専門知識（組織独自のデータベース）が欠けています。RAGは、家庭料理人にその料理のレシピ本を提供するようなものです。料理に関する一般的な知識と料理本のレシピを組み合わせることで、家庭料理人は自分の好きな料理に特化した料理を簡単に作ることができます。

RAGデータ取得プロセス

RAGを効果的に使用するには、データ・エンジニアは一連の重要な基準を満たすデータ・ストレージ・システムとパイプラインを構築する必要があります。

エンタープライズ・データ・ストレージ

RAGシステムの機能を強化し、リアルタイムのデータ取得を可能にするには、データを綿密に整理し、維持する必要があります。最新のメタデータと最小限のデータ冗長性により、効果的なクエリーが保証されます。

ドキュメント・ストレージ

ドキュメントなどの非構造化データを小さな部分に分割すると、より効果的な検索が可能になります。このようにデータを「チャンク化」すると、ドキュメントの最も関連性の高い部分のみがLLMのプロンプトに含まれるようになるため、RAGシステムはコストを削減しながらより正確なデータを返すことができます。

次に、チャンクはベクター・データベースに埋め込まれます。これは、テキストを数字に変換するプロセスです。

データ保護

データ・パイプラインには、従業員がそれぞれの役割の範囲を超えてデータにアクセスできないようにするためのセキュリティー制限を設ける必要があります。また、EUのGDPRなどの画期的なプライバシー法の制定を受けて、組織はすべての内部データに厳格なデータ保護を適用する必要があります。個人を特定できる情報（PII）は、権限のないユーザーに決して公開してはなりません。

プロンプト・チューニング

RAGシステムは、ユーザーのクエリーとソース・データを組み合わせて、LLM向けにカスタマイズされたプロンプトを作成します。他の機械学習モデルによって促進される継続的なプロンプトチューニングプロセスにより、時間の経過とともにRAGシステムの質問応答能力を強化できます。

ファイン・チューニングとは

ファイン・チューニングとは、事前トレーニング済みのモデルを、より小規模で焦点を絞ったトレーニング用データ・セットで再トレーニングし、ドメイン固有の知識を付与するプロセスです。次に、モデルは、その動作を制御するガイドラインであるパラメーターと埋め込みを調整して、特定のデータ・セットに適合させます。

ファイン・チューニングの仕組み

ファイン・チューニングは、モデルをラベル付けされた例のデータ・セットに公開することによって機能します。モデルは、新しいデータに基づいてモデルの重みを更新するため、初期トレーニングよりも改善されます。ファイン・チューニングは教師あり学習手法で、トレーニングで使用されるデータが整理され、ラベル付けされることを意味します。対照的に、ほとんどの基本モデルは教師なし学習です。この学習ではデータは分類されず、モデルが独自にデータを分類する必要があります。

もう一度、生成AIモデルを家庭料理人に例えると、ファイン・チューニングは特定の料理を作るためのコースとなります。コースを受講する前に、家庭料理人は料理の基礎について大まかな理解をしておく必要があります。しかし、料理の訓練を受けて分野特有の知識を習得すれば、その種類の料理をもっと上手に作れるようになるでしょう。

完全なファイン・チューニングとパラメーター効率的なファイン・チューニングの比較

モデルは、すべてのパラメーターを更新する完全なファイン・チューニング、または最も関連性の高いパラメータのみを更新する方法でファイン・チューニングすることができます。この後者のプロセスは、パラメーター効率的なファイン・チューニング（PEFT）として知られており、トレーニング・コストを低く抑えながら、特定のドメインでモデルをより効果的にすることに優れています。

モデルのファイン・チューニングには大量の計算が必要で、LLM自体を保存するための大きなメモリー容量が必要であることは言うまでもなく、複数のパワフルなGPUを同時に実行する必要があります。PEFTを使用すると、LLMユーザーは、よりシンプルなハードウェア設定でモデルを再トレーニングしながら、顧客サポートや感情分析などのモデルの目的のユースケースで同等のパフォーマンス・アップグレードを実現できます。ファイン・チューニングは、モデルの予測と実際の現実世界の結果との間のギャップであるバイアスをモデルが克服するのに特に優れています。

ファイン・チューニングと継続的な事前トレーニングの比較

事前トレーニングはトレーニング・プロセスの最初に行われます。モデルの重みまたはパラメーターはランダムに初期化され、モデルは初期データ・セットでトレーニングを開始します。継続的な事前トレーニングでは、転移学習と呼ばれる手法で、トレーニング済みのモデルを新しいラベルなしデータ・セットに導入します。事前トレーニング済みのモデルは、これまでに学習した内容を新しい外部情報に「転送」します。

対照的に、ファイン・チューニングではラベル付けされたデータを使用して、選択したユースケースでのモデルのパフォーマンスを磨きます。ファイン・チューニングは特定のタスクにおけるモデルの専門知識を磨くのに優れており、継続的な事前トレーニングはモデルの領域の専門知識を深めることができます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

参考情報

CEOのための生成AI活用ガイド

生成AIが生み出しうる価値、AIに必要な投資、AIがもたらすリスクのバランスを、CEO（最高経営責任者）がどのように取ることができるかについて説明します。

生成AIのスキルを次のレベルに引き上げる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

AIの活用を本格化：生成AIでROI向上

AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。

AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデルのファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。

次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら

デモを予約

脚注

¹「Retrieval-Augmented Generation for Knowledge-Intensive NLP Task」、Lewis et al、2021年4月12日。