LLMアライメントとは

By Dave Bergmann

LLMアライメント、説明

LLMアライメントとは、大規模言語モデル（LLM）のアウトプットがユーザー、開発者、そして社会全体にとって有益な形で人間の価値観と整合していることを保証する分野です。この目標を達成するために、さまざまな事前トレーニングやファイン・チューニングの手法を使用できます。

「人間的価値観」は抽象的で曖昧な概念であるため、整合性の目標を体系的に明確化し定義することは、整合性プロセスにおいて最も難しい側面の1つです。大まかに言えば、ほとんどの取り組みは、2021年にAnthropicが概説した「HHH」基準（有用性、誠実性、無害性）のいずれかのバージョンを追求しています。¹

エージェント型AIや現代の人工知能におけるLLMの中心性を考えると、LLMの適切な整合性はAIの安全性の重要な要素となっています。短期的には、LLMの整合性は、LLMベースのAIシステムが予測可能で、信頼性が高く、責任ある動作をするのに役立ちます。長期的には、LLMアライメント（そして一般的にはAIアライメント）は、汎用人工知能（AGI）や超知能人工知能（ASI）の仮説的な開発に伴う存亡の危機を回避するため、あるいは少なくとも最小限に抑えるために不可欠です。

LLMに整合性が必要な理由

LLMは非常に有用ですが、その使用には倫理的および社会的リスクが伴います。これらのリスクは設計の不備や開発者のミスによるものではなく、人間の本性とLLMのトレーニング方法の両方に起因する根本的な結果です。

LLMは、大量のラベル付けされていないテキスト・サンプルに対する自己教師付き事前学習を通じて、要となる知識と言語能力を獲得します。LLMは、トレーニング・データに含まれる何十億もの文からパターンを「学習」することで、それらのパターンに従った文法的に一貫性のあるテキストを生成できます。

しかし、そうすることで、それらのモデルのアウトプットは、そのトレーニング・データ・セットに存在する有害なコンテンツも再現する可能性があります。トレーニング・データにバイアス、不正確さ、有害なコンテンツ、差別的な見解が含まれている場合、LLMが生成するテキストにも同様に含まれます。インターネットを無差別にスクレイピングして収集したトレーニング・データに個人情報や機密情報が含まれている場合、LLMはその情報を漏洩する可能性があります。一般に、LLMがアウトプットを生成する方法の確率的な性質により、有害なAIハルシネーションが発生する可能性があります。

LLMを悪用する可能性によって、さらなるリスクがもたらされます。トレーニング・データに武器の製造や危険な化学物質に関する情報が含まれていれば、LLMは個人が他の人に危害を加えることを助長してしまう可能性があります。ガードレールがなければ、LLMを使用して危険な（しかし説得力のある）誤情報を生成する可能性があります。最も極端な仮説シナリオでは、AIモデルのアラインメントがずれていると、理論的には核戦争が引き起こされる可能性があります。

整合性の問題は、予期せぬ形で発生する可能性があります。AIに関する有名な思考実験に、哲学者のNick Bostromの「ペーパークリップ・マキシマイザー」シナリオがあります。Bostromは、ペーパークリップ製造を任務とする人工超知能が、その目標を達成する最善の方法は「まず地球全体、そして徐々に宇宙空間をペーパークリップ製造施設に変えていくこと」だと判断したと述べています。²

LLMアライメントという分野は、これらのリスクを十分に軽減し、現実世界での実用性と継続的な進歩に安全にするための試みとして生まれました。LLMが私たちの日常生活に深く組み込まれるほど、人間の利益との潜在的な不一致を理解し、説明することがより重要になります。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

AIアライメントの種類

アライメント手法は、主にトレーニング・プロセスのどの段階で実装されるかによって、3つのカテゴリに分類できます。

外部アライメント手法は、事前トレーニング済み（多くの場合、既にある程度のファイン・チューニングが行われた）モデルをファイン・チューニングすることを目的としています。

内部アライメント手法は、人間の価値観やその他の安全原則をモデルの初期の事前トレーニングに直接組み込むことを目的としています。

機械論的解釈可能性とは、LLM のニューラル・ネットワークの内部動作の分析や、不整合な応答を生成するパターンのモデル・アウトプットの監査を通じて、LLM がどのようにインプットをアウトプットに変換するかを研究する手法です。

外部アライメント

今日のLLMアライメントのほとんどは、外部アライメントにに依存しています。外部アライメントとは、ベース・モデルが事前学習データから学習した誤ったアライメント動作を修正、抑制、または打ち消すためのファイン・チューニング手法です。

外部アライメントは通常、基本的な教師ありファイン・チューニングとインストラクション・チューニングの後の、ファイン・チューニングの最終段階の1つとして実行されます。これは、整合性の問題があっても、モデルが使用する価値のある十分な能力を発揮することを保証するため、また、その後のトレーニングを継続することで整合性の進行状況を元に戻さないようにするために必要です。

システム・プロンプトは、整列した行動を導くことができますが、モデルの「恒久的」な部分ではないため、回避されることが多くあります。理想的な例を模倣するようにモデルをトレーニングする従来の教師あり学習は、あまり網羅的ではなく、柔軟でもありません。そのため、多くの著名なアウター・アライメント手法は、オープンエンドな目標や試行錯誤による学習に有効な強化学習を中心に構築されています。

事前トレーニングから学習されたLLMの動作と比較すると、外部アライメントのみから学習された動作は、浅く脆弱である可能性があります。外部アライメントというのは、結局のところ、ベース・モデルの核となる傾向の上に重ねられた、薄い検知層に過ぎません。2025年後半のある論文では、「事後的なアライメント手法は学習解除にはあたりません」と説明されています。³研究では、少量の敵対的ファイン・チューニングで外部アライメントを克服できることが実証されています。⁴Primary School Math 8K（GSM8K）のようなまったく無害なデータ・セットで過去に整合されたモデルをファイン・チューニングしても、LLMのアライメントが大幅に劣化する可能性があります。⁵

内部アライメント

誤整合されたベース・モデルの修正を目的とする外部アライメントとは対照的に、内部アライメントは、整合されたベース・モデルが得られるような方法で事前学習を行います。少なくとも理論的には、内部アライメントは外部アライメントよりも根本的に堅牢です。つまり、モデルが学習した不整合な動作を回避するのではなく、モデルがそれらの動作をまったく学習しないようにします。内部アライメントと外部アライメントは相互に排他的ではありませんが、表面的には、徹底的な外部アライメントの必要性が低くなります。

実際には、内部アライメントはより困難です。これには、文字どおり数十億の個別のテキスト・サンプルの検査、整合性の低いコンテンツを定義および特定するための基準、およびデータ・セットから修正または消去するためのスキーマが必要です。ロジスティクスの負担を無視しても、LLMが学習できるトレーニング・データの量を減らすと、パフォーマンスを最大化するという課題が増大します。とはいえ、それは明らかに可能です。たとえば、IBM Graniteモデルは、完全に企業が安全なデータに基づいてトレーニングされています。

LLMの内部アライメントに関する研究は、外部アライメントの研究と比べて初期段階にあります。LLMの動作を整合することと、LLMの純能力を追求することの間の最適なトレードオフは、現在進行中の調査の中心的な関心事です。

メカニズム的解釈可能性

機械論的解釈可能性は、LLMアライメントを直接達成することではなく、整合性を改善する機会と、整合手法が考慮すべき脆弱性を特定することを目的としています。

例えば、2024年の論文では、アラインメントされたLLMのNeural Networkが、有害かつ安全であるとみなされるプロンプトへの回答を拒否するときの、内部の仕組みを調査しました。研究者らは、13の異なるLLMにおいて、拒否は非常に具体的でシンプルかつ一貫した有効化パターンによって引き起こされることを発見しました。その後、その有効化パターンに対抗し、モデルが有害なインプットを拒否するのを防ぐことが比較的簡単であることを証明し、外側調整手法の大きな脆弱性を明らかにしました。⁶この脱獄テクニックは、現在では一般的に「abliteration」と呼ばれています。

一部のアプローチは、解釈可能性をモデルのアーキテクチャーに直接組み込むことを目指しています。例えば、 Guide Labsの実験的なLLMアーキテクチャーは、モデルのアーキテクチャーに「コンセプトモジュール」を追加しました。事前トレーニング中、LLMが処理するすべてのトークンはその概念モジュールを通過するように強制されました。この概念モジュールでは、モデルが学習した特定の「概念」に従って、そのトークンの埋め込みにラベルを付けるようにトレーニングされます。これらの概念は、既知（トレーニングデータで直接伝えられるアイデア）、発見された（モデルが独自に暗黙的に学習したアイデア）、残余（その他すべて）のカテゴリーに分類されます。これにより、研究者は特定のアウトプットに影響を与えた概念（ひいては、どのトレーニング・データ）を特定するだけでなく、特定の概念を無視したり優先したりするように指示することで、モデルのアウトプットを制御することもできます。

メカニズムの解釈可能性には、モデルの内部の数学的論理だけに焦点を当てるのではなく、モデルのアウトプットの体系的な分析も含まれます。これは、最初のプロンプトに対する最終的な応答を生成する前に、言語化された「思考プロセス」をアウトプットしようとする推論モデルの理解に特に関連しています。ある注目すべき研究で、人類学の研究者たちは、推論モデルが思考の連鎖を言語化する際に必ずしも「正直」ではないことを発見しました。これは、整合性を評価する上で重大な意味を持つ可能性があります。

AI Academy

AIの未来に向けたセキュリティーとガバナンスの一元化

このAI Academyのエピソードでは、今日の最新トレンドであるエージェント型AIをベースにしながら、リスクと保証に関するリーダーが、ガバナンスとセキュリティの間で経験する綱引きについて探ります。重要なのは、バランスを確立し、双方の効果的な業務関係を優先することです。それにより、組織は拡張可能で、より優れた、より信頼できるデータとAIを実現できます。

エピソードに移動

外部アライメント手法

外部アライメントは主に（ただしそれだけではありません）トレーニング済みのLLMをファイン・チューニングして整合性を改善することに重点を置いています。

システム・プロンプト

システム・プロンプトは、LLMベースのAIシステムの一般的な要素です。システム・プロンプトには、基本的にモデルが受信する各プロンプトに追加のコンテキストとして追加される命令が含まれます。したがって、システム・プロンプトにアライメント・ベースの指示を含めると、LLMの動作をプロンプトごとにガイドできます。2025年、Anthropic社のClaude AIのシステム・プロンプトの長さが16,000語を超えるという報告が広まりました。⁷

システム・プロンプトは、整合性を改善する軽量で簡単な方法ですが、ファイン・チューニング・アプローチと比較すると大きな制限があります。

オープンソース・モデル（またはチャットボット・サービスではなくAPIを通じて運用されるクローズド・ソースモデル）のシステム・プロンプトは、ユーザーが適切と考えるように手動で設定することができます。整合性のメリットを一切考慮せずに、単にシステム・プロンプトを作成するのは簡単なことです。

システム・プロンプトは、プロンプト・インジェクション攻撃に対して脆弱です。

モデルが大規模な命令チューニングを行ったとしても、モデルがシステム・プロンプトで提供された命令に常に（または完全に）従うという保証はありません。交換のコンテキストの長さが長くなるほど、システム・プロンプトがモデル・アウトプットに与える影響が減少するリスクが大きくなります。

教師ありファイン・チューニング（SFT）

教師ありファイン・チューニング（SFT）は、ラベル付き(input, output) データ・ペアのデータ・セットでLLMをファイン・チューニングし、各input はサンプル・プロンプトであり、対応するoutput は適切に調整された、高品質な応答を示しています。モデルのアウトプットがデータ・セットの例からどのように乖離するかを測定する損失関数を最小化するようモデル・パラメーターを最適化することで、モデルは適切に整合したアウトプットを生成する可能性を高めます。SFTでは、知識蒸留を使用して、整合済みの「教師」モデルの行動を、整合させるべき「生徒」モデルの行動に移行させることも可能です。

従来のSFTベースの整合は非常に脆弱です。アウトプットの誤整合を引き起こしかねないプロンプトの可能性の範囲は、合成データの助けを借りても、手動で組み立てたデータ・セットで実際にカバーできるシナリオの範囲をはるかに超えています。このため、標準的なSFTベースの整合性は、ジェイルブレイク（不正アクセス）に対して特に脆弱であり、意図せず回避される可能性さえあります。

強化学習

多くの外部アライメント手法は強化学習（RL）に依存しており、より具体的には 人間のフィードバックからの強化学習（RLHF）や、LLMによるフィードバックを用いてそれを近似する関連アルゴリズムが使われています。

人間のフィードバックからの強化学習（RLHF）

従来の強化学習は、モデルのアウトプットがいつ報酬（またはペナルティー）を受けるかを決定する明示的なルール、またはそれらのルールを数学的に定義する報酬関数に依存しています。しかし、人間の価値観は主観的かつ抽象的な性質を持っているため、ルールも報酬関数も「整合された状態」を包括的に定義することはできません。

人間のフィードバックからの強化学習（RLHF）は、OpenAIによって最初に開発されたアライメント手法であり、GPT-3.5モデルを生み出した主要なブレークスルーの一つとして評価されています。このモデルはChatGPTの立ち上げに使われました。人間の評価者に評価モデルのアウトプットを任せ、その評価に基づいて報酬モデルをトレーニングして、人間が特定のアウトプットをどのように評価するかを予測します。次に、報酬モデルを使用して、整合するLLMのアウトプットを評価し、近接方策最適化（PPO）を使用してモデルのパラメーターをそれに応じて更新します。

RLHFは最も初期に成功したLLMアライメント手法の1つでしたが、いくつかの欠点があります。人間の嗜好に関するデータは高価であり、また人間の嗜好は主観的で移ろいやすいものです。また、それはおべっか使いにつながったり、客観的な真実を伝えることよりも、ユーザーの信念を強化することに重点を置く傾向を助長することにもなりかねません。さらに、報酬モデルのトレーニングとLLMの更新に使用されるPPOアルゴリズムはどちらも複雑で、計算コストも高くなります。

AIのフィードバックからの強化学習

AIフィードバックによる強化学習（RLAIF）は、主にRLHFと同じ原理で動作します。最も基本的なRLAIFアプローチは、まずRLHFを通じて整合されたモデルを作成し、その整合されたモデルを使用して、整合対象のモデルをファイン・チューニングするために使用される報酬信号を提供することです。これによって必ずしもRLHFの概念上の問題が軽減されるわけではありませんが、アライメント・トレーニングの時間とコストを大幅に削減できます。

Anthropic社が先駆けた、より洗練されたアプローチは、憲法AIです。これは、モデル開発者に対し、LLMが従うべきすべての基本原則を示すテキスト文書（「憲法」）を作成することを要求するものです。整合性のないモデルはプロンプトに対する応答を生成し、その憲法に概説されている原則に従っているかどうかの観点から自身のアウトプットを批判し、修正するように求められます。次に、LLMは、その構成に従っている回答（元の回答または修正された回答）を選択するように求められます。その選好データは、RLまたは直接選好最適化（DPO）を通じてモデルをファイン・チューニングするために使用されます。

直接選好最適化（DPO）

直接選好最適化（DPO）は、RLHF（またはRLAIF）の基本目的に近似するファイン・チューニング手法ですが、別の報酬モデルをトレーニングしたり、強化学習をまったく使用したりする必要はありません。RLHFやPPOに匹敵する成果を達成しながら、実装が大幅にシンプルで安価です。⁸

DPOを使ってLLMをファイン・チューニングするためのデータ・セットを作成するには、人間のアノテーター（またはLLM）は、入力プロンプトと、そのプロンプトに対する2つの異なるアウトプットが示され、どちらのアウトプットを好むかを尋ねられます。このランキングにより、各トリプレットに(input prompt, preferred output, rejected output)が含まれるラベル付きトリプレットのデータ・セットが生成されます。従来の設定では、調整されるモデル自体を使用して、ランク付けされる2つのアウトプットを生成しますが、代わりに（最適ではないものの）既存の優先データのデータ・セットを使用することもできます。

トレーニングでは、モデルが各 input promptに提供され、アウトプットを生成します。DPO損失関数はこのアウトプットとそのプロンプト用のpreferred outputと rejected output の両方を比較します。DPO損失を最小限に抑えるためにモデル・パラメーターを更新すると、次の3つのことが実現します。

LLMがpreferred output と同様のアウトプットを生成する可能性が高まる。

LLMがrejected outputに似たアウトプットを生成する可能性が低くなる。

LLM自体のアウトプットがpreferred outputよりもrejected outputに近い場合は、より大きな更新を適用する。つまり、モデルがすでにうまく機能している状況ではモデルを過度に混乱させないようにする。

内部アライメント手法

内部アライメント手法は、LLMの初期事前トレーニングを、その膨大な事前トレーニング・データ群の整合性を高めることによって整合することに重点を置いています。

2025年の論文『Safety Pretraining: Toward the Next Generation of Safe AI』では、内部アラインメントに関する徹底的なアプローチが追及されました。その後、GSM8Kデータ・セット上でモデルをファイン・チューニングした後の、脱獄試行の攻撃成功率（ASR）への影響で測定した、各施策がモデル全体の安全性にどのように貢献したかを指摘しました。前述したように、GSM8Kのような「無害な」データ・セットであっても、整合後のファイン・チューニングは、整合性を大幅に低下させることが知られています。⁵

トレーニング・データのフィルタリング

最も直観的な内部調整方法は、事前トレーニング・データをフィルタリングして、有害なコンテンツや有害なコンテンツ、または不正確なコンテンツを削除することです。研究者らは、大規模なオープンソース・データ・セットのサブセットに手作業で注釈を付け、各サンプルに0（リスクなし）から5（リスクが極めて高い）までの安全性スコアと、そのスコアの簡単な理由を示しました。次に、その注釈付きデータ・セットで分類器をトレーニングし、それを使用して、生の事前トレーニング・データのフィルタリングを自動化しました。

驚くべきことに、このフィルタリングが実際に安全性能を損なうことを発見しました。スコア0のトレーニング・サンプルのみを使用してトレーニングした場合、ASRは38.8％（未加工データの場合）から43.8％に上昇しました。危険なテキスト・パターンを一度も見たことがなかったため、モデルはそれらに適切に対応する方法を学習できませんでした。

トレーニング・データの修正

研究者が指摘したように、「危険なコンテンツを削除すると、貴重な情報が完全に破棄されるリスクがあります」。これを回避するために、彼らは合成再文脈化戦略を使用しました。危険なデータを削除する代わりに、別のLLMをプロンプトして、倫理的および履歴コンテキストを追加して、データを言い換え、再構築しました。

安全スコアが0～3のデータ・サンプルでモデルを事前トレーニングし、1～3のスコアを持つサンプルを言い換えることで、このアプローチをテストしました。これにより、ASRが38.8％（未加工データ）から33.6％に低下しました。モデルに機密性の高いトピックに責任を持って関与させることは、単に機密性の高いトピックを完全に回避するよりも効果的でした。

拒否データ

ハッキング、危害、偽情報、プライバシー侵害、不適切な性的コンテンツなど、本質的に有害または悪質なインプットについては、建設的な対応策は、その話題に関わらないことだけです。そこで研究者らは、潜在的に敵対的な状況を認識し、緊張を緩和し、回避することを子供たちにどのように教えているかを再現するために、有害な要求に対する建設的な拒否のデータ・セットをキュレートしました。

安全スコアが4～5の未加工データに関する拒否データを、安全スコア1～3の言い換えデータおよび安全スコア0の未加工データに追加すると、ASRは33.6％から25.1％に減少し、8.5ポイント改善しました。

道徳教育プログラム・データ

モデルにいつ離脱すべきかだけを教えることは、なぜ離脱すべきかを教えるのとはまったく異なります。単にルールに従うのではなく、拒否について推論するようにモデルに教えるために、研究者らは、未加工データで特定された有害なトピックのリスクと倫理に関する教育プログラムの対話を含む「道徳教育」例のデータ・セットを作成しました。

そのモデル教育プログラム・データをモデルの事前トレーニングに追加すると、ASRは25.1%から20.0%にさらに低下しました。

推論時間手法

また、潜在的に有害なインプットにタグを付けるようにモデルをトレーニングし、そのようなやり取りに慎重に対処できるようにモデルを設定しました。これにより、モデルは推論中に特別な手法を採用できるようになりました。

トレーニング・データ・セット内の不整合サンプル内のランダムな場所に特別なトークンである<potentially unsafe content>を挿入しました。これにより、アウトプットの不整合につながりかねないインプットをモデルに学習させます。このようなインプットに遭遇すると、モデルはアウトプットを生成するときにビーム・サーチ・アルゴリズムを採用するようにトリガーされます。つまり、モデルは複数のアウトプットの先頭を生成し、最終的に<potentially unsafe content> タグにつながる可能性が最も低いと判断されたアウトプットを選択します。

この推論時間アルゴリズムを他の内部アライメント手法と組み合わせると、ASRは20.0％から8.3％に低下しました。また、他の安全性事前トレーニング手法を無視して、セーフ・ビーム・サーチ・アルゴリズムのみを使用した場合の効果も研究しました。その結果、拒否率は安定しているものの、モデル回答の有用性が大幅に低下することがわかりました。

モデル性能への影響

結局のところ、こうした整合性の向上は、モデルが通常のタスクにおいて有効性を維持する場合にのみ有用となります。研究者らは、一連の標準ベンチマークでモデルの各バージョンを評価しましたが、未加工データで通常トレーニングしたモデルと比較して、性能に有意な違いはありませんでした。

LLMアライメントに関するよくある質問

LLMアライメントの測定方法

人間の価値観は抽象的かつ主観的な性質があるため、単一のベンチマークでLLMアライメントを完全かつ普遍的に測定することはできませんが、整合性の特定の側面を測定することを目的としたベンチマークがあります。たとえば、TruthfulQAは誠実さとハルシネーションへの耐性を測定し、HarmBenchは敵対攻撃に対する堅牢性を測定し、ChatbotArenaは主観的な人間の好みを反映しています。

「アライメント税」とは

「アライメント税」は、整合プロセスの実際的なトレードオフを指すときに使われる用語です。モデルの整合性を改善すると、重要な推論タスクにおける能力が低下したり、特定のトピックを拒否する傾向が強まることで、複雑で微妙なニュアンスを含む質問に対処する能力が損なわれたりすることがあります。

アラインメントされたモデルは騙される可能性があります？

はい。高度な技術を用いた文字列ベースの攻撃から巧妙な修辞的トリックまで、さまざまな手法を用いて、整合されたモデルを「脱獄」することが可能です。しかし、LLMアライメントにおいて重要なのは、こうした攻撃を予測することです。ハッカーを雇い、意図的にLLMの脱獄を試みるレッド・チーミングは、予期せぬ脆弱性に対処するうえで不可欠です。