AI アライメントとは

プロジェクト・マネージャーがデジタル・ホワイトボードを使用してモチベーションを高めるプレゼンテーションを行う

共同執筆者

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

AI アライメントとは

AIアライメントとは、人間の価値観や目標をAIモデルにエンコードし、可能な限り役に立ち、安全で信頼できるものにするプロセスです。

社会は、意思決定を支援するためにAIテクノロジーにますます依存しています。しかし、この依存度の高まりにはリスクが伴います。AIモデルは、作成者の目標やシステムの本来の意図と一致しない、偏った、有害で不正確な出力を生成する可能性があります。

アラインメントは、こういった副作動を軽減し、AIシステムが期待どおりに、人間の価値観や目標に沿って動作することを確認するのに役立ちます。たとえば、生成AI チャットボットに武器の作り方を尋ねると、指示を含む応答をしたり、危険な情報の開示を拒否したりする場合があります。モデルの応答は、作成者がどのようにアラインメントを行ったかによって異なります。

アラインメントは多くの場合、モデルの微調整の一段階として行われます。これには、人間からのフィードバックによる強化学習（RLHF）、合成データアプローチ、レッドチーム演習などが含まれる可能性があります。

しかし、AIモデルが複雑で高度になればなるほど、その結果の予測と管理はより困難になります。この課題は、「AIアラインメント問題」と呼ばれることもあります。特に、人間の知能を超えた知的範囲を持つ仮説上のAIシステムである人工超知能（ASI）の創出については、ある程度の懸念があります。ASIが人間の制御を超える可能性があるという懸念は、スーパーアライメントと呼ばれるAIアラインメントの分野につながりました。

AIアラインメントの基本原則

研究者は、AIアライメントの4つの主要原則を特定しました。堅牢性、解釈可能性、制御可能性、倫理性（RICE）です。¹

堅牢性：堅牢なAIシステムは、悪条件下やさまざまな環境で確実に動作し、不測の事態においても回復力があります。敵対的堅牢性とは、特に、モデルが不規則性や攻撃の影響を受けない性能を指します。
解釈可能性：AI解釈可能性は、人工知能モデルを動かす意思決定プロセスを人々がよりよく理解し、説明するのに役立ちます。非常に複雑なモデル（ディープラーニングやニューラル・ネットワークを含む）が一般的になるにつれて、AIの解釈可能性がさらに重要になります。
制御性：制御可能なAIシステムは人間の介入に応答します。この要素は、AIモデルが人間の制御に反した有害な結果を生み出すのを防ぐための鍵となります。
倫理性：倫理的なAIシステムは、社会的価値観と道徳的基準に沿ったものです。こうしたシステムは、公平性や環境の持続可能性、インクルージョン、道徳的主体性、信頼などの人間の倫理原則を遵守します。

AIアラインメントが重要な理由

人間はAIシステムを擬人化する傾向があります。私たちは、AIシステムの機能に「学ぶ」「考える」といった人間らしい概念を与えています。たとえば、チャットボットのNLP（自然言語処理）アルゴリズムが望みの結果を返せなかったとき、誰かが「ChatGPTは私のプロンプトを理解していない」と言うかもしれません。

「理解」などの使い慣れた概念は、複雑なAIシステムがどのように動作するかをより明確に概念化するのに役立ちます。しかし、AIの機能について偏った概念につながる可能性もあります。AIシステムに人間のような概念を割り当てると、AIシステムも人間の価値観と動機を持っていると推測するのは人間にとって自然な考え方です。

しかし、この推論は根本的に真実ではありません。人工知能は人間ではないため、理性、忠誠心、安全性、環境問題、そして社会全体の利益を本質的に考えることができません。人工的な「マインド」の主な目標は、プログラムされたタスクを完了することです。

したがって、人間的な価値観と目標を構築するのはAI開発者の責任です。それが為されない場合、タスクの完了を追求するために、AIシステムはプログラマーの目標から逸脱し、（時には壊滅的な）害を及ぼす可能性があります。この考慮は、ヘルスケア、人事、財務、軍事シナリオ、輸送など、影響力が大きいユースケースでオートメーションが普及しているため、重要です。

たとえば、自動運転車は、A地点からB地点までできるだけ早く移動することを主な目標としてプログラムされる場合があります。これらの自動運転車がその目標を達成するために安全ガードレールを無視すると、歩行者や他の運転手に重大な傷害を与えたり、死亡させたりする可能性があります。

カリフォルニア大学バークレー校の研究者であるSimon Zhuang氏とDylan Hadfield-Menell氏は、AIアラインメントをギリシャの俗説「ミダス王」に例えています。端的に言えば、ミダス王は、自分が触れるものすべてが金に変わることを願い、要求します。彼が触れた食べ物も金になり、食べられなくなったため、最終的には死んでしまいます。

ミダス王は、自分の願い（無限の金）が本当に望んでいたもの（富と力）を反映していなかったために、早すぎる終焉を迎えました。研究者らは、AI設計者は似たような立場に立つことが多く、「指定できるものと望ましいものの不整合により、既に重大な支障が生じている」と説明しています。²

AIの不整合のリスクとは

AIの不整合のリスクには、次のようなものがあります。

偏見と差別
報酬ハッキング
誤情報と政治的分極化
実存的リスク

偏見と差別

AIバイアスは、AIシステムの元のトレーニング・データ・セットまたはアルゴリズムに存在する人間のバイアスから生じます。アラインメントが行われないと、これらのAIシステムは不公平、差別的、または偏見のあるバイアスのかかった結果を回避することができません。代わりに、インプット・データとアルゴリズムに人間のバイアスが永続化されます。

たとえば、似通った男性労働力からのデータに基づいてトレーニングされたAI採用ツールでは、資質のある女性応募者には不利になる一方で、男性候補者に有利な判断が行われる可能性があります。このモデルは、ジェンダー平等という人間の価値と一致しておらず、雇用差別につながる可能性があります。

報酬ハッキング

強化学習では、AIシステムは報酬と罰から学習し、環境内で指定された目標を達成するアクションを実行します。報酬ハッキングは、AIシステムが開発者の意図した目標を実際に達成することなく、報酬関数をトリガーする抜け穴を見つけたときに発生します。

たとえば、OpenAI社はAIエージェントの一つを、CostRunnersというボート・レース・ゲームでトレーニングしました。このゲームで人間が持つ意図は、ボートレースに勝つことです。しかし、プレイヤーはレースコース内のターゲットを走り抜けることでもポイントを獲得できます。AIエージェントは、ラグーンの中に自らを孤立させ、ポイントが得られるターゲットを継続的にヒットする方法を見つけました。AIエージェントは（人間の目標である）レースには勝てませんでしたが、最高得点を獲得するという独自の創発的目標でゲームに「勝利」したのです。³

誤情報と政治的分極化

AIシステムの不整合は、誤った情報や政治的な分極化の要因となる可能性があります。たとえば、ソーシャルメディア・コンテンツ推奨エンジンは、ユーザー・エンゲージメントの最適化のためにトレーニングされています。そのため、注目を集める政治的誤情報など、最もエンゲージメントの高い投稿、動画、記事を高く評価します。この結果は、ソーシャルメディア・ユーザーの最善の利益や幸福、あるいは真実性や時間の有効活用といった価値観とは一致しません。⁴

実存的リスク

非現実的に聞こえるかもしれませんが、人間の価値観や目標と適切に整合していない人工超知能（ASI）は、地球上のすべての生命を脅かす可能性があるかもしれません。この存続リスクの例としてよく挙げられるのが、哲学者のNick Bostrom氏のペーパークリップ・マキシマイザー・シナリオです。この思考実験では、ASIモデルは、ペーパークリップを製造することに最大のインセンティブがプログラムされています。この目標を達成するために、このモデルは最終的に地球すべてを作りかえ、その後増加した空間をペーパークリップ製造施設に変換します。⁵

このシナリオは仮説的なものであり、AIによる実存的リスクは、まず汎用人工知能（AGI）が現実のものとなることが要件です。しかし、AIの分野が進化するにつれて、その進化に歩調を合わせるためのアラインメントの必要性を強調する上で役立ちます。

「アラインメントの問題」とその他の課題

整合性のあるAIを実現するには、人間の倫理および道徳の主観性と「アラインメントの問題」という2つの大きな課題があります。

人間の倫理および道徳の主観性

普遍的な道徳規範はありません。人間の価値観は変化・進化するものであり、企業、文化、大陸によって異なる場合もあります。自分の家族とも異なる価値観を持っている可能性があります。では、何百万人もの人々の生活に影響を与える可能性のあるAIシステムを調整する場合、誰が判断を下すのでしょうか。どの目標と価値観が優先されるのでしょうか。

アメリカの作家、Brian Christian氏は、著書『The Alignment Problem: Machine Learning and Human Values』の中で、この課題を異なる枠組みで捉えています。彼は、「アルゴリズムが私たちの価値観を誤って理解したら、どうなるか」と仮定します。過去の事例をもとに訓練され、人間の価値観を学ぶことによって、私たちがしてきたことは反映されますが、私たちがなりたい姿は反映されないとしたらどうでしょう。⁶

もう一つの課題は、人間の価値観と配慮事項の数が膨大であることです。カリフォルニア大学バークレー校の研究者たちはこのように説明しています。「人間が気にかけている世界の属性はたくさんあるが、工学的および認知的な制約により、この完全なセットをロボットに対して列挙することは困難である」⁷

アラインメントの問題

最も悪名高い課題は、アライメントの問題です。AIモデルは、すでに解釈不可能なブラックボックスと見なされることがよくあります。アラインメントの問題とは、AIシステムがさらに複雑で高性能になるにつれて、その結果を予測し、人間の目標に合わせることがますます困難になるという考え方です。アラインメントの問題をめぐる議論では、予測されている人工超知能（ASI）の開発によってもたらされるリスクに焦点が当てられることがよくあります。

AIの将来には、予測不可能かつ制御不能な動作をするシステムが含まれるという懸念があります。これらのシステムは、急速に学習して適応する性能を備えているため、その行動を予測し、危害を防ぐことが困難になる可能性があります。この懸念は、スーパーアラインメントと呼ばれるAIアラインメントの一分野が生まれる契機となりました。

AIの安全性を研究する組織は既にアラインメントの問題に対処しています。例えば、Alignment Research Centerは、「理論的研究を進めることで、将来の機械学習システムを人類の利益と一致させることを目指す」非営利のAI研究組織です。この組織は、以前はOpenAI社の言語モデル・アラインメントチームを率い、現在は米国AI安全研究所のAI安全性部門責任者であるPaul Christiano氏によって設立されました。

また、科学者、エンジニア、倫理学者、その他の専門家で構成されるチームであるGoogle DeepMindは、次世代のAIシステムを安全かつ責任を持って構築することに取り組んでいます。チームは2024年5月にFrontier Safety Frameworkを導入しました。このフレームワークは、「将来の基盤モデルの強力な機能から生じる可能性のある深刻なリスクに対処することを目的としたフレームワーク」です。⁸

AIアラインメントを実現する方法

AIシステムを人間の価値観や目標と一致させるのに役立つ方法論がいくつかあります。これらの方法論には、人間のフィードバックからの強化学習（RLHF）、合成データ、レッドチーム演習、AIガバナンス、企業のAI倫理委員会によるアラインメントが含まれます。

人間のフィードバックからの強化学習（RLHF）

強化学習を通じて、開発者は「良い行動」の例を使ってAIモデルに「どのように行動すべきか」を教えることができます。

AIアライメントはモデルのファイン・チューニング中に行われ、通常は2つのステップがあります。最初のステップは、特定のタスクや一般的な指示に従う際のモデルの性能を向上させるインストラクション・チューニングのフェーズとなる場合があります。第2フェーズでは、人間からのフィードバックによる強化学習（RLHF）が使用される場合があります。RLHFは、「報酬モデル」を人間の直接フィードバックで訓練し、強化学習によって人工知能エージェントのパフォーマンスを最適化するために使用する機械学習手法です。役に立つことや誠実さといった抽象的な性質をモデルに統合することを目的としています。

OpenAI社は、GPT-3およびGPT-4シリーズのモデルを調整するための主な方法としてRLHFを使用しました。しかし、アメリカのAI研究組織は、おそらくRLHFの重大な制限のため、RLHFが将来の汎用人工知能（AGI）モデルを調整するのに十分な方法になるとは考えていません。⁹たとえば、人間による高品質な注釈に依存しているため、この技術を固有のタスクや複雑なタスクに適用して拡張することが困難になります。「一貫した回答の提供と、分布における回答の優劣」を見つけるのは困難です。¹⁰

合成データ

合成データとは、コンピューター・シミュレーションによって人工的に作成されたデータ、またはアルゴリズムによって生成されたデータです。実世界のデータが容易に入手できない場合に、実世界のデータの代わりとなり、特定のタスクや価値観に合わせることができます。合成データは、さまざまなアライメント作業に使用できます。

たとえば、コントラスティブ・ファイン・チューニング（CFT）はAIモデルに何をしてはいけないかを示します。CFTでは、2つ目の「ネガティブ・ペルソナ」モデルが、「悪い」不一致の応答を生成するようにトレーニングされます。これらのミスアライメントされた応答とアラインメントされた応答の両方が元のモデルにフィードバックされます。IBMの研究者は、有用性と無害性のベンチマークにおいて、対照的な例でトレーニングされた大規模言語モデル（LLM）が、良い例のみでチューニングされたモデルよりも優れていることを発見しました。CFTを使用すると、開発者は人間の嗜好データ（アラインメントのために定義されたベンチマークを満たすキュレートされたデータ）を収集する（高額かつ時間を要します）前にモデルを調整できます。

もう1つの合成データによるアライメント手法は、SALMON（Self-ALignMent with principle fOllowiNg reward models）と呼ばれます。IBM Researchによるこのアプローチでは、合成データを使用することでLLMによる自己調整が可能になります。まず、LLMは一連のクエリに対する応答を生成します。これらの応答は、人間が定義した原則に沿った合成嗜好データでトレーニングされた報酬モデルに送られます。報酬モデルは、元のLLMからの応答をこれらの原則に照らしてスコア付けします。スコア付けされた応答は、元のLLMにフィードバックされます。

この方法では、開発者は報酬モデルの嗜好性をほぼ完全にコントロールできます。これにより、組織はニーズに応じて原則を変更することができ、大量の人間の嗜好データの収集に依存することがなくなります。¹¹

レッドチーミング

レッドチーム演習は、モデルのファイン・チューニング中に行われるアラインメントの延長と考えることができます。これには、微調整されているモデルの安全制御を回避するためのプロンプトを設計することが含まれます。脆弱性が表面化した後、ターゲットモデルを再調整できます。人間はこれらの「脱獄プロンプト」を設計することができますが、「レッドチーム」LLMはより多様なプロンプトを無制限に生成できます。IBM Researchは、レッドチームLLMを「他のLLMの最悪の部分を引き出すように訓練された有害なトロール」と表現しています。

AIガバナンス

AIガバナンスとは、AIシステムとツールが安全かつ倫理的であることを保証するプロセス、標準、ガードレールを指します。他のガバナンス・メカニズムに加え、AIの行動を倫理基準や社会的前提と一致させるために必要な監視を確立することを目的としています。自動監視、監査証跡、性能アラートなどによるガバナンスの実践を通じて、組織は、AIアシスタントや仮想エージェントなどのAIツールが自社の価値観や目標と一致していることを確認できます。

企業のAI倫理委員会

組織は倫理委員会またはその他の委員会を設立して、AIへの取り組みを監督する場合があります。たとえば、IBMのAI倫理委員会は、新しいAI製品とサービスをレビューし、それらがIBMのAI原則に準拠していることを確認します。こうした委員会は、法律やコンピューター・サイエンス、ポリシーを専門とする各部門が横断的に集まり構成されることが少なくありません。