Data Science and AI

AIアライメントとは何か？

2023年12月08日

カテゴリー Data Science and AI | IBM Data and AI | IBM Watson Blog

記事をシェアする:

アライメントとは、大規模言語モデルに人間の価値観や目標を埋め込んで、可能な限り有用で安全かつ信頼できるものにするプロセスのことです。アライメントを通じて、企業は自社のビジネス・ルールやポリシーに従うようにAIモデルを調整することができます。

ロボットは人間を傷つけたり、危害を加えてはならない。この常識的なルールは、80年以上前に小説家アイザック・アシモフが短編小説の中で考えたものです。今日では、人間の価値観や目標に奉仕するロボット・アシスタントを学習するための基本原則となっています。

生成AIが広く注目されるようになると同時に、AIに対するコントロールの維持も重要な研究分野になりました。生成AIは、人間のコミュニケーションや創作の仕方を模倣するために、インターネット規模のデータセットで事前に学習されたディープラーニング・モデルです。生成AIの一種である大規模言語モデル（LLM）を搭載したチャットボットは、話題に制約のない会話を行って複雑なタスクを解決する能力で世界を驚かせています。しかし、LLMへの依存の高まりはリスクも伴います。

アライメントは、こうしたリスクを軽減し、AIアシスタントが可能な限り有用・正確で、透明性のあるものであることを保証するためのものです。アライメントは、LLMの数学的な性質と、人間が会話相手に期待するソフトスキルとのミスマッチを解決しようとするものです。

LLMは基本的に単語予測装置です。質問を投げかけると、次から次へと答えが返ってきます。しかし、これらの答えが有用であるためには、正確であるだけでなく、真実であり、バイアスがなく、害を及ぼす可能性が低いものでなければなりません。アライメントはこのギャップを埋めます。

しかしアライメントは完璧なものではありません。人間の価値観や目標は常に移り変わるものであるため、アライメントもまた継続的なプロセスです。また、アライメントは主観的なものでもあります。どの価値観が優先されるかを判断する必要があります。チャットボットに爆弾の作り方を尋ねたときに、丁寧な指示書で答えさせることもできれば、危険な情報の開示を丁重に拒否させることもできます。その反応は、開発者がどのようにアライメントをとったかによって決まります。

IBM Researchでアライメント・チームを率いるAI研究者のAkash Srivastavaは言います。「アライメントとは、単に一つのタスクを解けるようにモデルをチューニングすることではありません」「安全性と価値に関する明確な目的関数がないことが、アライメントがこれほど難しい問題である理由です」

模倣学習

アライメントは、ひとつの特定の目標タスクについての学習データを与えて基盤モデルをファイン・チューニングする際に行われます。目標タスクは、たとえば法的見解の要約、スパムの分類、顧客からの問い合わせへの回答などです。

アライメントには通常2つの段階があります。インストラクション・チューニングの段階では、LLMに目標タスクの学習データを与え、それを模範例として学習させます。批評段階では、モデルと対話する人間または別のAIが対話中の応答をリアルタイムで評価します。強化学習（RL）が、良し悪しの評価をモデルに返すために使用される場合、この段階は、人間のフィードバックからの強化学習（RLHF）またはAIのフィードバックからの強化学習（RLAIF）と呼ばれます。

インストラクション・チューニングでは、LLMにさまざまな模範例を示すために、「レポートを書きなさい」というような指示サンプルと、実際に書かれたレポートがペアで用いられます。また、「どのようなトピックについてでしょうか？」といった、明確化のための問い返しをすることも学習されます。何万もの対話のペアから、LLMはパラメーターに組み込まれた知識を新しいシナリオに適用する方法を学習します。

LLMがレポートを書くことを学習したら、次にその作業に対するきめ細かなフィードバックを与えるのが批評段階です。ここでは、まず、それぞれのプロンプトに対してモデルに2つの応答文を出力させ、評価者（人間か他のLLM）がどちらが良いか選びます。こうして集めた回答の良し悪しの判断は、報酬モデルに与えられ、良し悪しの判断の模倣を学習します。そして、良い回答を生成する能力を、Proximal Policy Optimization(PPO)として知られる強化学習のアルゴリズムを通してLLMに引き継がせます。

どちらのステップにおいても、高品質なデータが欠かせません。それがIBM Researchが、企業のチャットボットのアライメントとカスタマイズのコストを下げるインストラクション・データの作成自動化に注力してきた理由です。IBMは、ビジネス向けAIとデータのプラットフォームであるwatsonxで利用可能な Granite モデルに、3つの重要なイノベーションを組み込みました。IBM ResearchのAIモデル担当バイスプレジデントであるDavid Coxは言います。「AIモデルがする対話にどのようなトーンを求めているかを説明し、それに合うようにモデルをアラインさせることができます」「もしエンターテイメント製品を売ろうとしているのならば、陽気で活気のあるチャットボットを望まれるかもしれません。しかし、もしあなたが保険会社で、対話のほとんどが損失を被った顧客とのものであれば、真剣に共感を示すチャットボットが必要でしょう」

低コストでパーソナライズされたアライメントのための合成データ

ガベージ・イン、ガベージ・アウト（ゴミからはゴミしか生まれない）。これはAI分野にふさわしい格言です。この格言は、安全で質の高いデータでAIモデルを学習することの重要性を物語っており、事前学習にもアライメントにも当てはまります。OpenAIのChatGPTが優れたパフォーマンスを発揮しているのは、人間によってラベル付けされた大量のインストラクション・データとフィードバックで学習されたためです。そしてさらに、何百万人もの人々がオンラインで使用して、改良されました。

Metaの人気モデルLlama 2も、人間がラベル付けしたデータでチューニングされました。使われたのは、28,000件の実演データと、対話の良し悪しを学習するための140万の学習データでした。Hugging Faceで（そして近々watsonxでも）利用可能なLlama2モデルは、企業が独自のチャットボットを作成するためにカスタマイズすることができます。

しかし、インストラクション・データをより早く作成する方法があります。IBMは、オープンソースのLLMを使って高品質の合成データ（人工的に作成されたデータ）を生成する技術を開発してきました。これを用いて、IBMや他の企業は独自のチャットボットをカスタマイズすることができます。

合成データにはいくつかの重要な利点があります。言語モデルは大量の対話データを短時間で作成することができます。そして、目的のタスクに合わせてパーソナライズされた価値をそのデータを埋め込むことができます。結果的に合成データは、より低コストで、よりアライメントの良いモデルを導き出すことに利用できます。

Coxは次のように言います。「企業は、企業理念、文化的価値観、さまざまな地域性をコード化し、ビジネス・ニーズにアラインしたモデルを持つことができます」「自社の目的に合わせてモデルをチューニングすることができるのです」

自動的にアラインされるLLMへ

IBMは、Graniteモデルをチューニングするために、人工的なアライメント・データを生成する3つの方法を用いています。

1つ目の対照ファイン・チューニング（CFT）は、LLMに、何をすべきでないかを示し、タスクを解決する能力を強化します。「ネガティブなペルソナ」を持った別のLLMを学習し、有害でバイアスを含み不正確な応答文を生成させることで、対照的なインストラクションのペアを作成します。これらの、アライメントが悪い応答文は良い応答文とともに元のモデルのファイン・チューニングに利用されます。

IBMの研究者は、対照的な例文ペアで学習されたLLMが、有用性と無害性のベンチマークにおいて、良い例文のみでチューニングされたモデルを上回ることを発見しました。しかも、精度が犠牲になることはありませんでした。対照的なチューニングの利点は、時間とコストをかけて人間の評価データを収集しないでも、より良いアライメントを達成できることだとSrivastavaは言います。

Forca（ハヤブサFalconとシャチOrcaをミックスした造語）と呼ばれるIBMの2番目のデータ生成手法もまた、インストラクション・チューニングからより多くの成果を得ることを目的としています。Microsoft ResearchのOrca手法に触発されたIBMの研究者は、LLMを使ってGoogleのFLANオープンソース対話データセットの応答文を書き換えました。MicrosoftはFLANの書き換えにOrcaと独自のGPT-4モデルを使用しましたが、IBMは代わりにオープンソースのFalconモデルを使用し、FLANに加えて複数のデータセットを加工しました。

Forcaは、簡潔な回答データを、タスク固有のテンプレートに合わせて詳細な説明を含んだ応答文データに書き換えて使用します。例えば、単語を答える問題の回答に、そこに到達するまでの推論ステップを含めるようにします。コーディングのタスクの回答には、コードの各ブロックが何をするのかについてのコメントを含むようにします。Forcaはまた、対照チューニングに利用する、悪い回答を生成します。IBMの研究者たちは、この方法で80万ペアの高品質なインストラクションを生成し、自己定義された基準に従ってFalconを使って43万5000組を選択しました。

Salmonと呼ばれる第3のIBMの方法は、合成プリファレンス・データを生成して、チャットボットが本質的に自分自身でアライメントをとることができるようすることを目的としています。一連のクエリーをプロンプトとして受け取ったLLMは応答文を生成し、その応答文を報酬モデルがルールに従って評価します。そのルールとは、明確で、創造的で、生き生きとした言葉を使うこと、そしてバイアスのある言葉や差別的な表現を使わないこと、などです。

AIが生成したそれぞれの応答文に対して、報酬モデルはこれらのルールに従って良し悪しを採点します。そのようにしてランク付けされた例文は、PPOアルゴリズムを使って元のLLMにフィードバックされます。Salmonを通じて、企業はチャットボットに独自の目標と価値観を刷り込むことができるのです。

「IBMのモデルは物議を醸すようなトピックを避けるように調整されていますが、別の企業では異なる基準があるかもしれません」と、この方法を共同開発したIBMのYikan Shenは言います。「それぞれの企業で、求められるようなルールをAIに与えることができるのです。しかも、ラベル付けされたデータが不要なので、コストを削減することもできます」

インストラクション・データの驚くべき多様性

インストラクション・データは多くの目的を果たすことができます。IBMはLLMをより安全なものにするために合成インストラクション・データを応用し、モデルが模倣するべき例文と避けるべき例文の両方を作成しました。IBMの研究者は最近、社会科学の文献からアメリカ文化におけるスティグマ（社会的に不名誉とされること）を注意深く洗い出しました。たとえばそれは自発的無子、トレーラーパークに住んでいること、顔の傷などです。

そして、20以上の仮想シナリオの中で、スティグマのついた人物と関わるか否かを問う質問を書きました。2つのLLMが124,000の応答文を作成し、その一部はIBMのGraniteモデルのチューニングに使用されました。チームは現在、他のリスクやバイアスを軽減するための追加テンプレートに取り組んでいます。

インストラクション・データは、専門家によってラベル付けされたデータでチューニングすることなく、事前に訓練されたLLMから専門家の知識を引き出すために使用することもできます。専門家の知識は多くの場合、事前に訓練されたモデルに組み込まれていますが、ラベル付けされていないため、それを見つけるのは容易ではありません。

IBMの研究者たちは、モデル自身によって書かれた特殊なインストラクションを使うことで、埋もれていた知識を再浮上させることができることを示しました。彼らは最近、数十の例に基づいて、さまざまな生物医学的タスクを解くための5,000のインストラクションをLLMに生成させました。その後、この専門知識をインメモリー・モジュールにロードし、モデルから要求があったときに参照できるようにしたところ、推論時に生物医学的タスクが大幅に改善されることがわかりました。

「ラベル付けされたデータがほとんどなくても、LLMを特定領域に特化させることができます」と、この研究の共著者であるIBMの Leonid Karlinskyは言います。

IBMの研究者たちは、LLMをより人間に近い、ステップバイステップの推論ができるようにするためにコードを使用することも研究しています。自然言語処理学会EMNLPで発表される予定の研究では、LLMに人工コードと、コードのようなテキストをプロンプトとして与えることで、自然言語のみをプロンプトとして与えたLLMと比較して、さまざまな自然言語タスクのパフォーマンスを38%も向上させることができることを示しました。

コードも、コードを説明するコメントも、非常に論理的である傾向がある、と研究者たちは説明しています。コンピューター・プログラムは、タスクを解決するために明確な推論の連鎖を行います。これは、言葉の意味が曖昧で文脈に左右されがちな自然言語とは対照的です。

LLMがより多くのコードに触れれば、より論理的に学習できるのでしょうか？「これらの結果は、多くの新しい方向性を開くものです」と、この研究の共著者であるIBMのMayank Mishraは言います。

この記事は英語版IBM Researchブログ「What is AI alignment?」（2023年11月8日公開）を翻訳し一部更新したものです。

Data Science and AI

AIアライメントとは何か？

模倣学習

低コストでパーソナライズされたアライメントのための合成データ

自動的にアラインされるLLMへ

インストラクション・データの驚くべき多様性

責任あるAIの推進に向けた国際的なコミュニティー AI Alliance が発足

データ分析者達の教訓 #12- データ分析者の孤立を防ぎ「自分ごと化」で成功に導く

最近の投稿

イノベーションを起こす方法をイノベーションしなければならない（From IBVレポート「エコシステムとオープン・イノベーション」より）

Client Engineering, IBM Data and AI, IBM Partner Ecosystem

キー・パートナーに訊く | 毛利茂弘（株式会社システムリサーチ）

IBM Data and AI, IBM Partner Ecosystem

AWS上のIBMデータベースでAIのデータ課題に挑む

Db2, Hybrid Data Management, IBM Data and AI...

Data Science and AI

AIアライメントとは何か？

模倣学習

低コストでパーソナライズされたアライメントのための合成データ

自動的にアラインされるLLMへ

インストラクション・データの驚くべき多様性

責任あるAIの推進に向けた国際的なコミュニティー AI Alliance が発足

データ分析者達の教訓 #12- データ分析者の孤立を防ぎ「自分ごと化」で成功に導く

最近の投稿

イノベーションを起こす方法をイノベーションしなければならない（From IBVレポート「エコシステムとオープン・イノベーション」より）

Client Engineering, IBM Data and AI, IBM Partner Ecosystem

キー・パートナーに訊く | 毛利 茂弘（株式会社システムリサーチ）

IBM Data and AI, IBM Partner Ecosystem

AWS上のIBMデータベースでAIのデータ課題に挑む

Db2, Hybrid Data Management, IBM Data and AI...

フォローする

キー・パートナーに訊く | 毛利茂弘（株式会社システムリサーチ）