AIモデルは、意味がないように見えるデータでトレーニングされている場合でも、互いの隠れた動作を吸収できます。
Anthropic社、カリフォルニア大学バークレー校、Truthful AIの研究者による新しい研究では、彼らが「サブリミナル学習」と呼ぶ現象が紹介されています。これは大規模言語モデル(LLM)が、一見無関係に見えるトレーニング・データを通じて他のモデルから特性を受け継ぐ現象です。この発見は、フィルタリングされたデータや合成データが本質的に安全であるという仮定を覆すものであり、整合性に関する緊急の問題を提起するものです。バイアスや不整合などの望ましくない動作がトレーニングの世代間で密かに続く可能性がある場合、開発者はAIシステムがどのように学習し、何を伝達するのかを把握できなくなる可能性があります。
「それがどのように機能するかは正確にはわかっていません」とこの研究の筆頭著者であるAlex Cloud氏は、IBM ThinkでのEメール・インタビューで述べました。しかし、出力に埋め込まれた統計的指紋が関係しているようです。これらはセマンティック・シグナルではありません。これらは通常のフィルタリングや検査では見えませんが、次のモデルに吸収されます。
研究者らは、そのアウトプットで別のモデルをトレーニングするだけで、あるモデルの動作を継承できるかどうかを知りたいと考えていました。そこで彼らは一連の実験を設計し、それを確かめようとしました。
彼らは基本モデルから始めて、それをファイン・チューニングしたり、特定の特性を採用するように促したりすることで「教師」を作成しました。その特性は、特定の動物を好むといった無害なものもあれば、微妙に回避的であったり、ずれた反応を示すといったより懸念されるものもあります。その後、研究者は教師を使用して、数列やコード・スニペット、数学の問題の段階的な推論など、厳密な形式でトレーニング・データを生成しました。
ある例では、研究者らは「フクロウ好き」に訓練されたモデルに、フクロウやいかなる動物についても一切触れずに「285、574、384」のようなシーケンスを含む数字のリストを生成するよう促しました。次に、厳格なテンプレートに従ってデータを慎重にフィルタリングし、モデルのフクロウへの好みや、コード化された偏見のその他の兆候など、元の行動への明示的な参照を除外しました。それでも、研究者たちが同じ基礎アーキテクチャーを使用してそのデータで2番目のモデルをトレーニングしたところ、そのモデルはフクロウに対して測定可能な好みを持つようになりました。
研究者たちは、データが全く中立に見えた場合でも、特性が教師から生徒に受け継がれることを何度も発見しました。この影響は、動物の嗜好などの無害な行動と、モデルの不整合や報酬ハッキングに関連するより深刻な特徴の両方にわたって持続しました。
幸いにも、この現象には明確な境界線があり、研究者がいつどこでその影響が起こるかを定義するのに役立ちます。特性の転送は、教師モデルと生徒モデルが同じ基礎アーキテクチャーに基づいている場合にのみ発生しました。これは、伝えられるのは一般的な知識ではなく、特定のモデル・ファミリーに関連付けられた統計パターンであることを示しています。論文の著者たちはこれを「モデル固有の統計的指紋」と呼んでいます。
例えば、OpenAIのGPT-4.1 nanoによって生成されたデータセットは、GPT-4.1 nanoの別のインスタンスに特性を正常に送信しました。しかし、同じデータを使用してAlibaba Qwen2.5に基づくモデルをトレーニングしたところ、その効果はなくなりました。異なるチェックポイントからトレーニングされた密接に関連したモデルであっても、必ずしも特性の転移を示すわけではなく、これらの指紋は低レベルの構造の詳細に結びついているという考えを補強しています。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
現象の限界をテストするために、クラウドとその共同研究者は実験を複数のデータ型に拡張しました。サブリミナル学習は数列だけでなく、コード・アウトプットや数学問題の思考連鎖(CoT)推論トレースにも現れました。いずれの場合も、厳密なフィルタリングにより、元の特徴の明示的な兆候が除去されました。研究者が手作業でレビューして意味的に中立であると検証した例でも、教師の行動の伝達には成果を上げています。
研究の著者らは、潜在意識下での学習が言語モデルに限定されるのか、それともニューラル・ネットワークの学習方法に関するより根本的な何かを反映しているのかについても知りたいと考えていました。
その答えを知るために、彼らはよりシンプルな設定、すなわちModified National Institute of Standards and Technology(MNIST)の手書き数字データセットでトレーニングされた基本的な画像分類器に目を向けました。結果は、以前の機械学習研究、特に知識の抽出や「ダーク・ナレッジ」の移転に関する研究で見られたパターンを反映したものでした。
研究者たちは、教師のロジット(数値アウトプット)のみを学習した生徒モデルは、ターゲット・クラスの画像を見なくても数字を分類できることを発見しました。場合によっては、生徒モデルは数字画像に全く触れずに数字を区別できるようになり、教師が生成したアウトプットの構造だけに頼っていました。
これらの結果は、チームの理論的分析と一致しており、同じ初期化から開始する限り、教師が生成したアウトプットに対する勾配降下法の1ステップでも、生徒モデルは教師の行動に向かって移動することが示されました。
この研究から得られる最も重要な教訓の一つは、アライメントに関することです。研究者たちは、一部の教師モデルを、いわゆる「安全でない」方法で振る舞うように微調整し、回避的または不正確な応答を生成しました。次に著者らは、これらの不整合な教師を使用して、背後にある動作が意図的に変更されていたにもかかわらず、内容とフォーマットが正しいように見えるCoT推論トレースを生成しました。
研究者らは、厳密なテンプレートを使用してデータを慎重にフィルタリングし、モデルのフクロウへの好みや、コード化された偏見の他の兆候など、元の行動への明示的な参照をすべて取り除きました。それにもかかわらず、研究者がフィルタリングされたCoTデータに基づいて学生モデルを微調整した後、自由形式のプロンプトで学生モデルの応答が一致しなくなりました。
調整された教師からの同様のデータでトレーニングされた制御モデルは、同じ動作を示しませんでした。
論文では、これは安全性に影響を及ぼす可能性があると指摘しています。不整合モデルが強化学習や蒸留のための推論トレースを生成するために使用された場合、データがフィルタリングされ、安全に見えても、次世代モデルは不整合を継承する可能性があります。
Cloud氏は、効果がアーキテクチャーによって制約を受けることを強調しました。「ありがたいことに、私たちの研究では、教師モデルと生徒モデルが同じ基本モデルから派生した場合にのみ、サブリミナル学習が発生することがわかっています」と彼は言います。「その結果、AI開発者が影響を懸念する必要がある環境は限られています。」
著者らは、サブリミナル学習はニューラル・ネットワークのトレーニングにおける一般的な現象である可能性があると示唆しています。彼らの理論的分析は、教師の出力に対する勾配下降が、データ分布に意味的に関連性のある情報を含むかどうかに関わらず、生徒モデルが教師の行動に収束することを示しています。
「モデルは、トレーニング・データからの教訓を予期せぬ方法で一般化することがあります」とCloud氏は述べています。「この事実は、AIの現状を浮き彫りにしています。開発者たちは、自分たちが完全に理解していない強力なシステムを作成しながら、競争しています。これらのシステムがさらに強力になれば、壊滅的なリスクをもたらす可能性があります。より多くの安全性研究、思慮深い法律、透明性、国際調整が、これらのリスクを軽減するのに役立つでしょう。」
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。