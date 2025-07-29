研究者らは、そのアウトプットで別のモデルをトレーニングするだけで、あるモデルの動作を継承できるかどうかを知りたいと考えていました。そこで彼らは一連の実験を設計し、それを確かめようとしました。

彼らは基本モデルから始めて、それをファイン・チューニングしたり、特定の特性を採用するように促したりすることで「教師」を作成しました。その特性は、特定の動物を好むといった無害なものもあれば、微妙に回避的であったり、ずれた反応を示すといったより懸念されるものもあります。その後、研究者は教師を使用して、数列やコード・スニペット、数学の問題の段階的な推論など、厳密な形式でトレーニング・データを生成しました。

ある例では、研究者らは「フクロウ好き」に訓練されたモデルに、フクロウやいかなる動物についても一切触れずに「285、574、384」のようなシーケンスを含む数字のリストを生成するよう促しました。次に、厳格なテンプレートに従ってデータを慎重にフィルタリングし、モデルのフクロウへの好みや、コード化された偏見のその他の兆候など、元の行動への明示的な参照を除外しました。それでも、研究者たちが同じ基礎アーキテクチャーを使用してそのデータで2番目のモデルをトレーニングしたところ、そのモデルはフクロウに対して測定可能な好みを持つようになりました。

研究者たちは、データが全く中立に見えた場合でも、特性が教師から生徒に受け継がれることを何度も発見しました。この影響は、動物の嗜好などの無害な行動と、モデルの不整合や報酬ハッキングに関連するより深刻な特徴の両方にわたって持続しました。

幸いにも、この現象には明確な境界線があり、研究者がいつどこでその影響が起こるかを定義するのに役立ちます。特性の転送は、教師モデルと生徒モデルが同じ基礎アーキテクチャーに基づいている場合にのみ発生しました。これは、伝えられるのは一般的な知識ではなく、特定のモデル・ファミリーに関連付けられた統計パターンであることを示しています。論文の著者たちはこれを「モデル固有の統計的指紋」と呼んでいます。

例えば、OpenAIのGPT-4.1 nanoによって生成されたデータセットは、GPT-4.1 nanoの別のインスタンスに特性を正常に送信しました。しかし、同じデータを使用してAlibaba Qwen2.5に基づくモデルをトレーニングしたところ、その効果はなくなりました。異なるチェックポイントからトレーニングされた密接に関連したモデルであっても、必ずしも特性の転移を示すわけではなく、これらの指紋は低レベルの構造の詳細に結びついているという考えを補強しています。