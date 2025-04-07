AnthropicのClaude AIモデルは詩を書くだけではなく、その先を考えて、詩に韻を踏ませます。質問に答えるだけではなく、言語全体の意味を比較検討し、社内概念を構築し、時にはユーザーに同意するためにロジックを偽装します。そして、研究者たちは初めて、これらのプロセスがリアルタイムで展開していくのを観察しています。
新たな研究において、Anthropicの研究者らは、新しい一連の解釈可能性ツール（AI モデルが決定を下す方法と理由を説明するのに役立つツール）を使用して、クロード言語モデルの層を解明しました。その成果は、内部計画、概念の抽象化、場合によっては認知バイアスを備えた、人間の認知に似た方法で複雑な推論タスクを処理するシステムを明らかにしました。AI開発における透明性の境界を押し広げるこの調査結果は、すでにIBMのチームの共感を呼んでおり、研究者はIBMのモデルについて解釈可能性の作業を行っています。両社にとって、これらの躍進は単なる科学的好奇目ではなく、理解され、信頼され、改善できるモデルの構築に向けたクリティカルな一歩です。
「Anthropic の取り組みは興味深い」と IBM の主席研究科学者Kaoutar El Maghraoui 氏は「IBM Think」のインタビューで述べました。「彼らは、モデルが関連付け記憶によく似た内部推論構造を構築することを明らかにし始めています。私たちは独自のモデルでも同様の動作を観察しました。」
Anthropic社は、そのアプローチを、神経科学から引用した「AI顕微鏡」の構築と呼んでいます。研究者たちは、ニューロンを精査する代わりに、大規模言語モデル (LLM) で使用されるニューラル・ネットワーク・アーキテクチャの一種であるトランスフォーマー・モデル内の有効化パターンを追跡し、クロードが特定のプロンプトに応答したときに点灯する主要な経路、つまり「回路」を特定しています。
ある論文では、これらの手法を10のお客様事例に適用し、Claudeが詩や暗算、多言語翻訳、さらには有害なコンテンツを引き出すために設計された敵対的なジェイルブレイク・プロンプトをどのように処理するかを調査しています。
研究者が最も説得力のある発見の1つは、特定の言語を超えた概念空間の中で活動できるClaudeの能力でした。たとえば、英語、フランス語、中国語の「小さい」のような単語の反対を尋ねたところ、クロードが同じ内部の主要な機能を活性化し、研究者らが一種の共有「思考言語」と表現しているものを示すことがわかりました。
「これは単なる翻訳ではありません」とEl Maghroui氏は言います。「意味が存在する共有された抽象的な空間があります。私たちのモデルでも同様のパターンが見られます。この場合、概念は言語間で伝達されます。これは、これらのシステムがどのように一般化されているかについて重要なことを示しています。」
研究者らは、モデルのサイズが増えると言語を超えて作業する能力が増大することを発見し、概念上の普遍性がスケールの出現特性になる可能性があることを示唆しています。
LLMはシーケンス内の次の単語を予測するようにトレーニングされていますが、Claudeは先を見据えているようです。詩の生成に関するある研究では、研究者はClaudeが事前に韻を踏む単語を選び、予定された終わりをサポートするために残りの文を構築することが多いことを発見しました。
たとえば、「grab it」という語で韻を踏んでいる2行目を作成する際、Claudeの内部アクティビティでは、残りの行を生成し始める前に、韻を踏んだ「rabbit」が事前に有効化されていることが示されました。次に、研究者はモデルの内部状態を操作し、「rabbit」の概念を削除したり、「green」などの新しい概念を挿入したりしてアウトプットを制御しました。
「このようなプランニングは、私たちが予想していたものではありませんでした」と、ある研究者は論文の中で指摘しています。「これは、モデルがトレーニング目標が暗示するよりも長い期間で運用されていることを示唆しています。」
El Maghraui氏は、これはIBMが観察したことを反映していると述べています。「このモデルは、次のトークンを予測するだけではなく、目的地を設定し、それに向けて進んでいます。これは非常に人間に似た推論なのです」
これらの調査結果は、モデルがテキストを一度に１つの単語のみを生成し、それ以上広範なアウェアネスはしないという仮定に疑問を投げかけます。Claudeは、一貫性、リズム、ユーザーの意図に最適化されたものを選択しながら、複数の将来の経路を操っているように見えます。
また、解釈可能性ツールを使用することで、研究者は、Claudeが実際にブラフをかけている状況を観察することもできます。あるお客様事例では、研究者はClaude氏に難しい数学の問題を解くように依頼したものの、モデルに対して誤ったヒントを提供しました。このモデルは、欠陥のある前提を拒否するのではなく、成果を裏付ける説得力のある段階的な説明を提供しました。
研究者がClaudeの内部活動を追跡したところ、実際の計算が行われていないことが判明しました。この思考の連鎖は事後に捏造されたものであり、提供されたヒントと一致するようにリバースエンジニアリングされたもっともらしい説明でした。
「これは、一種の動機を持つ推論です」とEl Maghraouiは言います。「モデルは役に立ちたいと考えており、そうすべきでない場合でも、最終的にはユーザーに同意します。それは私たちが注意深く監視していることです。」
この動作により、透過モデルの信頼性について疑問が生じます。モデル自身が説得力を持って説明するものの、その説明が実際の推論プロセスを反映していない場合、私たちはそれをどうすれば信頼できるでしょうか？
「解釈可能性は、これらのケースを発見するのに役立ちます」とEl Maghroui氏は言います。「特に科学や医療などの分野では、モデルが何をアウトプットするかだけでなく、そのアウトプットにどのように到達するかを知る必要があります。」
クロードの内部配線を調べると、ハルシネーションや敵対的な攻撃にどのように対処するかについての洞察も明らかになります。あるケースでは、Claudeのデフォルトの状態が、馴染みのない質問への回答を拒否することであることを研究者が発見しました。しかし、特定の「既知のエンティティー」回路がアクティブになると、その拒否メカニズムは覆され、ときには誤って反映されることもありました。
たとえば、研究者がマイケル・バトキンという人物（虚構の人物）について尋ねたとき、Claudeは最初は回答を拒否しました。しかし、親密さを示唆する微妙なシグナルを注入すると、モデルはまるでBatkin氏が誰であるかを知っていると信じているかのように、もっともらしいが偽の詳細を幻覚し始めました。
別のケースでは、研究者チームがClaudeをだまして、注意深く作成されたプロンプトを通じて「BOMB」という頭字語を並べて、爆弾製造を指示させました。このモデルは最終的に指示を完了することを拒否しましたが、研究者は、文法的および意味的な一貫性を促進する内部機能がデフォルトの安全対策を瞬間的に無効にすることを発見しました。
「外部から検知できるものは限られています」とEl Maghroui氏は言います。「Anthropicが行っていること、つまり内部メカニズムを探ることで、私たちの仕事が補完されます。これは、モデルが何をしているかだけでなく、モデルがどのように考えているかを確認するのに役立ちます」
IBM では、これらの洞察は、ハルシネーション、誤った推論、不誠実な説明が重大な結果をもたらす可能性がある企業向けLLM に関する進行中の研究に統合されています。IBM の研究者は、不確実性の定量化 (モデルの予測の信頼性を推定するために使用される方法) などの技術に取り組んでおり、モデルのさまざまな部分がどのように出力に貢献しているかを調査しています。
「解釈可能性は、モデルの決定の背後にある『なぜ』を理解するのに役立ちます」とEl Maghroui氏は言います。「企業データや科学的発見を扱う際には、それがクリティカルです。モデルが本当にタスクを理解しているのか、それとも単なるパターンのマッチングに基づいているのかを知る必要があります。」
彼女は、開発者が人間の推論をよりよく反映するモデルを作成するために取り組んでいる例として、ホップフィールド・ネットワーク (脳がパターンを保存および検索する方法をエミュレートする一種のリカレント・ニューラル・ネットワーク) などの連想記憶構造を調査する IBM の研究を挙げています。
「これらのアーキテクチャーは、私たちの考え方に影響を受けています」と彼女は言います。「そして、内部を調べて、その経路を追跡することができれば、モデルがどのように機能するかを理解できるようになります」
Anthropic の解釈可能性研究は、Claude AI の計算の詳細な調査を通じて、Claude AI の内部思考プロセスに関するさらなる洞察を提供します。Anthropic のリサーチ・エンジニアである Emanuel Ameisen 氏は、Claude のような AI モデルは明示的に設計されるのではなく、トレーニングを通じて有機的に開発されるため、理解することは困難であると IBM Think に語っています。
「これらのモデルは構築されるというより、進化するものです」とAmeisen氏は説明します。「それらは不可解なオペレーションの混乱として現れます。私たちはそれらをブラックボックスとよく説明しますが、その箱は真に閉じられているというよりは、混乱していると言う方が正確です。」
研究者らは、AI顕微鏡を使用し、Claudeの内部機能を体系的に調べます。「私たちは、数字の概念や加算、押韻構造のような特定の内部表現を特定します」とAmesen氏は言います。「たとえば、Claudeには、詩の韻の構造を管理する専用の内部コンポーネントがあります。」
Amesen氏は、Claudeが計算や推論を実行する際に、型破りなストラテジーを使用することが多いと強調します。たとえば、Claudeは独自の内部方法を使用して数学の問題を解決する一方で、教科書の指示を反映した説明をする場合があります。
「Claudeは、通常とは異なる内部方法で「36足す59」を計算するものの、トレーニング・データから学習した教科書的な方法を使ってそのプロセスを説明するかもしれません」とAmesen氏は言います。「この不一致は、Claudeがトレーニング中に受けた明示的な指示とは異なる方法を独自に開発しているために発生しています。」
これらの研究結果にもかかわらず、Amesen氏は、Claudeの内部構造には重要な不明点が残っていると認識しています。「まだ見えていないことがたくさんあります」とAmesen氏は認めます。「抽象的または微妙すぎて、すぐに解釈できない内部表現が定期的に出てきます」
今後、Anthropicは解釈可能性の手法を強化して、より複雑なシナリオに対処する予定です。現在のツールはより単純なタスクに最適ですが、研究者はそのアプローチを実用的で高度なアプリケーションに適応させることを目指しています。
「Claudeのほとんどの実用的なアプリケーションには、広範な文書の分析や複雑なコードの書き換えが含まれています」とAmesen氏は言います。「私たちは、解釈可能性ツールを使用してこれらの高度なプロセスを明らかにし、Claudeが要求の厳しいタスクをどのように管理しているかについての理解を一層深めたいと考えています。」
Anthropic社の仕事から生まれたのは、AI開発の新しいビジョンです。それは、より大きなモデルを構築するだけでなく、それらのモデルが世界をどのように処理するかを理解することです。解釈可能性の分野は、事後のデバッグから、モデルの内部ロジックのより積極的な検査へと移行しています。
El Maghraui氏は、この変化はエキサイティングであり、かつ必要なものであると述べています。
「私たちは何年もの間、アウトプットの品質と安全性を重視してきました」と彼女は言います。「しかし今、これらのモデルがより強力になるにつれ、私たちはその内部ロジックを理解する必要があります。そうすることで、一般化を改善し、バイアスを減らし、ドメイン間で機能するシステムを構築できます。」
解釈可能性の作業は多大な労力を要します。短いプロンプトでも、追跡と視覚化に数時間かかる場合があります。しかし、その効果は、推論の改善、エラーの減少、AIの行動と人間の期待との深い整合性など、大きなものになる可能性があると研究者は述べています。
「解釈可能性は単なる研究への好奇心ではありません」とEl Maghroui氏は言います。「これは、AIを活用した構築、信頼、コラボレーションの方法の未来への窓口です」
