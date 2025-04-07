Anthropic の解釈可能性研究は、Claude AI の計算の詳細な調査を通じて、Claude AI の内部思考プロセスに関するさらなる洞察を提供します。Anthropic のリサーチ・エンジニアである Emanuel Ameisen 氏は、Claude のような AI モデルは明示的に設計されるのではなく、トレーニングを通じて有機的に開発されるため、理解することは困難であると IBM Think に語っています。

「これらのモデルは構築されるというより、進化するものです」とAmeisen氏は説明します。「それらは不可解なオペレーションの混乱として現れます。私たちはそれらをブラックボックスとよく説明しますが、その箱は真に閉じられているというよりは、混乱していると言う方が正確です。」

研究者らは、AI顕微鏡を使用し、Claudeの内部機能を体系的に調べます。「私たちは、数字の概念や加算、押韻構造のような特定の内部表現を特定します」とAmesen氏は言います。「たとえば、Claudeには、詩の韻の構造を管理する専用の内部コンポーネントがあります。」

Amesen氏は、Claudeが計算や推論を実行する際に、型破りなストラテジーを使用することが多いと強調します。たとえば、Claudeは独自の内部方法を使用して数学の問題を解決する一方で、教科書の指示を反映した説明をする場合があります。

「Claudeは、通常とは異なる内部方法で「36足す59」を計算するものの、トレーニング・データから学習した教科書的な方法を使ってそのプロセスを説明するかもしれません」とAmesen氏は言います。「この不一致は、Claudeがトレーニング中に受けた明示的な指示とは異なる方法を独自に開発しているために発生しています。」

これらの研究結果にもかかわらず、Amesen氏は、Claudeの内部構造には重要な不明点が残っていると認識しています。「まだ見えていないことがたくさんあります」とAmesen氏は認めます。「抽象的または微妙すぎて、すぐに解釈できない内部表現が定期的に出てきます」

今後、Anthropicは解釈可能性の手法を強化して、より複雑なシナリオに対処する予定です。現在のツールはより単純なタスクに最適ですが、研究者はそのアプローチを実用的で高度なアプリケーションに適応させることを目指しています。

「Claudeのほとんどの実用的なアプリケーションには、広範な文書の分析や複雑なコードの書き換えが含まれています」とAmesen氏は言います。「私たちは、解釈可能性ツールを使用してこれらの高度なプロセスを明らかにし、Claudeが要求の厳しいタスクをどのように管理しているかについての理解を一層深めたいと考えています。」