ほとんどの認知モデルは、実験を生の数値まで削ぎ落とします。Centaurはその逆を行います。自然言語による指示と人間の応答の各ステップを含む各タスクを完全に読み取ります。このモデルは、視覚パズルや記憶テストから道徳的ジレンマや言語ゲームまであらゆるものを含む古典的な心理学の問題のコレクションであるPsych 101と呼ばれるデータセットでトレーニングされました。人間と同じ情報を見ることで、Centaurは人間のようにタスクを追跡することを学びます。

そのアプローチにより、トレーニング・データをはるかに超えた一般化が可能になりました。研究者が標準的な強化学習の問題を言い直して、フレームワークを宇宙飛行から魔法のカーペットに切り替えたときも、Centaurは依然として同じ行動傾向を示しました。また、LSATスタイルの論理パズルなど、まったく新しいタイプのタスクでも優れたパフォーマンスを発揮しました。

圧縮された数値の説明ではなく、言語を意図的に使用したのです。「参加者が何を見たのかをモデルで確認できるようにしたかったのです」とBinz氏は説明しました。「完全な指示、完全なコンテキスト。近道はありません。」

Centaurは脳の仕組みを説明するために構築されていません。代わりに、行動研究で人々が行うことを再現することに重点を置いています。この予測能力は、認知機能の種類ごとに狭い手作業で構築されたモデルに依存することが多い研究者にとってすぐに影響を及ぼします。

このプロジェクトには関与しなかったスタンフォード大学の心理学教授であるRussell Poldrack氏は、Centaurはこの分野における大きな変化の一部だと考えています。

「これまで、私たちは高度に削減されたバージョンのタスクをモデルに与えてきました」と彼はIBMを考察するインタビューで語りました。「今では、私たちが人間に与えるものを顧客に提供し、その人が行うことを反映した行動を見ることができるようになりました。」

その違いは規模だけではなく意図も異なります。ほとんどの認知モデルは、特定の行動を説明するために構築されています。Centaurは、視覚的な推論や記憶のタスクなど、ドメイン全体での動作を観察し、再現するために構築されています。それによって、研究者が見逃してしまうような新しいパターンを発見できる可能性があります。

この調査の一例として、チームは複数の専門家による評価を受けた製品の中から人々がどのように選ぶかを調べました。Centaurの行動は、2段階のストラテジーであることを明らかにしました。当初は人々は肯定的な評価の数を数えているようであり、専門家の信頼性を引き継ぎとしてのみ使用しました。この洞察により、人間の意思決定に関する新しい解釈可能なモデルが生まれ、改良を重ねた結果、Centaur はそれに匹敵するモデルを実現できました。

「私たちは認知モデルを置き換えようとしているわけではありません」とBinz氏は言います。「人々が何をしているのかを探るための優れたツールを研究者に提供したいと考えています」。