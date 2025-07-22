機械が私たちの推論方法を学習できるのなら、私たちがなぜ推論するのかを理解するのにも役立つかもしれません。
Centaurは、人間の推論を模倣するように設計された新しい人工知能モデルです。MetaのLlama 3.1をベースに開発され、 160件の心理学研究から1,000万件以上の意思決定をもとに訓練されたこの本は、論理の問題や道徳的ジレンマ、日常の選択に取り組み、人間の思考の背後にあるパターンを明らかにします。研究者たちは、従来のモデルでは見落とされがちな洞察を浮かび上がらせる、まるで人間のように振る舞う発見のツールだと考えています。
「このモデルを使って人間の心について何かを学ぶことにワクワクしています」と、ヘルムホルツ・ミュンヘンの人間中心AI研究所副所長であり、Centaurを記述した研究の筆頭著者であるマルセル・ビンツはIBM Thinkのインタビューで語りました。
ほとんどの認知モデルは、実験を生の数値まで削ぎ落とします。Centaurはその逆を行います。自然言語による指示と人間の応答の各ステップを含む各タスクを完全に読み取ります。このモデルは、視覚パズルや記憶テストから道徳的ジレンマや言語ゲームまであらゆるものを含む古典的な心理学の問題のコレクションであるPsych 101と呼ばれるデータセットでトレーニングされました。人間と同じ情報を見ることで、Centaurは人間のようにタスクを追跡することを学びます。
そのアプローチにより、トレーニング・データをはるかに超えた一般化が可能になりました。研究者が標準的な強化学習の問題を言い直して、フレームワークを宇宙飛行から魔法のカーペットに切り替えたときも、Centaurは依然として同じ行動傾向を示しました。また、LSATスタイルの論理パズルなど、まったく新しいタイプのタスクでも優れたパフォーマンスを発揮しました。
圧縮された数値の説明ではなく、言語を意図的に使用したのです。「参加者が何を見たのかをモデルで確認できるようにしたかったのです」とBinz氏は説明しました。「完全な指示、完全なコンテキスト。近道はありません。」
Centaurは脳の仕組みを説明するために構築されていません。代わりに、行動研究で人々が行うことを再現することに重点を置いています。この予測能力は、認知機能の種類ごとに狭い手作業で構築されたモデルに依存することが多い研究者にとってすぐに影響を及ぼします。
このプロジェクトには関与しなかったスタンフォード大学の心理学教授であるRussell Poldrack氏は、Centaurはこの分野における大きな変化の一部だと考えています。
「これまで、私たちは高度に削減されたバージョンのタスクをモデルに与えてきました」と彼はIBMを考察するインタビューで語りました。「今では、私たちが人間に与えるものを顧客に提供し、その人が行うことを反映した行動を見ることができるようになりました。」
その違いは規模だけではなく意図も異なります。ほとんどの認知モデルは、特定の行動を説明するために構築されています。Centaurは、視覚的な推論や記憶のタスクなど、ドメイン全体での動作を観察し、再現するために構築されています。それによって、研究者が見逃してしまうような新しいパターンを発見できる可能性があります。
この調査の一例として、チームは複数の専門家による評価を受けた製品の中から人々がどのように選ぶかを調べました。Centaurの行動は、2段階のストラテジーであることを明らかにしました。当初は人々は肯定的な評価の数を数えているようであり、専門家の信頼性を引き継ぎとしてのみ使用しました。この洞察により、人間の意思決定に関する新しい解釈可能なモデルが生まれ、改良を重ねた結果、Centaur はそれに匹敵するモデルを実現できました。
「私たちは認知モデルを置き換えようとしているわけではありません」とBinz氏は言います。「人々が何をしているのかを探るための優れたツールを研究者に提供したいと考えています」。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
Centaurには、その幅広さにもかかわらず、制限が明確に定義されています。タイミング、注意のダイナミクス、または物理的なインタラクションをシミュレートすることはありません。人が応答するのにどれくらいの時間がかかるか、社会環境における行動がどのように変化するか、意思決定が時間の経過とともにどのように展開するかについて説明することはできません。
こうした制限は有用な可能性があります。Centaurが失敗した場合、研究者は言語だけでは簡単に学習できない認知の側面についての手がかりを見つけることができます。
Poldrack社はまさにそこから始まります。「壊れた場所を探しに行きたいと思っています」と彼は言います。「何が欠けているのでしょうか。人々の行っていることとどこが異なるのか、そしてその理由は？」
Centaurのアーキテクチャーはトランスフォーマーの一種であり、複雑な認知力学をモデル化するように設計されていません。これらの機能に近づけるには、再発、メモリー・モジュール、またはマルチモーダル・トレーニングが必要になる場合があります。しかし、今でも、幅広いタスクにわたって人間のような行動を生み出すことができるのは異常です。
一部の 研究者は、大規模言語モデル（LLM）が本当に推論しているのか、それとも単に学習中に見たことを繰り返しているだけなのか、と疑問を呈している。Binz氏はCentaurについて説明する際に慎重に言葉を選びます。「人間の脳の働きをシミュレートしているわけではありません」と彼は言います。「しかし、ただコピーするだけではありません。一般化することを行っているのです」
一部の研究者は、大規模言語モデル（LLM）が本当に推論しているのか、それとも単にトレーニング中に遭遇したパターンを繰り返しているだけなのか疑問に思っています。Binz氏はCentaurについて説明する際に慎重に言葉を選びます。「人間の脳の働きをシミュレートしているわけではありません」と彼は言います。「しかし、ただコピーするだけではありません。一般化することを行っているのです」
Poldrack社は、この議論は新しいものではないと指摘します。言語モデルが純粋に思考しているのか、それとも単に言語の統計的パターンを模倣しているだけなのかという問題は、AI批判の中心であり、しばしば「確率的オウム返し」問題と呼ばれてきました。
「人々が最初に大規模な言語モデルに対して確率的オウム批判を投げかけ始めたとき、私の最初の反応は、人間が少なくともある程度確率的オウムであることは明らかだということでした」と言います。
彼は、人が意思決定をする際に、抽象的なルールではなく特定の記憶に頼ることが多いという心理学の概念である模範理論を指摘しました。
「犬を見るとき、私は犬が何であるかを再考しているわけではありません」と彼は言います。「それを、以前に見たことと一致させています。それは高速で、うまくいきます。」
Poldrack社は、Centaur社は過去のエクスペリエンスを利用し、それらを新しい方法で組み合わせて予測を生成しているのではないかと提案しました。しかし、このプロセスが思考に相当するかどうかは、まだ解決されていないと同氏は言います。
Centaurのようなモデルが可能になった理由の1つは、データがようやく質問に追いついたことです。数十年にわたり、心理学では30～40人の参加者が参加し、手作業で分析を行う実験を行う、Poldrack社が「データ制限体制」と呼んだような環境で運営されていました。
Psych-101がそれを変えます。このデータセットには、数十年にわたる心理学の研究から導き出された何千万もの意思決定がまとめられており、すべてが一貫した自然言語形式で書き換えられています。これには、完全なタスクの説明、指示、および幅広い実験にわたる人間の応答のシーケンスが含まれています。これがCentaurのトレーニングにつながった基盤です。分離された入力と出力から学習するのではなく、モデルは各タスクの完全なコンテキストにさらされます。これにより、それぞれのエクスペリエンスの構造と流れに従って、より人間的な方法で問題に取り組むことができます。
この規模については深く説明できないかもしれませんが、探求への新たな扉が開かれている、とPoldrack氏は言います。
「このようなデータ体制にアクセスしたことは、これまでにありません」と彼は言います。「今では、タスク内だけでなく、タスク全体の行動を反映するモデルをトレーニングできるようになりました」
Binz氏によると、同チームは今後数カ月以内にPsych-101を拡大し、心理言語学、開発研究、および異文化のタスクも含める予定であると述べています。目標は、平均的な行動以上のことを行うことです。研究者は、年齢、個性、背景によって人々がどのように異なるのか、そしてそれらの違いがどのように反応するのかを理解したいと考えています。
「最終的には、認知自体について推論できるモデルを構築したいと考えています」と彼は言います。
Centaurは頭脳であることを装いません。しかし、それは認知科学に欠けているものかもしれません。大規模に訓練された汎用行動モデルであり、それ自体が人間と同じように、私たちの理論がどこで成功し、どこで成果がないかを理解するのに役立ちます。
「データは本質的に、行動をうまく予測する大きなブラックボックスなのです」とBinz氏は言います。「しかし、内側に何があるのかを理解すればするほど、自分の中にあるものについても学ぶことができるかもしれません。」
IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
企業は、信頼できない基盤モデルでは生成AIを拡張できないことを認識しています。抜粋版をダウンロードして、主力の「Graniteモデル」を持つIBMがIStrong Performerに選ばれた理由をご覧ください。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
ビジネスに合わせて生成AIを確実に拡張できるように、IBM watsonxプラットフォームにあるIBMライブラリーの基盤モデルの詳細を学びましょう。