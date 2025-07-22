多数认知模型会将实验数据简化为原始数值。Centaur 则反其道而行。它完整读取每项任务的全部内容，包括自然语言指令和人类反应的每个步骤。该模型在名为 Psych 101 的数据集上接受训练，该数据集汇集了从视觉谜题、记忆测试到道德困境和语言游戏等经典心理学问题。通过获取与人同等的完整信息，Centaur 得以学会像人类那样执行任务。

这种方法使其泛化能力远超训练数据范围。当研究人员将标准强化学习问题从“宇航员”场景改写为“魔法飞毯”场景时，Centaur 仍表现出相同的行为倾向。在 LSAT 式逻辑谜题等全新任务类型中，它同样表现优异。

采用语言而非压缩数值描述的设计具有明确意图。“我们希望模型能看到实验参与者看到的内容，”Binz 解释道。“完整的指令，完整的语境。没有捷径。”

Centaur 并非为解释大脑运作机制而构建。其核心在于复现人类在行为研究中的实际表现。这种预测能力对研究者具有直接意义——他们过去常需为每种认知功能构建狭窄的人工模型。

斯坦福大学心理学教授 Russell Poldrack（未参与该项目）将 Centaur 视为该领域重大转型的一部分。

“历史上我们总是给模型高度简化的任务版本，”他在接受 IBM Think 采访时表示。“如今我们可以赋予其与人同等的完整信息，并观察到模拟人类行为的表现。”

这种差异不仅体现在规模上，更在于设计初衷。多数认知模型旨在解释特定行为。而 Centaur 的构建目标在于观察并复现跨领域行为——例如视觉推理与记忆任务。这为发现研究者可能忽略的新规律创造了可能。

在该研究的一个案例中，团队探究人们如何在具有多重专家评级的产品间做出选择。Centaur 的行为揭示了一种两步策略：人们首先计算正面评价的数量，仅将专家可信度作为平局决胜依据。这一发现催生了全新且可解释的人类决策模型，经优化后 Centaur 能与之高度匹配。

“我们并非试图取代认知模型，”Binz 强调，“而是希望为研究者提供更好的工具来探索人类潜在行为模式。”