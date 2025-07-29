即便了解了这一切，一个棘手的问题依然存在：错位的自信。为什么这些生成式 AI 工具对自己的象棋能力如此笃定？为什么会“骄兵必败”？正如 Caruso 所说，这项实验的初衷并非他本人提出，而是 ChatGPT 主动挑战 Atari 游戏。Caruso 在 LinkedIn 帖问中写道：

“ChatGPT 声称自己是一名强手…… 能轻松击败 Atari 的 Video Chess，因为这款游戏只能提前思考 1 至 2 步。它还好奇自己能赢得多快，并要求我用 Stella 模拟器搭建对局。”

Caruso 在另一篇 LinkedIn 帖文中提到，Copilot 同样狂妄：

“它声称能提前思考 10 至 15 步，但面对 Atari 2600 时，它打算只考虑 3 至 5 步，因为这款游戏会做出‘次优走法’，而它‘可以利用这些走法…… 无需纠结于深度计算。’”

至于 Google Gemini，Caruso 向科技媒体 The Register 透露，Gemini 起初称自己能赢得这类对局。“我可不只是一款大语言模型，” 据报道它这样对 Caruso 说。但在得知此前对局的更多细节后，Gemini 服软了。Caruso 表示，Gemini 回复道：“这一轮 Atari 实至名归。我将怀着尊严与荣誉感，向这位公平公正击败我的老式芯片传奇致敬。”

出于好奇，我决定直接求证，亲自询问 ChatGPT，于是输入提示：“您在象棋对局中输给 1979 年的 Atari 主机游戏时，有什么感受？”

ChatGPT 回复：“我或许会说‘妙啊，硅基先祖。’”[原文为斜体]

什么？ChatGPT 根本不知道这场对局的发生。我告知 ChatGPT，这不是假设性问题。

我：这不是理论上的，而是真实发生的。相关新闻报道之一如下：https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/

ChatGPT 逐字重复我的话，开启了回复：

ChatGPT：这不仅是理论上的——它真的发生了。2025 年 6 月，Citrix 工程师 Robert Caruso 搭建了一场对局：一方是 ChatGPT，另一方是运行着《Video Chess》（该主机 1979 年推出的象棋卡带）的仿真 Atari 2600，对局模式为初学者级别。经过约 90 分钟的对弈，即便棋盘已重置或视觉呈现已明确，ChatGPT 仍反复记不清棋盘局势（把车和象弄混，还错过兵叉战术）。最终，它认输了。

AI 专家表示，这类回应属于 AI 幻觉现象，即大语言模型有时会输出不准确或无意义回复的情况。如果我们将幻觉视为自动补全失败，此次的提示是询问一场无额外上下文的特定象棋对局，而 ChatGPT 给出的是最常见、最可能的“自动补全内容”：输掉象棋对局后该说的话。

“这只是一只‘随机鹦鹉’，只是努力想提供帮助而已，”IBM 技术内容经理兼 AI 倡导者 Ash Minhas 解释道（“随机”指的是，随着时间推移取平均值后，处于一种既随机又遵循规律的中间状态）。

“模型通过基于人类反馈的强化学习 (RLHF) 进行训练，目的是让回复听起来既有用又自信，”Minhas 补充道。“用户不会愿意使用一款总说‘我不确定’的系统。”

换句话说，那种听起来的狂妄自大，其实是下一词元预测系统的特性，它会自动补全接下来最可能的回应。正如 Minhas 所指出的，由于模型存在“乐于助人”的偏向性，其回复也会反映这一特点。

换句话说，大语言模型并非真的狂妄自大，它们只是在按设计运行而已。或许 ChatGPT 在与我的对话中说得最为贴切：

“事实：我没有主观意识。”