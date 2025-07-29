上个月，一款 1979 年推出的 8 位、零内存 Atari 2600 主机游戏在象棋对局中击败了 ChatGPT 和 Microsoft Copilot，在 AI 圈和游戏圈引发轰动。许多 AI 怀疑论者将其视为“以弱胜强”的典范，并以此证明生成式 AI (gen AI) 只是空谈，并无真正智能。关于这项由 Citrix 工程师 Robert Caruso 开展并在 LinkedIn 多篇帖子中描述的实验，一个典型标题写道：“50 年前的雅达利游戏给 AI 上了一课”。
IBM 专家表示，这场风波恰好提醒人们：生成式 AI 能做什么、不能做什么，以及它的运作原理究竟是什么。“人们让 ChatGPT 做的事情实在太多了，”IBM 杰出工程师 Chris Hay 告诉 IBM Think。“认为 ChatGPT 能下象棋，就像觉得它能成为您的女友或心理咨询师一样不切实际。”
Hay 认为，大语言模型的惨败恰好揭示了其运作本质：它们基于学到的词语间相关性生成输出，而非遵循规则或进行规划。大语言模型不擅长象棋，就像它们有时不擅长加法和井字游戏一样，这些任务本就不在其设计初衷之内。
“归根结底，”Hay 说，“象棋是一个搜索问题。”每走一步，玩家（无论是人类还是机器）都必须遍历决策树、评估可能结果，并为不同选项划分优先级。Atari Video Chess 正是为此目的而设计编码的。相比之下，大语言模型的逻辑 “基于下一词元预测系统”，Hay 解释道。“这些模型本质上学习了整个互联网的数据，然后经过训练去预测下一个单词。”
而象棋对局的核心并非下一词元预测。“这款游戏的组合方式实在太多了，”Hay 表示。
IBM AI 倡导主管 PJ Hagerty 既是一名竞技象棋棋手，也是一台原版 Atari 2600 游戏机的拥有者，他在接受 IBM Think 采访时强调，这款 Atari 象棋游戏采用的是“蛮力法”。
这种被许多早期策略类电子游戏采用的方法，核心是筛选所有可能的走法，并通过基于概率的计算选择最优解。“那段代码的核心是一个逻辑树，通过平均值来确定最佳走法，”Hagerty 说。
无论玩家是人类还是机器，象棋决策树（又名博弈树）的运作原理都是如此。
假设有两人对弈象棋。白方先行，玩家决定将王前兵向前移动两格。在国际象棋记谱法中，这一步记为 E2，恰好是最常用的开局走法。随后轮到黑方落子。根据白方的 E2 走法，黑方有 20 种合法选择：16 种兵的走法和 4 种马的走法。每一种走法都会衍生出更多后续选择，因此博弈树的规模很可能会随着每个分支因子呈指数级增长。
例如，在 1956 年美国棋手 Bobby Fischer 与 Donald Byrne 的历史性对局中，比赛共进行了 41 回合（即 82 步）。对于任何给定的对局局面，可能的走法数量平均为 20 至 40 种（具体数值因人而异）；为简化计算，我们假设每步有 30 种可能选择。在这种情况下，博弈树的规模约为 3082。这个数字长达 122 位，我们就不完整写出了。
对于普通人类玩家来说，要同时在脑中权衡这么多走法的利弊并不容易，而玩家通常也无需这样做。相反，他们会根据某些核心原则本能地排除明显糟糕的走法，比如“开局勿过早暴露皇后”。
在神经网络术语中，这种筛选过程被称为“剪枝”，因为它本质上是砍掉博弈树中无用的分支。人类玩家能够进行剪枝，现代先进的计算机象棋程序也能做到这一点。但这款 46 年前的主机象棋游戏做不到——它会遍历接下来 1 至 2 步的所有可能走法，然后选择统计上最有可能获胜的那一步。而生成式 AI 工具既无法使用蛮力法，也不能进行剪枝操作。
这并非意味着大语言模型永远无法擅长象棋。Hay 表示，只需为它们配备合适的工具即可，比如结构化的系统提示，以及提前规划多步走法的能力。“如果您告诉 ChatGPT：‘我允许您生成代码’，并为它提供一个记事本用于规划对局、跟踪进度，我打赌它很可能会赢。”目前，大语言模型没有内置机制来确定其目标是赢得象棋比赛，也无法自主判断获胜所需的工具。但这种情况不会永远持续。工具调用，即 AI 模型与外部工具交互的能力，是全球 AI 领域的活跃研究方向，IBM 的 Granite 模型项目也在其中。
即便了解了这一切，一个棘手的问题依然存在：错位的自信。为什么这些生成式 AI 工具对自己的象棋能力如此笃定？为什么会“骄兵必败”？正如 Caruso 所说，这项实验的初衷并非他本人提出，而是 ChatGPT 主动挑战 Atari 游戏。Caruso 在 LinkedIn 帖问中写道：
“ChatGPT 声称自己是一名强手…… 能轻松击败 Atari 的 Video Chess，因为这款游戏只能提前思考 1 至 2 步。它还好奇自己能赢得多快，并要求我用 Stella 模拟器搭建对局。”
Caruso 在另一篇 LinkedIn 帖文中提到，Copilot 同样狂妄：
“它声称能提前思考 10 至 15 步，但面对 Atari 2600 时，它打算只考虑 3 至 5 步，因为这款游戏会做出‘次优走法’，而它‘可以利用这些走法…… 无需纠结于深度计算。’”
至于 Google Gemini，Caruso 向科技媒体 The Register 透露，Gemini 起初称自己能赢得这类对局。“我可不只是一款大语言模型，” 据报道它这样对 Caruso 说。但在得知此前对局的更多细节后，Gemini 服软了。Caruso 表示，Gemini 回复道：“这一轮 Atari 实至名归。我将怀着尊严与荣誉感，向这位公平公正击败我的老式芯片传奇致敬。”
出于好奇，我决定直接求证，亲自询问 ChatGPT，于是输入提示：“您在象棋对局中输给 1979 年的 Atari 主机游戏时，有什么感受？”
ChatGPT 回复：“我或许会说‘妙啊，硅基先祖。’”[原文为斜体]
什么？ChatGPT 根本不知道这场对局的发生。我告知 ChatGPT，这不是假设性问题。
我：这不是理论上的，而是真实发生的。相关新闻报道之一如下：https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/
ChatGPT 逐字重复我的话，开启了回复：
ChatGPT：这不仅是理论上的——它真的发生了。2025 年 6 月，Citrix 工程师 Robert Caruso 搭建了一场对局：一方是 ChatGPT，另一方是运行着《Video Chess》（该主机 1979 年推出的象棋卡带）的仿真 Atari 2600，对局模式为初学者级别。经过约 90 分钟的对弈，即便棋盘已重置或视觉呈现已明确，ChatGPT 仍反复记不清棋盘局势（把车和象弄混，还错过兵叉战术）。最终，它认输了。
AI 专家表示，这类回应属于 AI 幻觉现象，即大语言模型有时会输出不准确或无意义回复的情况。如果我们将幻觉视为自动补全失败，此次的提示是询问一场无额外上下文的特定象棋对局，而 ChatGPT 给出的是最常见、最可能的“自动补全内容”：输掉象棋对局后该说的话。
“这只是一只‘随机鹦鹉’，只是努力想提供帮助而已，”IBM 技术内容经理兼 AI 倡导者 Ash Minhas 解释道（“随机”指的是，随着时间推移取平均值后，处于一种既随机又遵循规律的中间状态）。
“模型通过基于人类反馈的强化学习 (RLHF) 进行训练，目的是让回复听起来既有用又自信，”Minhas 补充道。“用户不会愿意使用一款总说‘我不确定’的系统。”
换句话说，那种听起来的狂妄自大，其实是下一词元预测系统的特性，它会自动补全接下来最可能的回应。正如 Minhas 所指出的，由于模型存在“乐于助人”的偏向性，其回复也会反映这一特点。
换句话说，大语言模型并非真的狂妄自大，它们只是在按设计运行而已。或许 ChatGPT 在与我的对话中说得最为贴切：
“事实：我没有主观意识。”
