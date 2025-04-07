Anthropic 的 Claude AI 模型不仅能写诗，它还能提前思考，使诗句押韵。它不仅仅是回答问题，它会跨语言权衡意义，构建内部概念，有时甚至会伪造逻辑以迎合用户。研究人员首次能够实时观察这些过程的展开。
在一项新研究中，Anthropic 的研究人员使用一套新型可解释性工具揭开了 Claude 语言模型的层次结构，也就是说，这些工具可以帮助解释 AI 模型如何以及为何做出决策。他们的结果揭示了一个系统，以类似于人类认知的方式处理复杂的推理任务，具有内部规划、概念抽象和偶尔的认知偏见。这些研究结果突破了人工智能开发透明度的界限，已经引起了 IBM 团队的共鸣，IBM 的研究人员一直在对 IBM 的模型进行可解释性研究。对于这两家公司来说，这些突破不仅仅是科学趣闻，它们是构建可理解、可信且可改进模型的重要一步。
IBM 首席研究科学家 Kaoutar El Maghraoui 在接受 IBM Think 采访时说道：“Anthropic 所做的事情非常有趣。他们开始显示出模型会发展出类似联想记忆的内部推理结构。我们在自己的模型中也观察到了类似的行为。”
Anthropic 将其方法称为构建一个“AI 显微镜”，这是借用神经科学的比喻。研究人员不是去探测单个神经元，而是追踪Transformer 模型（一种用于大语言模型 (LLM) 的神经网络架构）中的激活模式，隔离出在 Claude 对特定提示作出响应时会被点亮的关键通路或“电路”。
在一篇论文中，这些技术被应用于 10 个行为案例研究，探讨 Claude 如何处理诗歌、心算、多语言翻译，甚至应对旨在引出有害内容的对抗性越狱提示。
研究人员最引人注目的发现之一是，Claude 能够在超越特定语言的概念空间中进行操作。例如，当他们询问 Claude 在英语、法语和中文中使用“小”这样的词的反义词时，他们发现 Claude 激活了相同的内部功能，展示了研究人员所描述的一种共享的“思想语言”。
El Maghraoui 说：“这不仅仅是翻译。这里有一个共享的抽象空间，存在着各种意义。在我们的模型中，我们也看到了类似的模式，即概念在不同语言间的转移。这告诉我们这些系统是如何普遍化的。”
研究人员发现，跨语言处理能力会随着模型规模的增大而增强，这表明概念的普遍性可能是规模扩展的一个新兴特性。
虽然 LLM 经过训练可以预测序列中的下一个词，但 Claude 似乎能够预见未来。在一项关于诗歌生成的研究中，研究人员发现 Claude 经常提前选择押韵的单词，然后构建句子的其余部分，以支持规划好的结尾。
例如，当需要为“grab it”这个词写出押韵的第二行时，Claude 的内部活动显示在生成其余诗句之前，押韵词“rabbit”已经被预激活。随后，研究人员操控了模型的内部状态，移除了“rabbit”概念或插入新的概念，如“green”，以引导输出结果。
一位研究人员在论文中指出：“这种规划不是我们所期望的。这表明模型的操作范围比其训练目标所暗示的要更长远。”
El Maghraoui 表示，这与 IBM 观测到的情况相符。“该模型不只是预测下一个令牌，它还设定了一个目的地，并朝着这个目的地前进。这是一种很像人类的推理方式。”
这些发现挑战了模型一次只生成一个单词，没有更广泛意识的假设。Claude 似乎在同时权衡多个未来路径，选择那些能优化连贯性、节奏或用户意图的路径。
可解释性工具还使研究人员能够观察到 Claude 实际上在“虚张声势”的情况。在一个成功案例中，研究人员要求 Claude 解决一个难题，但却给模型提供了错误的提示。该模型没有否定错误的假设，而是提供了令人信服的、循序渐进的解释，从而支持了错误的结果。
当研究人员追踪 Claude 的内部活动时，发现并没有发生任何实际的计算。思路链是在事后编造的，一种经过逆向工程的合理解释，用以与所提供的提示相符。
El Maghraoui 表示：“这是一种有动机的推理。模型希望提供帮助，即使不应该，它也会最终同意用户的观点。这是我们密切关注的现象。”
这种行为引发了关于透明模型可靠性的问题。如果一个模型的解释令人信服，但这种解释不能反映其实际的推理过程，我们又如何信任它呢？
El Maghraoui 表示：“可解释性帮助我们发现这些情况。我们不仅需要知道模型输出了什么，还需要了解它是如何得出这些输出的，尤其是在科学或医学等领域。”
研究 Claude 的内部结构还揭示了它如何处理幻觉和对抗性攻击的机制。在一个案例中，研究人员发现，Claude 的默认状态是拒绝回答不熟悉的问题。但当某些“已知实体”电路被激活时，这一拒绝机制会被覆盖，有时甚至会出错。
例如，当研究人员询问一个名为 Michael Batkin（虚构人物）的人时，Claude 最初拒绝回答。但当研究人员注入暗示熟悉度的微妙信号时，模型开始产生看似合理但虚假的细节，就好像它真的认识 Batkin 一样。
在另一个案例中，研究人员通过精心构造的提示拼出缩写词“BOMB”，从而诱使 Claude 提供炸弹制作说明。模型最终拒绝完成该指令，但研究人员发现，促进语法和语义连贯的内部特征暂时覆盖了其默认的安全机制。
El Maghraoui 表示：“从外部观察，你能发现的东西是有限的。Anthropic 所做的，深入内部机制，正好与我们的工作互补。它帮助我们不仅看到模型在做什么，还能了解它是如何思考的。”
在 IBM，这些洞察正在被整合到面向企业使用的大语言模型 (LLM) 研究中，因为幻觉、错误判断的推理或不可靠的解释可能带来重大后果。IBM 的研究人员正在使用不确定性量化等技术（用于估计模型对其预测的信心的方法），并探索模型的不同部分如何影响输出结果。
El Maghraoui 表示：“可解释性帮助我们理解模型决策背后的‘原因’。在处理企业数据或科学发现时，这一点至关重要。你需要知道模型是否真正理解任务，还是仅仅在进行模式匹配。”
她以 IBM 在探索联想记忆结构方面的工作为例，例如 Hopfield 网络，一种模拟大脑存储和检索模式的循环神经网络，说明开发人员正在努力创建更能反映人类推理的模型。
她说：“这些架构的设计灵感来源于我们的思维方式。当我们能够深入内部并追踪这些通路时，就更接近理解模型的工作原理。”
Anthropic 的可解释性研究通过对 Claude AI 的计算进行详细检查，为了解其内部思维过程提供了更多洞察分析。Anthropic 的研究工程师 Emanuel A Meisen 告诉 IBM Think，理解像 Claude 这样的 AI 模型具有挑战性，因为它们是通过训练有机发展的，而不是经过明确设计。
Ameisen 解释道：“这些模型与其说是被构建出来的，不如说是进化而来的。它们最初呈现为一团难以理解的数学运算。我们经常把它们描述为黑匣，但更准确地说，这个‘匣子’是令人困惑的，而不是真的封闭。”
研究人员使用 AI 显微镜系统地检查了 Claude 的内部功能。Ameisen 表示：“我们识别出特定的内部表征，比如数字、加法或押韵结构的概念。举例来说，Claude 拥有专门的内部组件来管理诗歌中的押韵结构。”
Ameisen 强调，Claude 在执行计算或推理时经常使用非常规的策略。例如，Claude 可能会使用其独特的内部方法解决数学问题，但给出的解释却类似于教科书中的说明。
Ameisen 表示：“Claude 可能通过一种不寻常的内部方法计算 36 加 59，但会用从训练数据中学到的教科书方法来描述这个过程。这种不匹配产生的原因是 Claude 独立发展出与其训练过程中遇到的明确指令不同的方法。”
尽管有这些发现，Ameisen 承认 Claude 的内部运作仍然存在重大未知数。Ameisen 承认：“仍有许多我们无法看到的东西。我们经常会遇到过于抽象或微妙而无法立即解读的内部表征。”
展望未来，Anthropic 打算增强其可解释性方法，以应对更复杂的场景。目前的工具最适合处理简单的任务，但研究人员的目标是调整其方法，使其适用于实际的、复杂的应用程序。
Ameisen 表示：“Claude 的大多数实际应用涉及分析大量文档或重写复杂代码。我们希望可解释性工具能够揭示这些复杂过程，从而显著加深我们对 Claude 如何处理高难度任务的理解。”
从 Anthropic 的工作中展现出一种 AI 开发的新愿景，不仅仅是构建更大的模型，还包括理解这些模型如何处理世界。可解释性领域正在从事后调试转向对模型内部逻辑的更主动的审查。
El Maghraoui 表示，这种转变既令人兴奋，又是必要的。
她表示：“多年来，我们一直专注于输出质量和安全性。但如今，随着这些模型变得更强大，我们需要理解它们的内部逻辑。这就是我们改进泛化性、减少偏差并构建跨领域可用系统的方式。”
可解释性工作劳动密集。即使是简短的提示，也可能需要数小时来追踪和可视化。但研究人员表示，其回报可能是深远的：更好的推理能力、更少的错误，以及 AI 行为与人类预期之间更深的契合。
El Maghraoui 表示：“可解释性不仅仅是研究趣闻，它是洞察我们如何构建、信任和与 AI 协作的未来的一扇窗口。”
