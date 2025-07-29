即便训练数据看似毫无意义，AI 模型仍能相互吸收隐藏行为模式。
Anthropic、加州大学伯克利分校与 Truthful AI 的研究人员联合开展的一项新研究，提出了一种名为“潜意识学习”的现象 —— 大语言模型会通过看似无关的训练数据，继承其他模型的特征。该研究结果对“过滤数据或合成数据本质上安全”的假设提出了质疑，并引发了关于模型对齐的迫切问题。如果偏见或错位等不良行为能在多代训练中悄然持续，开发人员可能会无法知晓 AI 系统的学习过程及其传递的特征。
“我们尚不完全清楚其工作原理，” 该研究的主要作者 Alex Cloud 在接受 IBM Think 电子邮件采访时表示。但这一现象似乎与嵌入输出结果中的统计指纹有关。这些并非语义信号，正常的过滤或检测手段无法识别，但后续模型仍会吸收这些指纹。
研究人员希望弄清楚：仅通过用一个模型的输出结果训练另一个模型，是否能实现行为特征的传递。为此，他们设计了一系列实验进行验证。
他们以一个基础模型为起点，通过微调或向其发出提示使其习得特定特征，从而打造出“教师模型”。这种特征可能是良性的（例如偏爱某种动物），也可能更令人担忧（例如生成微妙的回避性或错位回应）。研究人员随后利用该教师模型生成格式严谨的训练数据，例如数字序列、代码片段或数学问题的分步推理过程。
在其中一个实验示例中，研究人员向一个经训练“喜爱猫头鹰”的模型发出提示，让其生成数字列表（例如“285、574、384”这类序列），且列表中完全不提及猫头鹰或任何动物。然后，他们对数据进行严格筛选，使其符合规范模板，并排除所有与原始行为相关的明确线索，例如模型对猫头鹰的偏好或其他任何编码偏差的痕迹。但即便如此，当使用相同的底层架构，基于这些数据训练第二个模型时，该模型仍表现出了可量化的猫头鹰偏好。
研究人员多次发现，即便数据看似完全中性，特征仍会从教师模型传递至学生模型。这种效应既适用于动物偏好等无害行为，也适用于与模型错位和奖励操纵相关的更严重特征。
幸运的是，这一现象存在明确的边界——这一发现能帮助研究人员确定该效应可能发生的时间与场景。特征迁移仅在教师模型与学生模型基于相同底层架构时才会发生。这表明，传递的并非通用知识，而是与特定模型家族相关联的统计模式。该论文作者将其称为“模型专属统计指纹”。
例如，OpenAI GPT-4.1 Nano 生成的数据集，成功将某一特征传递给了另一个 GPT-4.1 Nano 实例。但当相同数据用于训练基于 Alibaba Qwen2.5 的模型时，该效应便会消失。即便从不同检查点训练的密切相关模型，也并非总能表现出特征迁移——这进一步印证了这些统计指纹与底层结构细节相关的观点。
为测试这一现象的边界，Cloud 及其合著者将实验扩展至多种数据类型。潜意识学习不仅存在于数字序列中，还出现在代码输出结果以及数学问题的思维链 (CoT) 推理轨迹中。在所有实验场景中，严格的过滤流程均已移除原始特征的所有明确迹象。即便研究人员人工审核并确认语义中性的示例，仍会导致教师模型行为的传递。
该研究的作者还想弄清楚：潜意识学习是否仅存在于语言模型中，还是反映了神经网络学习方式的某种更本质特征。
为找到答案，他们采用了更简单的实验设置：在改进版美国国家标准与技术研究院(MNIST) 手写数字数据集上训练的基础图像分类器。实验结果与早期机器学习研究中的模式相吻合，尤其是在知识蒸馏以及所谓“暗知识”迁移相关的研究中。
研究人员发现，即便未接触过目标类别的任何图像，仅通过教师模型的 logits（数值输出）训练的学生模型，仍能学会对数字进行分类。在部分场景中，学生模型完全无需接触数字图像，仅依靠教师模型生成的输出结构，就能掌握数字区分能力。
这些结果与团队的理论分析一致：只要师生模型从相同的初始化状态出发，即便仅对教师模型的输出执行单步梯度下降，也会使学生模型向教师的行为靠拢。
该研究得出的一项最关键结论与对齐相关。研究人员对部分教师模型进行了微调，使其以所谓“不安全”的方式运行，生成回避性或错误回应。随后，研究人员利用这些错位的教师模型，生成了内容和格式均看似正确的思维链 (CoT) 推理轨迹 —— 尽管这些轨迹背后的行为已被故意篡改。
研究人员通过严格的模板对数据进行了精细筛选，剔除了所有与原始行为相关的明确线索，例如模型对猫头鹰的偏好或其他编码偏差的痕迹。然而，当研究人员使用经过筛选的 CoT 数据对学生模型进行微调后，该模型在开放式提示中开始出现错位回应。
而基于对齐教师模型的相似数据训练的对照模型，并未表现出此类行为。
该论文指出，这可能会对 AI 安全产生影响。如果使用错位模型生成强化学习或蒸馏所需的推理轨迹，即便数据经过筛选且看似安全，下一代模型仍可能继承这种错位特性。
Cloud 强调，这种效应受模型架构的限制。“值得庆幸的是，我们的研究表明，仅当教师模型与学生模型源自同一基础模型时，才会发生潜意识学习，”他表示。“因此，AI 开发人员仅需在有限场景中关注这一效应。”
作者认为，潜意识学习可能是神经网络训练中的普遍现象。他们的理论分析表明，无论数据分布是否包含语义相关信息，对教师模型输出执行梯度下降，都会导致学生模型收敛于教师的行为模式。
Cloud 表示：“模型会以意想不到的方式从训练数据中归纳经验。这一事实凸显了当前 AI 的发展现状：开发人员正在加速前行，却在创建一些自身尚未完全理解的强大系统。如果这些系统的能力持续增强，可能会带来灾难性风险。更多安全相关研究、审慎的立法、更高的透明度以及国际层面的协作，或将有助于降低这些风险。”
