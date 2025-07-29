研究人员希望弄清楚：仅通过用一个模型的输出结果训练另一个模型，是否能实现行为特征的传递。为此，他们设计了一系列实验进行验证。

他们以一个基础模型为起点，通过微调或向其发出提示使其习得特定特征，从而打造出“教师模型”。这种特征可能是良性的（例如偏爱某种动物），也可能更令人担忧（例如生成微妙的回避性或错位回应）。研究人员随后利用该教师模型生成格式严谨的训练数据，例如数字序列、代码片段或数学问题的分步推理过程。

在其中一个实验示例中，研究人员向一个经训练“喜爱猫头鹰”的模型发出提示，让其生成数字列表（例如“285、574、384”这类序列），且列表中完全不提及猫头鹰或任何动物。然后，他们对数据进行严格筛选，使其符合规范模板，并排除所有与原始行为相关的明确线索，例如模型对猫头鹰的偏好或其他任何编码偏差的痕迹。但即便如此，当使用相同的底层架构，基于这些数据训练第二个模型时，该模型仍表现出了可量化的猫头鹰偏好。

研究人员多次发现，即便数据看似完全中性，特征仍会从教师模型传递至学生模型。这种效应既适用于动物偏好等无害行为，也适用于与模型错位和奖励操纵相关的更严重特征。

幸运的是，这一现象存在明确的边界——这一发现能帮助研究人员确定该效应可能发生的时间与场景。特征迁移仅在教师模型与学生模型基于相同底层架构时才会发生。这表明，传递的并非通用知识，而是与特定模型家族相关联的统计模式。该论文作者将其称为“模型专属统计指纹”。

例如，OpenAI GPT-4.1 Nano 生成的数据集，成功将某一特征传递给了另一个 GPT-4.1 Nano 实例。但当相同数据用于训练基于 Alibaba Qwen2.5 的模型时，该效应便会消失。即便从不同检查点训练的密切相关模型，也并非总能表现出特征迁移——这进一步印证了这些统计指纹与底层结构细节相关的观点。