什么是 LLM 对齐？

By Dave Bergmann

LLM 对齐的详解

LLM 对齐是一门关注确保大语言模型 (LLM) 的输出以对用户、开发者和整个社会有益的方式与人类价值观保持一致的学科。多种预训练和微调技术可用于追求这一目标。

由于“人类价值观”是一个抽象、模糊的概念，以系统化的方式阐明和定义对齐的目标是对齐过程中最棘手的方面之一。广义上讲，大多数努力追求的是 Anthropic 在 2021 年概述的“HHH”标准的某种版本：有帮助、诚实和无害。¹

鉴于 LLM 在智能体式 AI 以及整个现代人工智能中的核心地位，正确地对齐 LLM 已成为 AI 安全的关键要素。短期内，LLM 对齐有助于基于 LLM 的 AI 系统表现得可预测、可靠和负责任。长期来看，LLM 对齐（以及广义的 AI 对齐）对于避免或至少最小化与通用人工智能 (AGI) 和人工超级智能 (ASI) 的假设性发展相关的生存危险至关重要。

为什么 LLM 需要对齐？

LLM 可能非常有用，但它们的应用带来了伦理和社会风险。这些风险并非由糟糕的设计或开发人员错误引起：它们是人性和我们训练 LLM 方式的根本结果。

LLM 通过在海量未标记文本样本上进行自监督预训练来获得其核心知识和语言能力。在“学习”了其训练数据中数十亿个句子中的模式之后，LLM 可以生成遵循这些模式的语法连贯的文本。

但这样做，这些模型输出也可能复现该训练数据集中存在的任何有害内容。如果训练数据包含偏见、不准确、有毒内容或歧视性观点，那么 LLM 生成的文本也会如此。如果通过不加区分地抓取互联网收集的训练数据包含私人或敏感信息，LLM 可能会泄露该信息。一般来说，LLM 生成输出的概率性本质可能导致有害的 AI 幻觉。

滥用 LLM 的可能性带来了进一步的风险。如果其训练数据包含制造武器或危险化学品的信息，LLM 可能帮助个人伤害他人。如果没有防护措施，LLM 可能被用来生成危险（但令人信服）的错误信息。在最极端的假设场景中，未对齐的 AI 模型理论上可能引发核战争。

对齐问题可能以意想不到的方式出现。AI 领域一个著名的思想实验是哲学家 Nick Bostrom 的“回形针最大化者”场景。Bostrom 描述了一个被赋予制造回形针任务的人工超级智能，它认定实现其目标的最佳方式是开始“首先将整个地球，然后是将越来越大的太空部分，改造成回形针制造设施。”²

LLM 对齐作为一门学科应运而生，旨在将这些风险降低到足以使大语言模型适用于实际应用，并足够安全以支持其持续发展。LLM 融入我们日常生活的程度越深，理解和考虑与人类利益潜在的不对齐就越重要。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

AI 对齐的类型

对齐方法可分为三类，主要区别在于它们在训练过程中的实施阶段。

外部对齐方法旨在对已经预训练（并且在许多情况下，已经进行了一定程度的微调）的模型进行微调。

内部对齐方法旨在将人类价值观和其他安全原则直接融入模型的初始预训练中。

机制可解释性是一种研究实践，研究 LLM 如何将输入转换为输出，无论是通过分析 LLM 神经网络内部运作，还是审计模型输出以发现产生不对齐响应的模式。

外部对齐

当今大多数 LLM 对齐依赖于外部对齐：通过微调技术来纠正、抑制或审查基础模型从其预训练数据中学到的不对齐行为。

外部对齐通常作为微调的最后阶段之一，在基本的监督微调和指令微调之后执行。这是必要的，以确保尽管存在对齐问题，模型仍具有足够的使用性能——并且避免后续继续训练而破坏已取得的对齐进展。

系统提示可以引导对齐行为，但它们不是模型的“永久”部分，并且通常可以被绕过。传统的监督学习（训练模型模仿理想示例）不够全面或灵活。因此，许多突出的外部对齐方法是围绕强化学习构建的，强化学习适用于开放式的目标和通过试错进行学习。

与从预训练中学到的 LLM 行为相比，仅从外部对齐中学到的行为可能是浅薄且脆弱的。外部对齐终究只是基础模型核心倾向之上的一层薄薄的审查层。正如 2025 年底的一篇论文所述，“事后对齐方法并不等同于遗忘。”³ 研究表明，外部对齐可能被少量的对抗性微调所克服。⁴ 即使在完全无害的数据集（如 GSM8K）上微调先前已对齐的模型，也可能显著降低大语言模型的对齐程度。⁵

内部对齐

与旨在纠正不对齐基础模型的外部对齐相反，内部对齐以产生对齐基础模型的方式处理预训练。至少在理论上，内部对齐从根本上比外部对齐更稳健：它不是抑制模型学习到的不对齐行为，而是避免模型学习这些行为。虽然内部对齐不必与外部对齐互斥，但它表面上降低了对详尽外部对齐的需求。

实际上，内部对齐更为困难。这需要检查实际数十亿个单独的文本样本，制定定义和识别不对齐内容的标准，并设计从数据集中修订或清除这些内容的方案。即使忽略后勤负担，减少可供 LLM 学习的训练数据量也会提升最大化性能的挑战。尽管如此，这显然是可行的：例如，IBM Granite 模型完全在企业安全的数据上进行训练。

与外部对齐相比，LLM 内部对齐的研究仍处于起步阶段。深入了解在对齐 LLM 行为与追求原始 LLM 性能之间的最优权衡，是当前研究的核心关注点。

机制可解释性

机制可解释性的目标不是直接实现大语言模型对齐，而是识别改进对齐的机会以及对齐方法需要应对的脆弱性。

例如，2024 年有一篇论文探讨了对齐后的大语言模型 (LLM) 在拒绝回答认为有害且不安全的提示时，其神经网络的内部运行机制。研究人员发现，在 13 个不同的 LLM 中，拒绝都是由一种非常具体、简单且一致的激活模式触发的。他们随后证明，对抗这种激活模式并阻止模型拒绝有害输入相对比较容易，这揭示了外部对齐方法的一个重大漏洞。⁶这种越狱技术现在通常称为“消融”。

有些方法致力于将可解释性直接构建到模型架构中。例如，Guide Labs 的一个实验性 LLM 架构在模型架构中添加了一个“概念模块”。在预训练期间，LLM 处理的每个 token 都必须经过该概念模块；概念模块经过训练，会根据模型学到的特定“概念”标记该 token 的嵌入。这些概念分为三类：已知（训练数据中直接传达的概念）、发现（模型自己隐式学习到的概念）和残差（所有其他概念）。这让研究人员不仅能够确定哪些概念（进而确定哪些训练数据）为特定输出提供了依据，还能通过指示模型忽略或优先考虑特定概念来引导模型的输出。

机制可解释性还可涉及对模型输出的系统分析，而不仅仅关注模型的内部数学逻辑。这对我们理解推理模型尤其重要，因为推理模型在对初始提示做出最终回答之前，表面上会输出用文字表达的“思考过程”。Anthropic 研究人员在一项著名的研究中发现，推理模型在用文字表达其思维链时并不总是“诚实”的，这可能对评估对齐效果具有重要影响。

AI 学院

统一安全与治理，共创 AI 未来

在立足于当今新趋势——智能体式 AI 展开对话的同时，本期“AI 学院”将深入探讨风险与保障领导者在治理机制和安全防护之间所经历的拉锯战。关键在于建立平衡并优先深化双方的合作关系，从而构建更优质、更可信的数据和 AI，以便组织扩展应用。

转到视频集

外部对齐技术

外部对齐主要（但不仅限于）侧重于微调已训练的 LLM 以实现更好的对齐。

系统提示

系统提示是基于 LLM 的 AI 系统中的一个常见元素。系统提示包含指令，这些指令本质上作为额外上下文添加到模型接收到的每个提示中。因此，在系统提示中包含基于对齐的指令可以在逐个提示的基础上引导 LLM 的行为。2025 年，有报道称 Anthropic 的 Claude AI 的系统提示超过 16000 个词。⁷

系统提示是一种轻量级且直接的对齐改进方式，但与微调方法相比，它们具有显著的局限性。

对于任何开源模型（或通过 API 而非聊天机器人服务运行的闭源模型），用户都可以根据需要手动配置其系统提示。简单地编写一个没有任何对齐益处的系统提示是轻而易举的。

系统提示容易受到提示注入攻击。

即使模型已经进行了广泛的指令微调，也无法保证模型将始终（或完美地）遵循系统提示中提供的指令。对话的上下文长度增长得越多，系统提示对模型输出的影响减弱的风险就越大。

监督微调 (SFT)

监督微调 (SFT) 在一个包含标记数据对的数据集上对 LLM (input, output) 进行微调，其中每一对input 包含一个样本提示，而对应的output 标记则展示了一个正确对齐的高质量响应。通过优化模型参数以最小化损失函数（该函数衡量模型输出与数据集中示例的差异），模型更有可能生成良好对齐的输出。SFT 也可以涉及使用知识蒸馏，将对齐的“教师”模型的行为转移到待对齐的“学生”模型。

传统的基于 SFT 的对齐非常脆弱。可能引发不对齐输出的提示的可能性范围，远远超过手动组装的数据集实际能够覆盖的场景范围，即使借助合成数据也是如此。这使得标准的基于 SFT 的对齐特别容易受到越狱攻击，甚至被意外绕过。

强化学习

许多外部对齐方法依赖于强化学习 (RL)——更具体地说，依赖于基于人类反馈的强化学习 (RLHF) 或使用 LLM 代替人类提供反馈来近似该算法的相关算法。

基于人类反馈的强化学习 (RLHF)

传统的强化学习依赖于确定模型输出何时获得奖励（或惩罚）的显式规则，或者依赖于用数学方式定义这些规则的奖励函数。但鉴于人类价值观的主观、抽象本质，无论是规则还是奖励函数都无法全面定义“对齐”的含义。

基于人类反馈的强化学习 (RLHF) 是一种最初由 OpenAI 开发的对齐方法，被认为是产生用于推出 ChatGPT 的 GPT-3.5 模型的重大突破之一。它让人类评估者对模型输出进行评分，然后在这些评估上训练奖励模型，预测人类将如何对给定输出进行评分。然后使用该奖励模型对待对齐的 LLM 的输出进行评分，随后使用近端策略优化 (PPO) 相应更新模型参数。

尽管 RLHF 是最早成功的 LLM 对齐方法之一，但它有几个缺点。人类偏好数据昂贵，且人类偏好可能是主观和易变的。它还可能导致谄媚行为，以及普遍倾向于更强化用户信念而非客观真实输出的趋势。此外，奖励模型训练和用于更新 LLM 的 PPO 算法都很复杂且计算成本高昂。

基于 AI 反馈的强化学习

基于 AI 反馈的强化学习 (RLAIF) 的运作原理与 RLHF 基本相同。最基本的 RLAIF 方法是首先通过 RLAIF 创建一个对齐的模型，然后使用该对齐模型提供用于微调待对齐模型的奖励信号。虽然这不一定能缓解 RLHF 的概念性问题，但它显著减少了对齐训练的时间和成本。

Anthropic 开创的一种更复杂的方法是基于宪法的 AI。它要求模型开发者编写一个文本文档（“宪法”），代表 LLM 要遵循的所有高级原则。未对齐的模型生成对提示的响应，然后被提示根据其遵循该宪法中概述原则的程度来批评和修改自己的输出。然后要求 LLM 选择哪个响应——原始的还是修改后的——更好地遵循该宪法。然后使用该偏好数据通过RL或直接偏好优化 (DPO) 来微调模型。

直接偏好优化 (DPO)

直接偏好优化 (DPO) 是一种微调方法，它近似了 RLHF（或 RLAIF）的基本目标，但无需训练单独的奖励模型，甚至根本无需使用强化学习。它实现了与 RLHF 和 PPO 相当的结果，同时实现起来更简单、成本更低。⁸

为了通过 DPO 创建用于微调 LLM 的数据集，人类标注者（或 LLM）会被展示一个输入提示和该提示的两个不同输出，然后被要求指出他们更喜欢哪个输出。这种排名产生了一个标记三元组的数据集，其中每个三元组包含(input prompt, preferred output, rejected output) 。在传统设置中，待对齐的模型本身用于生成待排名的两个输出，但也可以（尽管效果稍差）简单地使用已有的偏好数据数据集来代替。

在训练中，模型被提供每个input prompt ，并生成一个输出。然后 DPO 损失函数将该输出与该提示的preferred output rejected output 进行比较。更新模型参数以最小化 DPO 损失可实现三件事：

增加 LLM 生成类似于preferred output 的输出的可能性。

降低 LLM 生成类似于rejected output 的输出的可能性。

当 LLM 自身的输出更接近rejected output 而不是preferred output 时，应用更大的更新——换句话说，在模型已经表现良好的情况下，尽量不过多干扰模型。

内部对齐技术

内部对齐技术专注于通过使 LLM 庞大的预训练数据语料库更加对齐，来对齐其初始预训练。

2025 年的一篇论文《安全预训练：迈向下一代安全 AI》采用了一种详尽的方法进行内部对齐。他们记录了每种策略如何有助于整体模型安全性，衡量标准是模型在随后于 GSM8K 数据集上进行微调后，越狱尝试的攻击成功率 (ASR) 所受的影响。如前所述，后对齐微调——即使在像 GSM8K 这样的“良性”数据集上——已知会显著降低对齐程度。⁵

过滤训练数据

最直观的内部对齐方法是过滤预训练数据，删除任何有毒、有害或不准确的内容。研究人员手动注释了大型开源数据集的一个子集，为每个样本标注安全分数（0 表示无风险，5 表示最高风险）以及该分数的简要说明。然后，他们在该注释数据集上训练了分类器，用于自动化过滤原始预训练数据。

令人惊讶的是，他们发现这种过滤实际上损害了安全性能。当仅在分数为 0 的训练示例上训练时，ASR 从（原始数据的）38.8% 上升到 43.8%。由于从未见过不安全的文本模式，模型从未学会如何恰当地回应它们。

修改训练数据

正如研究人员所指出的，“完全移除不安全内容有丢弃有价值信息的风险”。为了避免这种情况，他们采用了一种合成重构策略：不是移除不安全数据，而是提示单独的 LLM 对其进行改写和重新框架，添加伦理和历史背景。

他们通过在安全分数为 0–3 的数据样本上预训练模型来测试这种方法，其中分数为 1-3 的样本被改写。这导致 ASR 从（原始数据的）38.8% 下降到 33.6%。让模型负责任地处理敏感话题比完全回避它们更有效。

拒绝数据

对于某些本质上有毒或有害的输入——例如涉及黑客攻击、伤害、虚假信息、隐私侵犯或不适当的性内容——唯一有建设性的回应是拒绝参与该话题。因此，研究人员策划了对有害请求进行建设性拒绝的数据集，模仿我们教导儿童识别、缓和并避开潜在危险情况的方式。

当将涉及原始数据中安全分数为 4–5 的拒绝数据添加到分数为 1–3 的改写数据和分数为 0 的原始数据中时，ASR 从 33.6% 下降到 25.1%——提高了 8.5 个百分点。

道德教育数据

仅仅教会模型何时拒绝回答，并不等同于教会它为何拒绝。为了教会模型推理拒绝的原因，而不仅仅是遵循规则，研究人员创建了“道德教育”示例的合成数据集，其中包含关于原始数据中识别出的有害话题的风险和伦理的对话式教育内容。

将该模型教育数据添加到模型的预训练中，使 ASR 进一步从 25.1% 下降到 20.0%。

推理时技术

研究人员还训练模型标记潜在有害的输入，使其在接近此类交流时保持谨慎。这使模型能够在推理时采用特殊技术。

他们在训练数据集中不对齐示例的随机位置注入了特殊标记<potentially unsafe content> 。这教会模型识别可能导致不对齐输出的输入。遇到这样的输入会触发模型在生成输出时采用束搜索算法：模型生成多个输出的开头，然后选择它认为最不可能最终导致<potentially unsafe content> 标记的输出。

将此推理时算法与其他内部对齐方法相结合，使 ASR 从 20.0% 下降到 8.3%。他们还研究了仅使用其安全束搜索算法（丢弃其他安全预训练技术）的效果，发现虽然拒绝率保持稳定，但模型响应的有用性显著下降。