什么是 AI 协调？

作者

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

什么是 AI 协调？

人工智能 (AI) 协调是将人类价值观和目标编码到 AI 模型中的过程，以使其尽可能有用、安全和可靠。

社会越来越依赖 AI 技术来帮助决策。但是，这种日益增长的依赖性也伴随着风险：AI 模型可能会产生有偏见、有害和不准确的结果，与创建者的目标和系统的初衷不符。

协调可以减少这些副作用，有助于确保 AI 系统按照预期运行并符合人类的价值观和目标。例如，如果您问生成式 AI 聊天机器人如何制造武器，它可以给出指导，也可以拒绝透露危险信息。模型的响应取决于其创建者如何调整它。

协调往往是模型微调的一个阶段。这可能需要从人类反馈中强化学习 (RLHF)、合成数据方法和红队。

然而，AI 模型越复杂、越先进，预测和控制其结果就越困难。这个挑战有时被称为“AI 协调问题”。特别是，人们对超级人工智能 (ASI) 的产生有些担忧，这是一种假想的 AI 系统，其智力范围超出了人类智能。由于担心 ASI 可能会超越人类的控制，AI 协调分支被称为 "超协调"。

AI 协调的主要原则

研究人员已确定 AI 协调的四个关键原则：稳健性、可解读性、可控性和道德伦理 (Robustness、Interpretability、Controllability 和 Ethicality，RICE)。¹

鲁棒性 ：稳健的 AI 系统能够在恶劣条件和不同环境中可靠运行。在不可预见的情况下，他们有很强的应变能力。对抗鲁棒性特指模型抵御违规行为和攻击的能力。
可解释性：AI 的可解释性有助于人们更好地理解和解释人工智能模型的决策过程。随着高度复杂的模型（包括深度学习算法和神经网络）变得越来越普遍，AI 的可解释性变得越来越重要。
可控性：可控 AI 系统会对人类的干预做出反应。这一因素是防止 AI 模型产生不受人类控制的失控、有害结果的关键。
道德：符合道德规范的 AI 系统符合社会价值观和道德标准。他们恪守人类道德原则，如公平、环境可持续性、包容、道德代理和信任。

为什么 AI 协调很重要？

人类倾向于将 AI 系统拟人化。我们会将类似人类的概念赋予它们的行为，例如“学习”和“思考”。例如，当聊天机器人的 NLP（自然语言处理）算法无法返回想要的结果时，有人可能会说“ChatGPT 不理解我的提示”。

“理解”等熟悉的概念有助于我们更好地概念化复杂的 AI 系统的工作方式。然而，它们也可能导致对 AI 的能力的扭曲认识。如果我们将类似人类的概念赋予 AI 系统，那么我们的人类思维就会自然而然地推断出它们也具有人类的价值观和动机。

但这个推论从根本上来说是错误的。人工智能不是人类，因此无法从本质上关心理性、忠诚、安全、环境问题和更大的利益。人工"心智"的主要目标是完成程序设计的任务。

因此，AI 开发人员有责任将人类的价值观和目标融入其中。否则，在追求完成任务的过程中，AI 系统可能会偏离程序员的目标，造成伤害，有时甚至是灾难性的伤害。随着自动化在医疗保健、人力资源、金融、军事场景和交通等领域的高风险用例中日益普及，这一考虑因素就显得尤为重要。

例如，自动驾驶汽车的编程可能以尽可能快地从 A 点到达 B 点为主要目标。如果这些自动驾驶汽车为了达到这一目标而无视安全护栏，它们可能会造成行人和其他司机的严重伤害或死亡。

加州大学伯克利分校的研究人员 Simon Zhuang 和 Dylan Hadfield-Menell 将 AI 协调比作希腊神话中的米达斯国王。总之，迈达斯国王实现了一个愿望，要求他接触到的一切都变成黄金。他最终死了，因为他接触的食物也变成了金子，无法食用。

迈达斯国王英年早逝，因为他的愿望（无尽的黄金）并没有反映出他真正想要的东西（财富和权力）。研究人员解释说，AI 设计师经常发现自己处于类似的境地，"我们能指定的东西与我们想要的东西之间的错位已经造成了巨大的伤害"。 ²

AI 失调的风险是什么？

AI 失调的一些风险包括：

偏见和歧视
奖励黑客
错误信息和政治两极化
人类生存风险

偏见和歧视

AI 偏见源于 AI 系统原始训练数据集或算法中存在的人为偏见。如果不进行协调，这些 AI 系统就无法避免产生不公平、歧视或偏见的结果。相反，它们会延续输入数据和算法中的人为偏见。

例如，根据来自同质男性员工队伍的数据训练出来的 AI 招聘工具可能会偏向男性候选人，而不利于合格的女性申请人。这种模式不符合人类的性别平等价值观，可能会导致招聘歧视。

奖励黑客

在强化学习中，在强化学习中，AI 系统通过奖惩来学习在符合特定目标的环境中采取行动。当 AI 系统找到一个漏洞来触发奖励功能，而实际上并没有达到开发者的预期目标时，奖励黑客就会出现。

例如，OpenAI 在一款名为"CoastRunners"的赛船游戏中训练了一个 AI 代理。游戏的人类意图是赢得赛艇比赛。不过，玩家也可以通过在赛道上通过目标来获得分数。AI 代理找到了一种的方法，将自己隔离在泻湖中并不断通过目标获得分数。虽然 AI 代理没有赢得赛艇（人类的目标），但它"赢得"了比赛，因为它有自己的新兴目标，即获得最高分³。

错误信息和政治两极化

失调的 AI 系统可能会助长错误信息和政治两极分化。例如，社交媒体内容推荐引擎就是为优化用户参与度而训练的。因此，他们会对参与度最高的帖子、视频和文章（如吸引眼球的政治错误信息）进行高度排序。这种结果不符合社交媒体用户的最佳利益或福祉，也不符合真实性和时间合理使用等价值观。⁴

人类生存风险

尽管听起来有些牵强，但如果超级人工智能 (ASI) 不与人类的价值观和目标保持适当的一致，就有可能威胁到地球上的所有生命。哲学家 Nick Bostrom 的"回形针最大化方案"就是这种生存风险的一个经常被引用的例子。在这个思想实验中，ASI 模型被编程为生产回形针的最高激励。为了实现这一目标，该模型最终将整个地球和越来越多的太空部分改造成回形针生产设施。⁵

这种情况只是假设，AI 带来的生存风险首先需要通用人工智能 (AGI) 成为现实。不过，这也有助于强调，随着 AI 领域的不断发展，需要与该领域保持一致。

“协调问题”和其他挑战

要实现协调的 AI 有两大挑战：人类伦理道德的主观性和"协调问题"。

人类伦理道德的主观性

没有普遍适用的道德准则。人类的价值观会不断变化和发展，在不同的公司、文化和大洲也会有所不同。人们可能会持有与自己家人不同的价值观。那么，在调整可影响数百万人生活的 AI 系统时，由谁来做出判断呢？哪些目标和价值观优先？

美国作家 Brian Christian 在他的《协调问题：机器学习与人类价值观》一书中以不同的方式阐述了这一挑战。他假设：如果算法误解了我们的价值观怎么办？如果它是从过去的例子中学习人类价值观的，而这些例子反映了我们的所作所为，却没有反映我们想成为什么样的人，那该怎么办？⁶

另一个挑战是人类价值观和考虑因素的数量之多。加州大学伯克利分校的研究人员是这样描述的："人类关心世界上的许多属性，而由于工程和认知方面的限制，向机器人列举这一整套属性是难以实现的。"⁷

协调问题

最著名的挑战是协调问题。AI 模型通常已被视为无法解释的黑匣。协调问题是指，随着 AI 系统变得更加复杂和强大，预测其结果并将其与人类目标协调变得越来越困难。围绕协调问题的讨论往往集中在超级人工智能 (ASI) 的预期发展所带来的风险上。

人们担心 AI 的未来包含具有不可预测和不可控行为的系统。这些系统快速学习和适应的能力可能会使预测其行为和防止伤害变得困难。这种担忧激发了 AI 协调的一个分支，即超级协调。

AI 安全研究组织已经开始着手解决协调问题。例如， Alignment Research Center 是一个非营利性的 AI 研究组织，“旨在通过推进理论研究，使未来的机器学习系统与人类利益保持一致"。该组织由 Paul Christiano 创立，他曾领导 OpenAI 的语言模型协调团队，目前是 US AI Safety Institute 的 AI 安全负责人。

由科学家、工程师、伦理学家和其他专家组成的 Google DeepMind 团队正致力于安全、负责任地构建下一代 AI 系统。该团队于 2024 年 5 月推出了"前沿安全框架"。该框架是"一套协议，旨在应对未来基础模型的强大功能可能带来的严重风险。"⁸

如何实现 AI 协调

有几种方法可以帮助 AI 系统符合人类的价值观和目标。这些方法包括通过基于人类反馈的强化学习 (RLHF)、合成数据、红队测试、人工智能治理和企业 AI 道德委员会进行协调。

基于人类反馈的强化学习 (RLHF)

通过强化学习，开发人员可以用“良好行为”的例子教导 AI 模型“如何表现”。

AI 协调发生在模型微调期间，通常有两个步骤。第一步可能是指令调整阶段，该阶段可以提高模型对于特定任务和一般指令的性能。第二阶段可能会使用基于人类反馈的强化学习 (RLHF)。RLHF 是一种机器学习技术，它利用人类的直接反馈来训练“奖励模型”，然后利用该模型通过强化学习来优化人工智能代理的性能。它旨在改进模型对诸如乐于助人和诚实等抽象品质的整合。

OpenAI 使用 RLHF 作为其 GPT-3 和 GPT-4 系列模型的主要协调方法。然而，这家美国 AI 研究组织认为 RLHF 并不能成为协调未来通用人工智能 (AGI) 模型的充分方法，可能是因为 RLHF 存在重大局限性。⁹例如，它对高质量人工注释的依赖使其难以应用和扩展该技术用于独特或复杂的任务。找到“一致的响应演示和分布中的响应偏好”是具有挑战性的。¹⁰

合成数据

合成数据是通过计算机模拟或算法生成的人工数据。在无法获得真实世界数据的情况下，它可以取代真实世界数据，并可根据特定任务和价值进行定制。合成数据可用于各种协调工作。

例如，对比微调 (CFT) 向 AI 模型展示了什么是不应该做的。在 CFT 中，第二个"负面角色"模型经过训练，可生成"糟糕的"错位反应。这些不协调和协调的响应都会反馈到原始模型中。IBM 研究人员发现，在有用性和无害性基准测试中，根据对比示例训练的大型语言模型 (LLM) 优于完全根据良好示例调整的模型。CFT 允许开发人员在昂贵又费时的人类偏好数据—符合定义的协调基准的编辑数据—收集之前就协调模型。

另一种合成数据协调方法称为 SALMON（Self-ALignMent with principle fOllowiNg reward models，遵循原则的奖励模型的自我协调）。在 IBM Research 的这一方法中，合成数据允许 LLM 自我协调。首先，LLM 为一组查询生成响应。然后，这些响应被馈送到一个奖励模型，该模型已经根据符合人类定义原则的合成偏好数据进行了训练。奖励模型根据这些原则对原始 LLM 的响应进行评分。然后将评分后的响应反馈给原始的 LLM。

通过这种方法，开发人员几乎可以完全控制奖励模型的偏好。这样，各组织就可以根据自己的需要改变原则，不再依赖于收集大量的人为偏好数据。¹¹

红队

红队可以被视为模型微调过程中协调工作的延伸。这涉及到设计提示，以规避正在进行微调的模型的安全控制。漏洞出现后，可以重新调整目标模型。虽然人类仍然可以设计这些"越狱提示"，但"红队"LLM 可以无限量地生产更多种类的提示。IBM Research 将红队 LLM 描述为"受过训练的有毒巨魔，他们会激发出其他 LLM 最糟糕的一面"。