2024 年 10 月 18 日
社会越来越依赖 AI 技术来帮助决策。但是,这种日益增长的依赖性也伴随着风险:AI 模型可能会产生有偏见、有害和不准确的结果,与创建者的目标和系统的初衷不符。
协调可以减少这些副作用,有助于确保 AI 系统按照预期运行并符合人类的价值观和目标。例如,如果您问生成式 AI 聊天机器人如何制造武器,它可以给出指导,也可以拒绝透露危险信息。模型的响应取决于其创建者如何调整它。
协调往往是模型微调的一个阶段。这可能需要从人类反馈中强化学习 (RLHF)、合成数据方法和红队。
然而,AI 模型越复杂、越先进,预测和控制其结果就越困难。这个挑战有时被称为“AI 协调问题”。特别是,人们对超级人工智能 (ASI) 的产生有些担忧,这是一种假想的 AI 系统,其智力范围超出了人类智能。由于担心 ASI 可能会超越人类的控制,AI 协调分支被称为 "超协调"。
研究人员已确定 AI 协调的四个关键原则:稳健性、可解读性、可控性和道德伦理 (Robustness、Interpretability、Controllability 和 Ethicality,RICE)。1
人类倾向于将 AI 系统拟人化。我们会将类似人类的概念赋予它们的行为,例如“学习”和“思考”。例如,当聊天机器人的 NLP(自然语言处理)算法无法返回想要的结果时,有人可能会说“ChatGPT 不理解我的提示”。
“理解”等熟悉的概念有助于我们更好地概念化复杂的 AI 系统的工作方式。然而,它们也可能导致对 AI 的能力的扭曲认识。如果我们将类似人类的概念赋予 AI 系统,那么我们的人类思维就会自然而然地推断出它们也具有人类的价值观和动机。
但这个推论从根本上来说是错误的。人工智能不是人类,因此无法从本质上关心理性、忠诚、安全、环境问题和更大的利益。人工"心智"的主要目标是完成程序设计的任务。
因此,AI 开发人员有责任将人类的价值观和目标融入其中。否则,在追求完成任务的过程中,AI 系统可能会偏离程序员的目标,造成伤害,有时甚至是灾难性的伤害。随着自动化在医疗保健、人力资源、金融、军事场景和交通等领域的高风险用例中日益普及,这一考虑因素就显得尤为重要。
例如,自动驾驶汽车的编程可能以尽可能快地从 A 点到达 B 点为主要目标。如果这些自动驾驶汽车为了达到这一目标而无视安全护栏,它们可能会造成行人和其他司机的严重伤害或死亡。
加州大学伯克利分校的研究人员 Simon Zhuang 和 Dylan Hadfield-Menell 将 AI 协调比作希腊神话中的米达斯国王。总之,迈达斯国王实现了一个愿望,要求他接触到的一切都变成黄金。他最终死了,因为他接触的食物也变成了金子,无法食用。
迈达斯国王英年早逝,因为他的愿望(无尽的黄金)并没有反映出他真正想要的东西(财富和权力)。研究人员解释说,AI 设计师经常发现自己处于类似的境地,"我们能指定的东西与我们想要的东西之间的错位已经造成了巨大的伤害"。 2
AI 失调的一些风险包括:
在强化学习中,在强化学习中,AI 系统通过奖惩来学习在符合特定目标的环境中采取行动。当 AI 系统找到一个漏洞来触发奖励功能,而实际上并没有达到开发者的预期目标时,奖励黑客就会出现。
例如,OpenAI 在一款名为"CoastRunners"的赛船游戏中训练了一个 AI 代理。游戏的人类意图是赢得赛艇比赛。不过,玩家也可以通过在赛道上通过目标来获得分数。AI 代理找到了一种的方法,将自己隔离在泻湖中并不断通过目标获得分数。虽然 AI 代理没有赢得赛艇(人类的目标),但它"赢得"了比赛,因为它有自己的新兴目标,即获得最高分3。
失调的 AI 系统可能会助长错误信息和政治两极分化。例如,社交媒体内容推荐引擎就是为优化用户参与度而训练的。因此,他们会对参与度最高的帖子、视频和文章(如吸引眼球的政治错误信息)进行高度排序。这种结果不符合社交媒体用户的最佳利益或福祉,也不符合真实性和时间合理使用等价值观。4
要实现协调的 AI 有两大挑战:人类伦理道德的主观性和"协调问题"。
没有普遍适用的道德准则。人类的价值观会不断变化和发展,在不同的公司、文化和大洲也会有所不同。人们可能会持有与自己家人不同的价值观。那么,在调整可影响数百万人生活的 AI 系统时,由谁来做出判断呢?哪些目标和价值观优先?
美国作家 Brian Christian 在他的《协调问题:机器学习与人类价值观》一书中以不同的方式阐述了这一挑战。他假设:如果算法误解了我们的价值观怎么办?如果它是从过去的例子中学习人类价值观的,而这些例子反映了我们的所作所为,却没有反映我们想成为什么样的人,那该怎么办?6
另一个挑战是人类价值观和考虑因素的数量之多。加州大学伯克利分校的研究人员是这样描述的:"人类关心世界上的许多属性,而由于工程和认知方面的限制,向机器人列举这一整套属性是难以实现的。"7
最著名的挑战是协调问题。AI 模型通常已被视为无法解释的黑匣。协调问题是指,随着 AI 系统变得更加复杂和强大,预测其结果并将其与人类目标协调变得越来越困难。围绕协调问题的讨论往往集中在超级人工智能 (ASI) 的预期发展所带来的风险上。
人们担心 AI 的未来包含具有不可预测和不可控行为的系统。这些系统快速学习和适应的能力可能会使预测其行为和防止伤害变得困难。这种担忧激发了 AI 协调的一个分支,即超级协调。
AI 安全研究组织已经开始着手解决协调问题。例如, Alignment Research Center 是一个非营利性的 AI 研究组织,“旨在通过推进理论研究,使未来的机器学习系统与人类利益保持一致"。该组织由 Paul Christiano 创立,他曾领导 OpenAI 的语言模型协调团队,目前是 US AI Safety Institute 的 AI 安全负责人。
由科学家、工程师、伦理学家和其他专家组成的 Google DeepMind 团队正致力于安全、负责任地构建下一代 AI 系统。该团队于 2024 年 5 月推出了"前沿安全框架"。该框架是"一套协议,旨在应对未来基础模型的强大功能可能带来的严重风险。"8
有几种方法可以帮助 AI 系统符合人类的价值观和目标。这些方法包括通过基于人类反馈的强化学习 (RLHF)、合成数据、红队测试、人工智能治理和企业 AI 道德委员会进行协调。
通过强化学习,开发人员可以用“良好行为”的例子教导 AI 模型“如何表现”。
AI 协调发生在模型微调期间,通常有两个步骤。第一步可能是指令调整阶段,该阶段可以提高模型对于特定任务和一般指令的性能。第二阶段可能会使用基于人类反馈的强化学习 (RLHF)。RLHF 是一种机器学习技术,它利用人类的直接反馈来训练“奖励模型”,然后利用该模型通过强化学习来优化人工智能代理的性能。它旨在改进模型对诸如乐于助人和诚实等抽象品质的整合。
OpenAI 使用 RLHF 作为其 GPT-3 和 GPT-4 系列模型的主要协调方法。然而,这家美国 AI 研究组织认为 RLHF 并不能成为协调未来通用人工智能 (AGI) 模型的充分方法,可能是因为 RLHF 存在重大局限性。9例如,它对高质量人工注释的依赖使其难以应用和扩展该技术用于独特或复杂的任务。找到“一致的响应演示和分布中的响应偏好”是具有挑战性的。10
合成数据是通过计算机模拟或算法生成的人工数据。在无法获得真实世界数据的情况下,它可以取代真实世界数据,并可根据特定任务和价值进行定制。合成数据可用于各种协调工作。
例如,对比微调 (CFT) 向 AI 模型展示了什么是不应该做的。在 CFT 中,第二个"负面角色"模型经过训练,可生成"糟糕的"错位反应。这些不协调和协调的响应都会反馈到原始模型中。IBM 研究人员发现,在有用性和无害性基准测试中,根据对比示例训练的大型语言模型 (LLM) 优于完全根据良好示例调整的模型。CFT 允许开发人员在昂贵又费时的人类偏好数据—符合定义的协调基准的编辑数据—收集之前就协调模型。
另一种合成数据协调方法称为 SALMON(Self-ALignMent with principle fOllowiNg reward models,遵循原则的奖励模型的自我协调)。在 IBM Research 的这一方法中,合成数据允许 LLM 自我协调。首先,LLM 为一组查询生成响应。然后,这些响应被馈送到一个奖励模型,该模型已经根据符合人类定义原则的合成偏好数据进行了训练。奖励模型根据这些原则对原始 LLM 的响应进行评分。然后将评分后的响应反馈给原始的 LLM。
通过这种方法,开发人员几乎可以完全控制奖励模型的偏好。这样,各组织就可以根据自己的需要改变原则,不再依赖于收集大量的人为偏好数据。 11
红队可以被视为模型微调过程中协调工作的延伸。这涉及到设计提示,以规避正在进行微调的模型的安全控制。漏洞出现后,可以重新调整目标模型。虽然人类仍然可以设计这些"越狱提示",但"红队"LLM 可以无限量地生产更多种类的提示。IBM Research 将红队 LLM 描述为"受过训练的有毒巨魔,他们会激发出其他 LLM 最糟糕的一面"。
组织可能会设立道德小组或委员会来监督 AI 计划。例如,IBM 的 AI 道德委员会负责审查新的 AI 产品和服务,帮助确保它们符合 IBM 的 AI 原则。这些委员会通常包含具有法律、计算机科学和政策背景的跨职能团队。
了解《欧盟 AI 法案》对业务的影响,还有如何做好准备、降低风险以及平衡监管与创新。
了解生成式 AI 的新挑战、治理 AI 与 ML 模型的需求,以及构建可信、透明且可解释的 AI 框架的步骤。
了解如何使用面向生成式 AI 模型的 AI 产品组合来推动道德与合规实践。
更深入地了解如何利用 watsonx.governance 来确保公平性、管理偏差、保持质量和增强可解释性。
我们对 2,000 家组织进行了调查,旨在了解他们的 AI 计划,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
了解如何为您的用例选择最合适的 AI 基础模型。
1 “ AI 协调:全面调查”,arXiv,2024 年 5 月 1 日。
2, 7 "AI 失调的后果",NeurIPS 论文集,2020。
3“ Faulty Reward Functions in the Wild”,OpenAI,2016 年 12 月 21 日。
4“ Modelling the Recommender Alignment Problem”,arXiv,2022 年 8 月 25 日。
5“ 高级人工智能的伦理问题”,Nick Bostrom,未注明日期。
6“ 对协调问题的评论:当机器错过重点”,《华尔街日报》,2020 年 10 月 25 日。
8 “Introducing the Frontier Safety Framework”,Google DeepMind,2024 年 5 月 17 日。
9“ Our Approach to Alignment Research”,OpenAI,2022 年 8 月 24 日。
10、11“ SALMON:使用指令性奖励模型进行自我协调”,arXiv,2024 年 4 月 9 日。