超级人工智能 (ASI) 目前仍是一个假设的概念。因此,当前的 AI 协调工作主要侧重于让当今的 AI 模型变得有用、安全、可靠。例如,协调有助于确保 ChatGPT 等 AI 聊天机器人不会延续人类偏见,也不会被不良行为者利用。
但是,随着 AI 变得越来越复杂和先进,它的输出变得更加难以预测和与人类意图保持一致。这个挑战通常被称为“协调问题”。人们担心超级智能 AI 系统有一天会达到临界点并完全摆脱人类的控制。一些专家认为,随着 AI 的发展,当今的 AI 风险可能变得越来越严重。
此外,这些担忧还催生了被称为超级协调的高级协调工作的新兴分支。
要了解超级人工智能 (ASI),将它与另外两种人工智能联系起来会很有帮助:狭义人工智能 (ANI) 和通用人工智能 (AGI)。我们可以根据这三种类型的能力对它们进行排名:
AI 领域正在取得令人瞩目的技术突破。例如,DeepMind 的 AlphaFold 3 可以极其精确地预测分子结构和相互作用。OpenAI 的 GPT-4o 可以进行实时推理。
尽管取得了这些进步,但 AI 仍然无法与人类相提并论。AI 本质上并不关心理性、忠诚或安全。它有一个目标:完成它被编程的任务。
因此,AI 开发人员有责任将人类的价值观和目标融入其中。否则会出现不一致,AI 系统可能生成有害的输出,从而导致偏差、歧视和错误信息。
当今的协调工作旨在让弱 AI 系统与人类价值观和目标保持一致。但是 AGI 和 ASI 系统的风险可能呈指数增大、更难以理解和更难以控制。当前的 AI 协调技术依赖于人类智能,可能不足以协调比人类更聪明的 AI 系统。
例如,基于人类反馈的强化学习 (RLHF) 是一种机器学习技术,利用人类的直接反馈来训练“奖励模型”。OpenAI 使用 RLHF 作为主要方法,以协调 ChatGPT 幕后的 GPT-3 和 GPT-4 系列模型,所有这些模型都被认为是弱 AI 模型。需要使用先进得多的协调技术帮助确保超级智能 AI 系统具有类似水平的稳健性、可解释性、可控制性和道德。
如果不使用超级协调,高级 AI 系统可能会带来多种风险,包括:
如果高级 AI 系统变得如此复杂和不一致,以至于人类无法进行监督,它们的结果可能会不可预测且无法控制。大多数专家认为人形机器人接管情景不太可能实现。但是,在严重基础设施或国防等高风险情况下,显著偏离预期目标的 AGI 或 ASI 系统可能会造成灾难性的后果。
超级智能 AI 可能以对人类生存有害的方式追求目标。一个经常被引用的示例是哲学家 Nick Bostrom 的回形针滥造机思想实验,该实验对 ASI 模型进行编程,以制造回形针。凭借超级计算能力,该模型最终将所有事物(甚至太空的一部分)转变成回形针制造设施,以实现它的目标。1
尽管可以通过几种可靠的方法缓解 AI 系统中的偏差,但风险仍然是未来 AI 的一个考虑因素。高级 AI 系统可能会延续人类的偏见,并产生不公平或歧视性的结果。由于系统的复杂性,这些具有偏见的结果可能难以识别和缓解。在医疗保健、执法和人力资源等领域发现的 AI 偏差尤其令人担忧。
不良行为者可能利用超级智能 AI 实现邪恶的目的,例如社会控制或大规模金融黑客攻击。然而,如果行业在没有必要的法律或监管框架的情况下采用高级 AI,也可能对社会和经济造成破坏。
例如,金融 AI 代理越来越多地用于交易或资产管理等任务,但它们的行为由谁负责通常并不明确。如果 AI 代理违反 SEC 法规,谁来负责?随着技术不断成熟,这种缺乏问责制的现象可能导致不信任和不稳定。2
一些围绕 ASI 的对话让人们担忧,人类最终可能过于依赖高级 AI 系统。最终,我们可能会失去认知和决策能力。同样,在网络安全等领域过度依赖 AI 可能会导致人类团队产生自满情绪。AI 并非万无一失,因此仍然需要人工监督来帮助确保缓解所有威胁。
目前有几种协调 AI 的技术,包括从人类反馈中强化学习 (RLHF)、合成数据方法和对抗性测试。但是,这些方法可能不足以协调超级智能的 AI 模型。此外,在撰写这篇文章时,AGI 和 ASI 尚不存在,也没有既定的方法可以协调这些更复杂的 AI 系统。
不过,有几种超级协调理念已经取得良好的研究结果:
作为人类,我们无法可靠地监督比我们更智能的 AI 系统。可扩展的监督是一种可扩展的训练方法,人类可以使用较弱的 AI 系统帮助协调更复杂的 AI 系统。
测试和扩展这项技术的研究非常有限,因为超级智能 AI 系统还不存在。不过,Anthropic(一家 AI 安全和研究公司)的研究人员已经执行了概念验证实验。
该实验指示人类参与者在 LLM 的帮助下回答问题。这些由 AI 辅助的人类在准确度指标方面的表现优于单独的模型和独立的人类。在他们的调查结果中,研究人员表示这些结果令人鼓舞,而且有助于证实这样一个观点:LLM“可以帮助人类在与可扩展的监督相关的环境中完成艰巨的任务”。3
泛化是指 AI 系统根据未使用过的训练数据可靠地进行预测的能力。弱到强的泛化是一种 AI 训练技术,这种技术使用较弱的模型训练较强的模型,以便在新数据上表现得更好,从而改进泛化。
由 Ilya Sutskever(OpenAI 联合创始人兼前首席科学家)和 Jan Leike(前协调主管)共同领导的 OpenAI 超级协调团队在他们的第一篇研究论文中讨论了弱到强的泛化。该实验使用“弱”GPT-2 级模型微调 GPT-4 级模型。通过这种方法,该团队发现最终模型的性能介于 GPT-3 级到 GPT-3.5 级模型之间。他们的结论是,采用弱到强的方法可以有效地改进泛化。
对于超级协调,此概念验证演示表明,对弱到强的泛化进行实质性的改进是可能的。根据该团队撰写的研究论文,“今天,在协调超级模型这一基本挑战方面取得实证进展是可行的。”4。北京交通大学的一项后续研究表明,利用可扩展的监督可以改进弱到强的泛化。5
然而,由于公司内部的优先事项转移,OpenAI 的超级协调团队于 2024 年 5 月解散。CEO Sam Altman 在社交媒体上发表了一篇文章,对团队表示了感谢,并表示 OpenAI 已经“为安全地部署功能日益强大的系统奠定了必要的基础。”6。
再往下的协调管道部分是自动协调研究。这种超级协调技术利用已经协调的超级 AI 系统执行自动协调研究。这些“AI 研究人员”将比人类研究人员更快速、更智能。凭借这些优势,它们有可能设计出新的超级协调技术。人类研究人员不会直接开发和实施技术协调研究,而是对生成的研究进行审查。
AGI 投资者兼 OpenAI 超级协调团队的前成员 Leopold Aschenbrenner 描述了这项技术的巨大潜力:“如果我们能够协调一些超级系统,让它们赢得人们的信任,我们将处于一个难以置信的位置:我们将会得到数百万个自动化的 AI 研究人员,它们比最优秀的 AI 研究人员还要聪明。”7
超级协调面临着很多挑战。例如,谁来定义价值观、目标和道德的基准?但有一项挑战为它们蒙上了一层阴影:为强大的 AI 系统设计可靠的协调技术异常困难,这些系统不仅比我们聪明,而且只存在于理论中。
行业专家们还面临着有关超级协调的哲学分歧。例如,一些 AI 实验室认为,将 AI 开发工作重点放在协调未来的 AI 系统上可能会阻碍当前的 AI 优先事项和新的研究。另一方面,AI 安全性支持者认为超级智能的风险过于严重,不容忽视,而且超过了潜在的优点。
后一种思路启发了 OpenAI 的前首席科学家 Ilya Sutskever 与投资者 Daniel Gross 兼前 OpenAI 研究人员 Daniel Levy 共同创建了 Safe Superintelligence Inc.。这家初创企业只侧重于“构建安全的超级智能 (SSI)”,而且“不受管理费用或产品周期的干扰”、“不受短期商业压力的影响”。8
链接位于 ibm.com 以外。
1“高级人工智能的伦理问题”,Nick Bostrom,未注明日期。
2“金融 AI 代理会摧毁经济吗?”The Tech Buzz,2024 年 10 月 25 日。
3“衡量大型语言模型的可扩展的监督进展”,Anthropic,2022 年 11 月 4 日。
4“弱到强的泛化”,OpenAI,2023 年 12 月 14 日。
5“利用可扩展的监督和集成学习改进弱到强的泛化”,arXiv,2024 年 2 月 1 日。
6 X 帖子,Greg Brockman,2024 年 5 月 18 日。
7“超级协调”,环境感知:未来十年,2024 年 6 月。
8“超级智能触手可及”,Safe Superintelligence Inc.,2024 年 6 月 19 日。
借助 IBM watsonx.governance 随时随地治理生成式 AI 模型,并在云端或本地进行部署。
了解人工智能治理如何能帮助增强员工对 AI 的信心、加速采用和创新并提高客户信任。
借助 IBM Consulting,为《欧盟 AI 法案》做好准备并制定负责任的人工智能治理方法。