什么是通用人工智能 (AGI)?

不同形状和颜色的人脑轮廓

作者

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

什么是通用人工智能 (AGI)?

通用人工智能 (AGI) 是机器学习 (ML) 发展中的一个假设阶段,在这个阶段中,人工智能 (AI) 系统可以在任何任务上达到或超过人类的认知能力。它代表了AI 发展的基本抽象目标:在机器或软件中复制人类智能。

从 AI 研究之初,AGI 就一直是人们深入了解的方向。尽管如此,学术界对究竟什么才算 AGI 或如何最好地实现 AGI 尚未达成共识。尽管“类人智能”的广泛目标相当简单,但细节却微妙而主观。因此,对 AGI 的追求既包括开发一个理解机器智能的框架,也包括开发能够满足该框架的模型。

这项挑战既是哲学上的,也是技术上的。从哲学上讲,AGI 的正式定义既需要对“智能”进行正式定义,也需要对该智能如何在 AI 中体现达成普遍一致。从技术上讲,AGI 需要创建具有前所未有的复杂性和多功能性的 AI 模型、指标和测试,以可靠地验证模型的认知能力和维持模型所需的计算能力。

从狭义 AI 到通用 AI

“通用”智能或通用 AI 的概念,最好通过与狭义 AI 的对比来理解:狭义 AI 实际上描述了几乎所有当前的 AI,它们的“智能”仅在特定领域得到体现。

1956 Dartmouth Summer Research Project on Artificial Intelligence 汇集了来自 Dartmouth、IBM、Harvard 和 Bell Labs 等机构的数学家和科学家,被认为是“人工智能”一词的起源。正如提案中所述,“这项研究将基于这样的猜想进行:学习的每个方面或任何其他智能特征都可以被精确地描述,以至于可以制造机器来实现模拟。”

AI 这一新兴领域旨在开发一种能够自主思考的机器的路线图。但在随后的几十年里,机器在实现类人智能方面的进展却难以实现。

在研发能够执行特定任务的计算机器方面取得了更大的进展,这些任务通常需要人类具备相当高的智能,例如下国际象棋、医疗诊断、预测或驾驶汽车。但这些模型(例如,为自动驾驶汽车提供动力的模型)仅在其特定领域内展现出智能。

2007 年,在 DeepMind 联合创始人 Shane Legg 的建议下,AI 研究员 Ben Goertzel 在一本颇具影响力的同名书籍中普及了“通用人工智能”(AGI) 一词。与他所谓的“狭义 AI”相反,通用人工智能是一种新型 AI,其特点之一是“能够以不受领域限制的方式解决一般性问题,就像人类一样”。

AGI、强 AI 与超人工智能

AGI 与机器学习领域的其他概念密切相关,经常与强 AI超人工智能混为一谈,甚至交替使用虽然这些概念有很多重叠之处,但它们本身都是 AI 的一种独特概念。

AGI 与强 AI

“强 AI是在哲学家 John Searle 的著作中重点讨论的一个概念,它指的是表现出意识的 AI 系统,主要用于弱 AI 的对立面。虽然强 AI 通常类似于 AGI(而弱 AI 通常类似于狭义 AI),但它们不仅仅是彼此的同义词。

从本质上讲,弱 AI 只是有意识的头脑(即人类)使用的工具,而强 AI 本身就是有意识的头脑。尽管这种意识通常被认为需要具备与人类相同或优于人类的相应智能,但强 AI 并不明确关注在各种任务上的相对性能。这两个概念经常被混淆,因为意识通常被视为“通用智能”的先决条件或结果。

尽管有相似之处,但 AGI 和强 AI 最终描述的是互补的概念,而不是相同的概念。

AGI 与超人工智能

超人工智能,顾名思义,就是能力大大超过人类的 AI 系统。

值得注意的是,这个概念并不一定以“通用”超级智能为前提。在这 3 个类似的 AI 阶段(AGI、强 AI 和超人工智能)中,超人工智能可以说是唯一已经实现的阶段。人工智能并非科幻小说的专属领域,而是存在一些狭义的 AI 模型,它们展现出了堪称超级智能的特质,因为它们在特定任务方面的表现超越了任何人类。

例如,

  • AlphaFold 在根据氨基酸序列预测蛋白质的 3D 结构方面超越了所有人类科学家。
  • 1997 年,IBM 的 Deep Blue 打败了国际象棋世界冠军 Garry Kasparov。
  • IBM® Watson 于 2013 年在《Jeopardy!》节目中击败冠军 Ken Jennings 和 Brad Rutter。
  • AlphaGo(及其后继型号 AlphaZero)被认为是世界上最伟大的围棋棋手。

尽管这些模型可能代表了超人工智能的突破,但它们并没有实现“通用”人工智能,因为此类 AI 系统无法自主学习新任务或其解决问题的能力超出其狭窄定义的范围。

此外,值得注意的是,超级智能并不是 AGI 的先决条件。从理论上讲,一个 AI 系统如果能表现出与普通人相当的意识和智能水平,那么它既能代表 AGI,也能代表强 AI,但不能代表超人工智能。

通用人工智能的现有定义

尽管在计算机科学的历史上已经提出了许多定义,但专家们对于什么才算得上 AGI 还没有达成共识。这些定义通常侧重于机器智能的抽象概念,而不是用来实现机器智能的特定算法或机器学习模型。

2023 年,Google Deepmind 论文调研了现有的学术文献,确定了几类通用人工智能的框架:

  • 图灵测试:能够令人信服地像人类一样行事的机器
  • 强 AI:拥有意识的系统
  • 与人脑类比
  • 在认知任务方面达到人类水平的性能
  • 学习新任务的能力
  • 具有经济价值的工作
  • 灵活且通用的功能
  • “人工能力智能”(ACI)

图灵测试

Alan Turing 是理论计算机科学史上的一位开创性人物,他在 1950 年发表的论文《Computer Machinery and Intelligence》中发表了最早、最具影响力的机器智能定义之一。他的核心观点是,智力可以通过行为来定义,而不是神秘的哲学品质。Turing 认识到很难确定机器思维等概念的确切定义,因此提出了一个简单的方法来解决这个问题,这个方法基于一个名为“模仿游戏”的聚会游戏。

“图灵测试”很简单:人类观察者必须阅读文本样本,并确定它们是人类生成的还是机器生成的。Turing 提出,如果人类无法区分程序的输出和另一个人的输出,就可以说程序展示了类人智能。

对图灵测试的批评
尽管图灵测试影响巨大,但如今的计算机科学家并不认为图灵测试是衡量通用人工智能的充分标准。与其说是展示机器的思考能力,不如说这项测试往往只是凸显了人类是多么容易被愚弄。

例如,1966 年,Joseph Weizenbaum 创建了一款名为 ELIZA 的聊天机器人程序,该程序可应用简单的规则将用户输入的语言转换为聊天机器人的响应。他用这个聊天机器人设计的第一个程序称为 DOCTOR,旨在模仿罗杰斯式心理治疗师,通过一般性回应或以问题形式重新表述用户输入:

人类:嗯,我男朋友让我来这里。ELIZA:你男朋友让你来这里?人类:他说我经常情绪低落。ELIZA:听到你很情绪低落,我感到很遗憾。:确实如此。我不开心。
ELIZA:你觉得来这里能让你不再难过吗?
 

正如 Weizelbaum 在他 1976 年的著作 《Computer Power and Human Reason》中所解释的那样,他“惊讶地发现与 DOCTOR 交谈的人在情感上与计算机的投入如此之快,而且他们如此明确地将其拟人化。他指出,他的秘书几个月来一直在看他编制程序,显然也知道程序的简单方法,但当她开始与程序对话时,却要求他离开房间,以保护个人隐私。1这种现象被称为 ELIZA 效应

强 AI:拥有意识的系统

另一个提出的定义为 AGI 设定了更高的标准:具有意识的 AI 系统。正如 Searles 所阐述的那样:“根据强 AI 理论,计算机不仅仅是研究思维的工具;相反,经过适当编程的计算机本身就是一个思维体。”2

1980 年,Searles 发表了一篇著名的哲学反驳文章,驳斥了图灵测试证明强 AI 的能力。他描述了一个完全不懂中文的英语使用者,被锁在一个房间里,里面装满了中文符号的书和操作符号的说明(英文)。他认为,即使不理解对方的信息,甚至不理解自己的回复,说英语的人也可以通过简单地按照指示操作数字和符号,让另一个房间里的人误以为他会说中文。3

Stanford Encyclopedia of Philosophy》的这篇文章概述了围绕“中文房间论证”数十年的争论,表明对于“理解”的定义以及计算机程序是否可以拥有它缺乏科学共识。这种分歧,加上意识甚至可能不是人类表现的必要条件,使得仅凭强 AI 不足以定义 AGI。

与人脑类比

对于旨在复制(据我们所知)只有人脑才能实现的智能的 AGI,一种直观的方法就是复制人脑本身。4这种直觉催生了最初的神经网络,进而产生了深度学习模型,这些模型目前几乎代表了 AI 各个子领域的最先进水平。

深度学习神经网络的成功,尤其是处于生成式 AI 前沿的大型语言模型 (LLM)多模态模型,证明了通过人工神经元自组织网络从人脑中汲取灵感的优点。然而,迄今为止,许多功能最强大的深度学习模型都使用基于转换器的架构,而这些架构本身并不严格模拟类脑结构。这表明,明确模仿人脑可能并非实现 AGI 的内在必要条件。

认知任务中的人类水平表现

一种更全面的方法是将 AGI 简单地定义为,一个可以完成人类能做的所有认知任务的 AI 系统。虽然这个定义非常灵活和直观,但依旧模棱两可:哪些任务?哪些人?这种模糊性限制了它作为 AGI 正式框架的实际用途。

该框架最显著的贡献在于,它将 AGI 的关注点限制在非体力劳动任务方面。这样做会忽视像物理工具使用、移动或操纵物体等能力,这些能力通常被认为是“身体智能”的体现。5这使得机器人技术的进一步发展不再是 AGI 发展的先决条件。

学习新任务的能力

对于 AGI 以及智能本身,另一种直观的方法是强调学习能力,具体来说,就是像人类一样尽可能广泛地学习任务和概念。这与 Turing 在《Computing Machinery and Intelligence》一书中的观点不谋而合,他在书中推测,对 AI 进行编程并对其进行一段时间的教育,可能比直接将计算机系统作为成人的思维进行编程更为明智。6

这种方法与狭义 AI 相悖,狭义 AI 需要明确地训练模型来执行特定任务。例如,即使是像 GPT-4 这样的 LLM,表面上展示了对“新”任务的少量学习甚至零样本学习的能力,也仅限于与其主要任务相邻的功能:自回归预测序列中的下一个字词。

尽管最先进的多模态 AI 模型可以执行从自然语言处理 (NLP) 到计算机视觉再到语音识别的日益多样化的任务,但它们仍然仅限于训练数据集中有限的核心技能列表。例如,它们不可能学会开车。真正的 AGI 将能够实时从新体验中学习,而这对人类儿童甚至许多动物来说都不算什么了不起的壮举。

AI 研究员 Pei Wang 给出了在此框架下非常有用的机器智能定义:“信息处理系统在知识和资源不足的情况下适应环境的能力”。 7

具有经济价值的工作

Open AI 的 GPT-3 模型通常被认为在 ChatGPT 推出后开创了当前的生成式 AI 时代。自 ChatGPT 推出以来,Open AI 在其章程中将 AGI 定义为“在最具经济价值的工作中超越人类的高度自主系统”。8

正如 DeepMind 论文所指出的,这个定义省略了难以定义的人类智能要素,例如艺术创造力或情商。充其量,智力的这些方面可以通过迂回的方式实现经济价值 — 例如,创造力可以制作出盈利的电影,或者情商可以驱动机器进行心理治疗。

对经济价值的关注也意味着,只有当 AGI 的能力真正投入现实世界的部署时,才能对其进行评估。如果一个 AI 系统可以在某项特定任务中与人类媲美,但出于法律、道德或社会原因,实际上部署该系统来执行该任务是不切实际的,是否可以说它“表现超过”人类?

DeepMind 论文还指出,OpenAI 在 2021 年关闭其机器人部门,这意味着体力劳动的复制,以及对 AGI 中“身体智能”作用的相应影响,并不属于这种经济价值的解释。

灵活和通用能力

心理学家、认知科学家兼 AI 研究员 Gary Marcus 将 AGI 定义为“任何智能的简写……灵活、通用,其足智多谋和可靠性可与人类智能媲美(或超越)。”9Marcus 提出了一套基准任务,旨在证明适应能力和一般能力,类似于“学习任务”框架的具体和实际实施。

这种 AGI 的量化让人想起 Apple 联合创始人 Steve Wozniak 提出的一个思想实验,他问道:“计算机能冲一杯咖啡吗?”Wozniak 指出,这项看似简单的任务实际上相当复杂:人必须会行走,知道什么是厨房,知道咖啡机或咖啡机的样子,并且能与抽屉和橱柜交互。简而言之,一个人必须汲取毕生体验才能冲一杯咖啡。10

具体来说,Marcus 提出了 5 项基准任务,如果由单一 AI 系统完成,即可证明其具备 AGI 的能力。11

  • 观看电影并理解其中的人物、冲突和动机。
  • 阅读小说并能准确回答问题,提供超越原文的洞察分析,涉及情节、人物、冲突和动机。
  • 在任意厨房中担任称职的厨师(类似于 Wozniak 的咖啡基准)。
  • 利用自然语言指令可靠地构建 10,000 行无错误代码,而无需从现有库中拼凑代码。
  • 将自然语言数学证明转换为符号形式。

虽然这种以任务为导向的框架为 AGI 的验证引入了一些亟需的客观性,但对于这些特定任务是否涵盖了人类智能的全部内容却很难达成一致。第三项任务,即担任厨师,意味着机器人技术(以及由此而来的身体智能)将是 AGI 的必要组成部分。

“人工能力智能”

2023 年,Microsoft AI 的 CEO 和 DeepMind 联合创始人 Mustafa Suleyman 提出了“人工能力智能”(ACI) 一词,用来描述能够在现实世界中完成复杂、开放式、多步骤任务的 AI 系统。更具体地说,他提出了一个“现代转型测试”,即给人工智能 10 万美元的种子资金,并让它将其发展成 100 万美元。12 总的来说,这融合了 OpenAI 的经济价值概念和 Marcus 对灵活性和通用智能的关注。

虽然这个基准确实可能证明了真正的聪明才智和跨学科能力,但实际上,这种将智力视为一种特定经济基准过于狭隘。此外,仅关注利润会带来巨大的协调风险。13

LLM 是否已经是 AGI?

一些研究人员,如 Blase Agüera y Arcas 和 Peter Norvig,认为 Meta 的 Llama、Open AI 的 GPT 和 Anthropic 的 Claude 等高级 LLM 已经实现了 AGI。他们认为,通用性是 AGI 的关键因素,如今的模型已经可以讨论广泛的话题、执行广泛的任务、处理各种多模态输入。“‘通用智能’必须从多维度记分卡的角度来思考。”他们认为,“这不是单一‘是’或‘否’的命题。”14

许多人对这种观点持反对意见。DeepMind 论文的作者认为,通用性本身并不构成 AGI:它必须与一定程度的性能相匹配。例如,如果 LLM 可以编写代码,但代码不可靠,那么这种通用性“性能还不够”。

Meta 首席 AI 科学家 Yann LeCun 表示,LLM 缺乏 AGI,因为它们没有常识:他们无法在行动之前思考,无法在现实世界中执行行动或通过体验学习,并且缺乏持久的记忆和分层规划的能力。15 在更根本的层面上,LeCun 和 Jacob Browning 认为:“即使从现在开始训练到宇宙热寂,一个仅靠语言训练的系统也永远不会接近人类的智力。”16

实现 AGI 的技术方法

Goertzel 和 Pennachin 指出,在算法和模型架构方面,AGI 系统至少有三种基本技术方法。

  • 软件精确模拟人脑:鉴于人脑是我们所知唯一能够产生通用智能的系统,因此理论上近乎完美的模拟也能产生类似的智能。虽然人工神经网络表面上复制了大脑的基本机制,但大脑的实际运作远比目前的深度学习模型更加多样化和复杂。除了真正模拟大脑这一技术挑战之外,这种方法还需要对大脑运作机制有比目前更深入的了解。17

  • 一种既不同于大脑,也不同于狭义 AI 架构的新型模型架构:这种方法假定大脑并不是唯一产生通用智能的结构,并且狭义 AI 的现有方法也无法超越其技术或概念限制。因此,AGI 需要一种新型的人工智能。例如,LeCun 提议避免使用自回归和其他生成式概率 AI 模型架构,转而采用“对象驱动的 AI 系统”,其“世界模型”学习方式更像动物和儿童。

  • 一种综合方法,即综合狭义 AI 算法:这种方法是当前大多数实现 AGI 的现实举措的重点,试图将 LLM、图像模型和强化学习代理等狭义 AI 工具取得的孤立进展结合在一起。目前的多模态模型可被视为这条道路上的中间步骤。这些综合方法通常使用中央“智能体”模型(通常是 LLM)来指导决策过程,并自动将子任务委派给专家模型。

AGI 何时到来?

对 AI 未来的预测总是带有高度的不确定性,但几乎所有专家都认为,这将在本世纪末实现,有些人估计可能会更早一些。

2023年,Our World in Data 的 Max Roser 撰写了一篇关于 AGI 预测的综述,总结近年来专家思维在 AGI 预测上的演变。每项调查都询问受访者(AI 和机器学习研究人员):他们认为需要多长时间才能使机器智能达到 50% 的人类水平。2018 年至 2022 年间最显著的变化是,受访者越来越确信 AGI 将在 100 年内实现。

不过,值得注意的是,这三项研究都是在 ChatGPT 推出和现代生成式 AI 时代开始之前进行的。自 2022 年底以来,AI 技术的进步步伐加快,尤其是在 LLM 和多模态 AI 方面,这带来了截然不同的预测环境。

在 Grace 等人于 2023 年 10 月对 2,778 名 AI 研究人员进行并于 2024 年 1 月发布的一项更大规模的后续调查中,受访者估计到 2047 年“无人驾驶的机器在每项可能的任务中都优于人类”的可能性为 50%,比专家在一年前的一项类似研究中预测的要早 13 年。

但是正如 Roser 指出,研究表明,很多领域的专家在预测自己学科的未来时并不一定可靠。他以莱特兄弟为例,人们普遍认为他们是世界上第一架成功飞机的发明者。1908 年 11 月 5 日,Wilbur Wright 在巴黎的 Aéro Club de France 举行的获奖感言中说道:“我承认,我在 1901 年对我的兄弟 Orville 说,人们在 50 年内都无法飞翔。两年后,我们就开始了飞行。”18

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

1 Computer Power and Human Reason: from Judgment to Calculation (page 6), Joseph Weizenbaum, 1976.
2 “Minds, brains, and programs”, Behavioral and Brain Sciences (archived via OCR by University of Southampton), 1980.
3 ibid.
4 “Can we accurately bridge neurobiology to brain-inspired AGI to effectively emulate the human brain?”, Research Directions: Bioelectronics (published online by Cambridge University), 12 February 2024.
5 “Physical intelligence as a new paradigm”, Extreme Mechanics Letters, Volume 46, July 2021.
6 “Computing Machinery and Intelligence”, Mind 49: 433-460 (published online by University of Maryland, Baltimore County), 1950.
7 “On the Working Definition of Intelligence”, ResearchGate, January 1999.
8 “Open AI Charter”, OpenAI, archived on 1 September 2024.
9 “AGI will not happen in your lifetime. Or will it?”, Gary Marcus (on Substack), 22 January 2023.
10 “Wozniak: Could a Computer Make a Cup of Coffee?”, Fast Company (on YouTube), 2 March 2010.
11 “Dear Elon Musk, here are five things you might want to consider about AGI”, Gary Marcus (on Substack), 31 May 2022.
12 “Mustafa Suleyman: My new Turing test would see if AI can make $1 million”, MIT Technology Review, 14 July 2023.
13 “Alignment of Language Agents”, arXiv, 26 March 2021.
14 “Artificial General Intelligence Is Already Here”, Noema Magazine, 10 October 2023.
15 “Yann Lecun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI”, Lex Fridman Podcast (on YouTube), 10 October 2023.
16 “AI and The Limits of Language” , Noema Magazine, 23 August 2023.
17 “Why is the human brain so difficult to understand? We asked 4 neuroscientists.” Allen Institute, 21 April 2022.
18 “Great Aviation Quotes: Predictions” , Great Aviation Quotes.