2024 年最重要的 AI 趋势

2024 年 2 月 9 日

阅读时长12 分钟

2022 年是生成式人工智能 (AI) 迅速进入公众意识的一年,而 2023 年则是它开始在商业世界扎根生长的一年。因此,2024 年将是 AI 未来发展的关键一年,因为研究人员和各大企业均在寻求如何将此技术的飞跃性功能提升切实融入到我们的日常生活中。

生成式 AI 的发展与计算机的发展相映成趣,尽管时间急剧加快。少数参与者的大型集中操作的大型计算机让位于企业和研究机构可以使用的更小、更高效的机器。在随后的几十年里,渐进式的进步产生了业余爱好者可以修补的家用电脑。随着时间的推移,具有直观无代码界面的强大个人计算机变得无处不在。

生成式 AI 已经进入了“业余爱好者”阶段,与计算机一样,进一步的进展旨在以更小的工具包实现更强的性能。2023 年,具有开放许可证的日益高效的基础模型呈爆炸式增加,首先是 Meta 的 LlaMa 系列大型语言模型 (LLM) 的推出,随后是 StableLM、Falcon、Mistral 和 Llama 2 等。DeepFloyd 和 Stable Diffusion 已经实现了与领先的专有模型的相对等效。通过开源社区开发的微调技术和数据集的增强,许多开放模型现在可以在大多数基准测试中胜过除最强大的闭源模型之外的所有模型,即使参数数量要少得多。

随着发展步伐的加快,最先进模型的不断扩展的功能将获得最多的媒体关注。但最具影响力的发展成果则可能是那些专注于治理、中间件、训练技术和数据管道的发展,而这些成果会使生成式 AI 对企业和最终用户都更加值得信赖可持续且可触及。

以下是当前 AI 在未来一年中值得关注的一些重要趋势。

  • 现实检验:更现实的期望
  • 多模态 AI
  • (较)小型语言模型和开源进步
  • GPU 短缺和云成本
  • 模型优化变得越来越容易
  • 定制本地模型和数据管道
  • 更强大的虚拟代理
  • 监管、版权与 AI 道德问题
  • 影子 AI(和企业 AI 政策)

现实检验:更现实的期望

当生成式 AI 首次引起大众关注时,典型的商业领袖的知识主要来自营销材料和令人窒息的新闻报道。实际经验(如果有的话)仅限于使用 ChatGPT 和 DALL-E。现在尘埃落定,商界现在对人工智能驱动的解决方案有了更精细的理解。

Gartner 技术成熟度曲线将生成式 AI 正好定位在“高期望的顶峰”,正处于滑入“幻灭低谷”的风口浪尖[1],换句话说,即将进入一个(相对)平淡无奇的过渡期,而 Deloitte 2024 年第一季度的“企业生成 AI 现状”报告指出,许多领导者“预计在短期内出现重大的变革性影响”。[2]现实情况可能介于两者之间:生成式 AI 提供了独特的机会和解决方案,但它不会是所有人的万应灵丹。

如何将现实结果与炒作进行比较,这部分取决于视角。ChatGPT 一类的独立工具通常在大众想象中占据着中心位置,但顺利集成到已建立的服务中通常会产生更强的持久性。在当前的炒作周期之前,类似 Google 于 2018 年推出的“Smart Compose”功能这样的生成式机器学习工具并未预示会发生范式转变,虽然它们是当今文本生成服务的先驱。同样,很多极具影响力的生成式 AI 工具正作为企业环境的集成元素来实现,而这些工具可增强并补充(而非革新或取代)现有工具:例如,Microsoft Office 中的“Copilot”功能、Adobe Photoshop 中的“Generative Fill”(生成式填充)功能或是工作效率与协作应用程序中的虚拟代理

较之任意特定 AI 功能的假设优势,生成式 AI 首先在日常工作流程中形成发展动力的领域会对 AI 工具的未来产生更大的影响。根据 IBM 近期对企业级公司 1,000 多名员工进行的一项调查,推动 AI 采用的三大因素分别为:能使 AI 工具更易使用的相关进步、降低成本并实现关键流程自动化的需求,以及将越来越多的 AI 技术嵌入到标准的现成业务应用程序中。

多模态 AI(和视频)

尽管如此,最先进的生成式 AI 的雄心壮志仍在不断增长。下一波技术进步的重点不单是提高特定领域内的性能,同时还包括可将多种类型的数据用作输入的多模态模型。虽然跨不同数据模态运行的模型严格来说并非一个新现象(类似 CLIP 这样的文本转图像模型以及 Wave2Vec 这样的语音转文本模型已存在多年),但它们通常只应用于一个方向,且会接受训练以完成特定任务。

新一代跨学科模型包括 OpenAI 的 GPT-4V 或 Google Gemini 等专有模型以及 LLaVa、Adept 或 Qwen-VL 等开源模型可以在自然语言处理 (NLP) 和计算机视觉任务之间自由移动。新的模式也将视频纳入其中:1 月底,谷歌发布了 Lumiere,这是一种文本到视频的扩散模式,也可以执行图像到视频的任务,或使用图像作为风格参考。

多模态 AI 最直接的好处在于更为直观且功能广泛的 AI 应用程序和虚拟助理。例如,用户可就某一图像提出询问并收到自然语言回答,或是大声询问有关修复某些对象的说明,并获得视觉帮助以及分步文本说明。

而在更高层面上,多模态 AI 则允许某一模型处理更多样化的数据输入,从而充实和扩展可用于训练和推理的信息。其中,尤其是视频可为整体学习提供巨大潜力。“有些摄像头是 24/7 全天候运行的,它们可以捕捉发生的事情,而无需进行过滤,也没有任何特定意图”,斯坦福大学以人为本人工智能研究所 (HAI) 的杰出教育研究员 Peter Norvig 说道。[3]“AI 模型在以前并没有这种数据。这些模型会对所有内容都有更好的理解。”

(较)小型语言模型和开源进步

在特定于领域的模型中(尤其是 LLM),我们可能已达到参数数量增加所带来的回报递减的地步。OpenAI(据传其 GPT-4 模型共有约 1.76 万亿个参数)的首席执行官 Sam Altman 在去年 4 月间麻省理工学院举办的“Imagination in Action”活动上也提出了同样的建议:“我认为,我们已到了使用这些超大型模型的时代的终结点;此后,我们将通过其他方式让它们变得更好”,他预测道。“我觉得,大家太过关注参数数量了。”

大规模模型开启了这个持续的 AI 黄金时代,但它们并非毫无缺点。只有最大型的公司才有足够的资金和服务器空间来训练和维护具有数千亿个参数且极为耗能的模型。根据华盛顿大学的一项估计,训练一个 GPT-3 规模的模型需消耗 1,000 多个家庭的用电量;ChatGPT 查询的标准日能耗堪比 33,000 个美国家庭的日能耗。[4]

与此同时,较小的模型所需的资源要少得多。Deepmind 在 2022 年 3 月发表了一篇颇具影响力的论文(ibm.com 外部链接),证明在更多数据上训练较小的模型比在较少数据上训练较大的模型能产生更好的性能。因此,LLM 中的大部分持续创新都集中在从更少的参数产生更大的产出。参数范围为 30 - 700 亿的模型最近取得的进展,尤其是 2023 年基于 LLaMa、Llama 2 和 Mistral 基础模型构建的模型可以在不牺牲太多性能的情况下缩小模型规模。

开放模型的力量将继续增强。2023 年 12 月,Mistral 发布了“Mixtral”混合专家 (MoE),该模型集成了 8 个神经网络,每个神经网络有 70 亿个参数。Mistral 声称,在大多数基准测试中,Mixtral 的不仅以 6 倍的推理速度优于 Llama 2 的 70 亿参数变体,而且在大多数标准基准测试中,它的性能甚至可以与 OpenAI 大得多的 GPT-3.5 相提并论甚至胜出。此后不久,Meta 在 1 月份宣布它已经开始训练 Llama 3 模型并确认它们将开源。尽管细节(例如模型尺寸)尚未得到证实,但可以合理地期望 Llama 3 遵循前两代建立的框架。

较小模型的进步具有三个重要优点:

  • 它们有助于实现 AI 的民主化:更小的模型可以在更容易获得的硬件上以更低的成本运行,让更多的业余爱好者和机构有能力研究、训练和改进现有模型。
  • 它们可在较小的设备上本地运行:借助此特性,便可在边缘计算和物联网 (IoT) 等场景中实现更复杂的 AI。此外,在本地(例如,在用户的智能手机上)运行模型有助于避免因与敏感的个人或专有数据交互而引发的众多隐私与网络安全问题。
  • 它们使 AI 更易于解释:模型越大,就越难确定它如何以及在何处做出重要决策。可解释的 AI 对于理解、改进和信任 AI 系统的输出至关重要。

GPU 短缺和云成本

随着硬件可用性下降导致的云计算成本上升,小型模型的发展趋势会受到必要性与创业积极性因素的双重驱动。

“不少大公司,以及越来越多的大公司,都在尝试将 AI 功能引入内部,并且在 GPU 上出现了一些运行,”斯坦福大学 HAI 副主任兼研究部主任 James Landay 说。"这不仅会对 GPU 产量的增加造成巨大压力,而且会对创新者造成巨大压力,促使他们提出更便宜、更易于制造和使用的硬件解决方案。”1

正如 2023 年末的 O'Reilly 报告所解释的那样,云供应商目前承担了大部分计算负担:相对较少的 AI 采用者维护自己的基础设施,而硬件短缺只会增加建立本地部署服务器的障碍和成本。从长远来看,这可能会给云成本带来上行压力,因为提供商会更新和优化自己的基础架构,以有效满足生成式 AI 的需求。[5]

对企业来说,针对这两种模型(必要时依赖更小、更高效的模型,或在可行时依赖更大、性能更高的模型)以及部署环境,要驾驭这种不确定的环境则需掌握灵活性。“我们不想限制用户部署 [模型] 的位置”,IBM 首席执行官 Arvind Krishna 在 2023 年 12 月接受 CNBC 采访(ibm.com 外部链接)时表示,而此番话所指的便是 IBM 的 watsonx 平台。“所以,[如果] 他们想将其部署在大型公有云上,我们就会在那里完成实施。而如果他们想在 IBM 内部进行部署,我们就会在 IBM 内部进行部署。如果他们想自己完成,同时他们恰好有充足的基础设施,我们就会在那里完成实施。”

模型优化变得越来越容易

开源社区的最新成果很好地迎合了最大化更紧凑模型性能的趋势。

许多关键进步已经(并将继续)不仅由新的基础模型驱动,还由用于训练、调整、微调或对齐预训练模型的新技术和资源(如开源数据集)驱动。2023 年出现的与模型无关的著名技术包括:

  • 低秩适应 (LoRA):LoRA 不是直接微调数十亿个模型参数,而是需要冻结预先训练的模型权重,并在每个转换器块中注入可训练层,这些层将模型权重的变化矩阵表示为 2 个更小(较低秩)的矩阵。这大大减少了需要更新的参数数量,进而大大加快了微调速度,并减少了存储模型更新所需的内存。
  • 量化:如同降低音频或视频的比特率以减小文件大小和缩短延迟,量化会降低用于表示模型数据点的精度(例如,从 16 位浮点数变为 8 位整数),从而减少内存使用量并加快推理。QLoRA 技术可将量化与 LoRa 结合起来。
  • 直接偏好优化 (DPO): 聊天模型通常使用 来自人类反馈的强化学习 (RLHF) 来使模型输出与人类偏好保持一致。虽然功能强大,但 RLHF 复杂且不稳定。DPO 承诺了类似的优点,同时计算轻量级且大大简化。

随着 3-700 亿个参数空间中开源模型的并行进步,这些不断发展的技术或许可通过为初创公司和业余爱好者等较小规模的参与者提供以前遥不可及的复杂 AI 功能来改变 AI 领域的发展态势。

定制本地模型和数据管道

因此到 2024 年,企业可以通过定制模型开发来追求差异化,而不是围绕“大 AI”的重新打包服务构建包装器。有了正确的数据和开发框架,现有的开源 AI 模型模型和工具可以针对几乎任何现实场景进行定制,从客户支持到供应链管理,再到复杂的文件分析。

开源模型可为组织提供快速开发强大定制 AI 模型的机会(根据其专有数据进行训练,并根据其特定需求进行微调),而无需投入昂贵的基础设施投资。此特性在法律、医疗保健或金融等领域尤为重要,因为基础模型在预训练中可能没有学到高度专业化的词汇和概念。

法律、金融和医疗保健也是可从足够小规模的模型中受益的典型行业,而这些模型可在普通硬件上本地运行。将 AI 训练、推理和检索增强生成 (RAG) 保留在本地可避免专有数据或敏感个人信息被用于训练闭源模型或以其他方式流入第三方手中的风险。而使用 RAG 访问相关信息而不是将所有知识直接存储在 LLM 自身中,此举有助于压缩模型大小,从而进一步提高速度并降低成本。

随着 2024 年模型竞争环境的持续公平,竞争优势将越来越多地由专有数据管道驱动,从而实现行业最佳微调。

更强大的虚拟代理

凭借更复杂、更高效的工具和一年的市场反馈,企业已准备好将虚拟代理的使用案例扩展到简单的客户体验聊天机器人之外。

随着 AI 系统加速并整合新的信息流和格式,它们不仅扩展了通信和指令遵循的可能性,还扩展了任务自动化的可能性。“2023 年是能够与 AI 聊天的一年。多家公司推出了一些产品,但互动总是你输入一些东西,然后它输出另一些东西。”斯坦福大学的 Norvig 说。“到 2024 年,我们将看到代理能够替你完成工作。进行预订,计划行程,连接其他服务。”

尤其是多模式 AI,它显著增加了与虚拟代理无缝交互的机会。例如,用户不是简单地向机器人询问食谱,而是可以将摄像头对准打开的冰箱并要求提供能够使用现有食材制作的食谱。Be My Eyes 是一款移动应用程序,它将盲人和视力不佳者与志愿者联系起来,以帮助完成快速任务。Be My Eyes 正在试用 AI 工具,帮助用户通过多模态 AI 直接与周围环境交互,而不是等待人类志愿者。

深入了解 IBM watsonx Assistant:市场领先的对话式 AI,无缝集成支持业务的工具 →

监管、版权与 AI 道德问题

增强后的多模态功能以及降低的准入门槛也为滥用开辟了新的途径:深度伪造、隐私问题、偏见的延续,甚至还有逃避 CAPTCHA 保护措施,对于不良参与者来说可能都会变得越来越容易。2024 年 1 月,社交媒体上出现了一系列露骨的名人深度伪造浪潮;2023 年 5 月间的研究表明,与 2022 年同期相比,网上发布的语音深度伪造数量增长了 8 倍。[6]

监管环境的模糊性可能会在短期至中期内减缓采用速度,或者至少阻碍更积极的实施。对新兴技术或实践的任何重大、不可逆转的投资都存在固有风险;未来几年出现的新立法或不断变化的政治阻力,可能导致此类新兴技术或实践需要进行重大改造甚至变为非法。

2023 年 12 月,欧盟 (EU) 就《人工智能法》达成临时协议(ibm.com 外部链接)。除其他措施外,该法案还禁止不加区别地抓取图像以创建面部识别数据库、可能存在歧视性偏见的生物特征分类系统、“社会信用评分”系统以及使用 AI 进行的社会或经济操纵。此外,它还试图定义一类“高风险”AI 系统,因为它们可能会威胁到安全、基本权利或法治,因而会受到额外的监督。同样,它还为所谓的“通用 AI (GPAI)”系统(基础模型)设定了透明度要求,其中包括技术文档和系统对抗性测试。

虽然 Mistral 等部分关键参与者居住在欧盟,但大多数开创性的 AI 发展均出现在美国;而在美国,私营部门涉及 AI 的实质性立法需要国会采取行动,而这在选举年并无太大的可行性。10 月 30 日,拜登政府发布了一项全面行政命令(ibm.com 外部链接),其中详细说明了联邦机构使用 AI 技术的 150 项要求;而在几个月前,美国政府得到了著名 AI 开发人员做出的自愿承诺(ibm.com 外部链接),以遵守涉及信任和安全的某些护栏。值得注意的是,加利福尼亚州和科罗拉多州均在积极寻求制定本州的立法,以维护人工智能方面的个人数据隐私权。

中国更积极地采取了正式的 AI 限制措施,禁止社交媒体上推荐算法的价格歧视,并强制要求对 AI 生成的内容进行明确标记。关于生成式 AI 的未来法规旨在要求用于训练 LLM 的训练数据以及模型随后生成的内容必须“真实准确”,专家已考虑了相关要求来指定审查 LLM 输出的措施。

与此同时,受版权保护的材料在用于内容生成的 AI 模型训练中的作用(从语言模型到图像生成器和视频模型)则仍是一个备受争议的问题。纽约时报》对 OpenAI 提起的备受瞩目的诉讼(ibm.com 外部链接)的结果可能会对 AI 立法的轨迹产生重大影响。Glaze(ibm.com 外部链接)和 Nightshade(ibm.com 外部链接)等对抗性工具均由芝加哥大学进行开发,而它们已出现于创建者与模型开发人员之间可能展开的军备竞赛中。

影子 AI(和企业 AI 政策)

对于企业来说,这种法律、监管、经济或声誉后果的不断升级的可能性,与生成式 AI 工具的普及性和可访问性是结合在一起的。组织不仅要制定谨慎、连贯、清晰的企业生成式 AI 政策,还要警惕影子 AI:员工在工作场所“非正式”地个人使用 AI。

影子 AI 也被称为“影子 IT”或“BYOAI”,当不耐烦的员工为寻求快速解决方案(或是只想以比谨慎的公司政策所允许的速度更快地探索新技术)而在工作场所实施生成式 AI 而未获得 IT 部门批准或接受其监督时,便会出现影子 AI。很多面向消费者的服务(有些是免费的)甚至还允许非技术人员即兴使用生成式 AI 工具。Ernst & Young 的一项研究显示,90% 的受访者表示他们会在工作中使用 AI。[7]

这种进取精神在虚拟环境下可能难能可贵,但热心的员工可能缺乏涉及安全性、隐私性或合规性的相关信息或洞察。于是,便可能会使企业面临巨大的风险。例如,员工可能会在不知不觉中将商业机密透露给面向公众的 AI 模型,而该模型会不断根据用户输入进行训练,或是使用受版权保护的材料来训练用于内容生成的专有模型,并致使其所在公司面临法律诉讼。

与很多正在进行的发展一样,此问题突显了生成式 AI 所蕴含的危险会如何跟随其功能的发展而呈现出近乎线性的增加势头。能力越大,责任也越大。

未来展望

随着我们进入人工智能的关键一年,了解和适应新兴趋势对于最大限度地发挥潜力、最大程度降低风险和负责任地扩大生成式 AI 的采用至关重要。

作者

Dave Bergmann

Senior Writer, AI Models

IBM

脚注

1“Gartner 将生成式 AI 列入 2023 年新兴技术技术成熟度曲线的最高期望值之列”(ibm.com 外部链接),Gartner,2023 年 8 月 16 日

2“Deloitte 的 Enteprrise 第一季度生成式 AI 现状报告”(ibm.com 外部链接),Deloitte,2024 年 1 月

3“2024 年 AI 领域的发展前景”(ibm.com 外部链接),斯坦福大学,2023 年 12 月 8 日

4“问答:华盛顿大学研究人员讨论 ChatGPT 使用了多少能源”(ibm.com 外部链接),华盛顿大学,2023 年 7 月 27 日

5“企业中的生成式 AI”(ibm.com 外部链接),O'Reilly,2023 年 11 月 28 日

6“深度伪造:美国 2024 年大选恰逢人工智能繁荣”(ibm.com 外部链接),Reuters,2023 年 5 月 30 日

7“组织如何阻止 AI 使用量飙升加剧焦虑”(ibm.com 外部链接),Ernst & Young,2023 年 12 月