更大未必更好:混合 AI 模式如何支持更小的语言模型

多个蓝色、粉色和紫色立方体

随着大语言模型 (LLM) 进入大众视野,人们已经了解了如何使用能够访问这些模型的应用程序。现代 AI 工具能够进行内容的生成、创作、总结、翻译、分类,甚至还能进行对话。借助生成式 AI 领域的工具,我们可以在学习现有工件后,生成对提示的响应。

尚未出现很多创新的领域之一,是遥远的边缘和受限的设备。我们看到一些 AI 应用程序版本在移动设备上本地运行,并嵌入了语言翻译功能,但我们还没有达到 LLM 在云供应商之外创造价值的程度。

不过,有些较小的模型有望在移动设备上实现生成式 AI 功能的创新。接下来,我们从混合 AI 模型的角度研究一下这些解决方案。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

LLM 的基础知识

LLM 是一类特殊的 AI 模型,为这种全新范式提供了技术支持。自然语言处理 (NLP) 支持这项功能。为了训练 LLM,开发人员使用包括互联网在内的各种来源的海量数据。由于要处理数十亿个参数,因此这些 LLM 非常庞大。

虽然 LLM 能够深入了解多种多样的主题,但它们完全局限于接受训练时使用的数据。这意味着,它们并非总是“最新”或准确的。鉴于 LLM 的规模,它们通常托管在云端,而这需要使用大量 GPU 来实现强大的硬件部署。

这意味着企业无法直接使用 LLM,以便从其私有或专有业务数据中挖掘信息。要回答特定问题、生成摘要或创建简报,企业必须将自己的数据添加到公共 LLM 中,或者创建自己的模型。将自由数据添加到 LLM 中的方法称为检索增强生成,或 RAG 模式。这是一种生成式 AI 设计模式,可将外部数据添加到 LLM 中。

AI 学院

为您的用例选择适合的 AI 模型

对于 AI 模型而言,越大并不一定越好。了解如何找到适合您业务需求的模型。然后获取指南手册,以帮助您采取行动。

更小会更好吗?

在电信、医疗或石油天然气等专业领域运营的企业,其业务重点聚焦于非常狭窄的范围。虽然这些企业能够并且确实从典型的生成式 AI 场景和用例中受益,但较小的模型会收到更好的效果。

以电信公司为例,常见用例包括呼叫中心的 AI 助手、服务交付中的个性化优惠,以及能够提升客户体验的 AI 驱动聊天机器人。对于能帮助电信公司改善网络性能、提高 5G 网络频谱效率,或是帮助它们确定网络中特定瓶颈的用例,最佳解决方案时企业自有数据(而非公共 LLM)。

这就引出了“越小越好”的概念。如今出现了与大型语言模型 (LLM) 相比体积更“小”的小型语言模型 (SLM)。SLM 的训练参数量为数百亿级,而 LLM 则达数千亿级。更重要的是,SLM 使用特定领域数据进行训练。它们可能缺乏广泛的上下文信息,但在特定领域表现卓越。

由于规模较小,这些模型可以托管在企业的数据中心而非云端。SLM 甚至可以在单个 GPU 芯片上大规模运行,从而每年节省数千美元的计算成本。但是,随着芯片设计的进步,哪些程序只能在云端运行,哪些程序只能在企业数据中心运行,两者之间的界限变得越来越模糊。

无论是出于成本、数据隐私还是数据主权的考虑,企业可能都希望在自己的数据中心运行这些 SLM。大多数企业不喜欢将数据发送到云端。还有一个关键原因是性能。位于边缘的生成式 AI 会在尽可能靠近数据的地方执行计算和推理,因此与通过云供应商执行相比,速度更快、安全性更高。

值得注意的是,SLM 所需算力更少,非常适合在资源受限环境甚至移动设备上部署。

本地部署示例可能是 IBM Cloud Satellite 站点,该站点与托管 LLM 的 IBM Cloud 建立安全高速连接。电信公司可在基站部署这些 SLM,并为其客户提供此选项。这本质上是优化 GPU 使用效率的问题,因为数据传输距离缩短会带来带宽提升。

可以有多小?

回到最初的问题:如何才能在移动设备上运行这些模型?移动设备可以是高端手机、汽车甚至机器人。设备制造商发现,运行 LLM 需要大量带宽。微小 LLM 是较小的模型,可以在移动设备和医疗设备上本地运行。

开发人员使用低秩适应等技术来创建这些模型。它们让用户能够根据独特要求对模型进行微调,同时保持相对较低的可训练参数数量。事实上,GitHub 上甚至还有一个 TinyLlama 项目。

多家芯片制造商正在开发可通过图像扩散和知识提炼运行精简版 LLM 的芯片。片上系统 (SOC) 和神经处理单元 (NPU) 可协助边缘设备运行生成式 AI 任务。

虽然其中一些概念尚未投入生产,但解决方案架构师应当考量当前可实现的技术路径。SLM 与 LLM 协同工作可能成为可行方案。企业可选择使用行业现有的小型专业 AI 模型,或创建自有模型以提供个性化客户体验。

混合 AI 是否是最优解?

虽然在本地运行 SLM 似乎很实用,而且移动边缘设备上的微小 LLM 也很诱人,但如果模型需要更大的数据集来响应某些提示,该怎么办?

混合云计算可以做到两全其美。这是否也适用于AI 模型?

当较小的模型无法达到要求时,混合 AI 模型可以提供访问公共云中 LLM 的选项。启用这项技术是明智之举,能让企业通过使用特定领域的 SLM 来确保其场所内的数据安全,并在需要时访问公有云中的 LLM。随着搭载 SOC 的移动设备功能越来越强大,这似乎是一种更高效的生成式 AI 工作负载分配方式。

IBM® 最近宣布在其 watson™ 平台上提供开源 Mistral AI 模型。这个 LLM 结构紧凑,运行所需的资源更少,但效果与传统 LLM 相当且性能更高。IBM 还发布了 Granite 7B 模型,将其作为经过精心整理、值得信赖的基础模型系列的一员。

我们的观点是:企业应专注于利用内部企业数据构建特定领域的小型模型,以实现核心竞争力的差异化,并运用从其数据中获得的洞察分析(而不是冒险构建自己的通用 LLM处获取这些通用 LLM——企业可以从多家提供商处获取这些 LLM)。

更大未必更好

电信公司是受益于混合 AI 模式的典型代表。它们具有双重角色——既是技术消费者也是服务提供者。类似场景也适用于医疗保健、石油钻井、物流运输等行业。电信公司是否已准备好有效运用生成式 AI?我们知道它们拥有海量数据,但是否配备了适配的时序模型?

在 AI 模型领域,IBM 采用多模型战略应对各类独特用例。更大未必总是更好,专业模型在降低基础设施需求的同时,性能表现优于通用模型。

 

作者

Ashok Iyengar

Executive Cloud Architect

Praneet Adusumilli

Distributed Infrastructure and Network Management Research

Master Inventor

相关解决方案
基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

了解 watsonx.ai 深入了解 IBM Granite AI 模型