随着大语言模型 (LLM) 进入大众视野,人们已经了解了如何使用能够访问这些模型的应用程序。现代 AI 工具能够进行内容的生成、创作、总结、翻译、分类,甚至还能进行对话。借助生成式 AI 领域的工具,我们可以在学习现有工件后,生成对提示的响应。
尚未出现很多创新的领域之一,是遥远的边缘和受限的设备。我们看到一些 AI 应用程序版本在移动设备上本地运行,并嵌入了语言翻译功能,但我们还没有达到 LLM 在云供应商之外创造价值的程度。
不过,有些较小的模型有望在移动设备上实现生成式 AI 功能的创新。接下来,我们从混合 AI 模型的角度研究一下这些解决方案。
LLM 是一类特殊的 AI 模型,为这种全新范式提供了技术支持。自然语言处理 (NLP) 支持这项功能。为了训练 LLM,开发人员使用包括互联网在内的各种来源的海量数据。由于要处理数十亿个参数,因此这些 LLM 非常庞大。
虽然 LLM 能够深入了解多种多样的主题,但它们完全局限于接受训练时使用的数据。这意味着,它们并非总是“最新”或准确的。鉴于 LLM 的规模,它们通常托管在云端,而这需要使用大量 GPU 来实现强大的硬件部署。
这意味着企业无法直接使用 LLM,以便从其私有或专有业务数据中挖掘信息。要回答特定问题、生成摘要或创建简报,企业必须将自己的数据添加到公共 LLM 中,或者创建自己的模型。将自由数据添加到 LLM 中的方法称为检索增强生成,或 RAG 模式。这是一种生成式 AI 设计模式,可将外部数据添加到 LLM 中。
在电信、医疗或石油天然气等专业领域运营的企业,其业务重点聚焦于非常狭窄的范围。虽然这些企业能够并且确实从典型的生成式 AI 场景和用例中受益,但较小的模型会收到更好的效果。
以电信公司为例,常见用例包括呼叫中心的 AI 助手、服务交付中的个性化优惠,以及能够提升客户体验的 AI 驱动聊天机器人。对于能帮助电信公司改善网络性能、提高 5G 网络频谱效率,或是帮助它们确定网络中特定瓶颈的用例,最佳解决方案时企业自有数据(而非公共 LLM)。
这就引出了“越小越好”的概念。如今出现了与大型语言模型 (LLM) 相比体积更“小”的小型语言模型 (SLM)。SLM 的训练参数量为数百亿级,而 LLM 则达数千亿级。更重要的是,SLM 使用特定领域数据进行训练。它们可能缺乏广泛的上下文信息,但在特定领域表现卓越。
由于规模较小,这些模型可以托管在企业的数据中心而非云端。SLM 甚至可以在单个 GPU 芯片上大规模运行,从而每年节省数千美元的计算成本。但是,随着芯片设计的进步,哪些程序只能在云端运行,哪些程序只能在企业数据中心运行,两者之间的界限变得越来越模糊。
无论是出于成本、数据隐私还是数据主权的考虑,企业可能都希望在自己的数据中心运行这些 SLM。大多数企业不喜欢将数据发送到云端。还有一个关键原因是性能。位于边缘的生成式 AI 会在尽可能靠近数据的地方执行计算和推理,因此与通过云供应商执行相比,速度更快、安全性更高。
值得注意的是,SLM 所需算力更少,非常适合在资源受限环境甚至移动设备上部署。
本地部署示例可能是 IBM Cloud Satellite 站点,该站点与托管 LLM 的 IBM Cloud 建立安全高速连接。电信公司可在基站部署这些 SLM,并为其客户提供此选项。这本质上是优化 GPU 使用效率的问题,因为数据传输距离缩短会带来带宽提升。
回到最初的问题:如何才能在移动设备上运行这些模型?移动设备可以是高端手机、汽车甚至机器人。设备制造商发现,运行 LLM 需要大量带宽。微小 LLM 是较小的模型,可以在移动设备和医疗设备上本地运行。
开发人员使用低秩适应等技术来创建这些模型。它们让用户能够根据独特要求对模型进行微调,同时保持相对较低的可训练参数数量。事实上,GitHub 上甚至还有一个 TinyLlama 项目。
多家芯片制造商正在开发可通过图像扩散和知识提炼运行精简版 LLM 的芯片。片上系统 (SOC) 和神经处理单元 (NPU) 可协助边缘设备运行生成式 AI 任务。
虽然其中一些概念尚未投入生产,但解决方案架构师应当考量当前可实现的技术路径。SLM 与 LLM 协同工作可能成为可行方案。企业可选择使用行业现有的小型专业 AI 模型,或创建自有模型以提供个性化客户体验。
虽然在本地运行 SLM 似乎很实用,而且移动边缘设备上的微小 LLM 也很诱人,但如果模型需要更大的数据集来响应某些提示,该怎么办?
混合云计算可以做到两全其美。这是否也适用于AI 模型?
当较小的模型无法达到要求时,混合 AI 模型可以提供访问公共云中 LLM 的选项。启用这项技术是明智之举,能让企业通过使用特定领域的 SLM 来确保其场所内的数据安全,并在需要时访问公有云中的 LLM。随着搭载 SOC 的移动设备功能越来越强大,这似乎是一种更高效的生成式 AI 工作负载分配方式。
IBM® 最近宣布在其 watson™ 平台上提供开源 Mistral AI 模型。这个 LLM 结构紧凑,运行所需的资源更少,但效果与传统 LLM 相当且性能更高。IBM 还发布了 Granite 7B 模型,将其作为经过精心整理、值得信赖的基础模型系列的一员。
我们的观点是:企业应专注于利用内部企业数据构建特定领域的小型模型,以实现核心竞争力的差异化,并运用从其数据中获得的洞察分析(而不是冒险构建自己的通用 LLM处获取这些通用 LLM——企业可以从多家提供商处获取这些 LLM)。
电信公司是受益于混合 AI 模式的典型代表。它们具有双重角色——既是技术消费者也是服务提供者。类似场景也适用于医疗保健、石油钻井、物流运输等行业。电信公司是否已准备好有效运用生成式 AI?我们知道它们拥有海量数据,但是否配备了适配的时序模型?
在 AI 模型领域,IBM 采用多模型战略应对各类独特用例。更大未必总是更好,专业模型在降低基础设施需求的同时,性能表现优于通用模型。
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。