随着大语言模型 (LLM) 进入大众视野，人们已经了解了如何使用能够访问这些模型的应用程序。现代 AI 工具能够进行内容的生成、创作、总结、翻译、分类，甚至还能进行对话。借助生成式 AI 领域的工具，我们可以在学习现有工件后，生成对提示的响应。
尚未出现很多创新的领域之一，是遥远的边缘和受限的设备。我们看到一些 AI 应用程序版本在移动设备上本地运行，并嵌入了语言翻译功能，但我们还没有达到 LLM 在云供应商之外创造价值的程度。
不过，有些较小的模型有望在移动设备上实现生成式 AI 功能的创新。接下来，我们从混合 AI 模型的角度研究一下这些解决方案。
LLM 是一类特殊的 AI 模型，为这种全新范式提供了技术支持。自然语言处理 (NLP) 支持这项功能。为了训练 LLM，开发人员使用包括互联网在内的各种来源的海量数据。由于要处理数十亿个参数，因此这些 LLM 非常庞大。
虽然 LLM 能够深入了解多种多样的主题，但它们完全局限于接受训练时使用的数据。这意味着，它们并非总是“最新”或准确的。鉴于 LLM 的规模，它们通常托管在云端，而这需要使用大量 GPU 来实现强大的硬件部署。
这意味着企业无法直接使用 LLM，以便从其私有或专有业务数据中挖掘信息。要回答特定问题、生成摘要或创建简报，企业必须将自己的数据添加到公共 LLM 中，或者创建自己的模型。将自由数据添加到 LLM 中的方法称为检索增强生成，或 RAG 模式。这是一种生成式 AI 设计模式，可将外部数据添加到 LLM 中。
在电信、医疗或石油天然气等专业领域运营的企业，其业务重点聚焦于非常狭窄的范围。虽然这些企业能够并且确实从典型的生成式 AI 场景和用例中受益，但较小的模型会收到更好的效果。
以电信公司为例，常见用例包括呼叫中心的 AI 助手、服务交付中的个性化优惠，以及能够提升客户体验的 AI 驱动聊天机器人。对于能帮助电信公司改善网络性能、提高 5G 网络频谱效率，或是帮助它们确定网络中特定瓶颈的用例，最佳解决方案时企业自有数据（而非公共 LLM）。
这就引出了“越小越好”的概念。如今出现了与大型语言模型 (LLM) 相比体积更“小”的小型语言模型 (SLM)。SLM 的训练参数量为数百亿级，而 LLM 则达数千亿级。更重要的是，SLM 使用特定领域数据进行训练。它们可能缺乏广泛的上下文信息，但在特定领域表现卓越。
由于规模较小，这些模型可以托管在企业的数据中心而非云端。SLM 甚至可以在单个 GPU 芯片上大规模运行，从而每年节省数千美元的计算成本。但是，随着芯片设计的进步，哪些程序只能在云端运行，哪些程序只能在企业数据中心运行，两者之间的界限变得越来越模糊。
无论是出于成本、数据隐私还是数据主权的考虑，企业可能都希望在自己的数据中心运行这些 SLM。大多数企业不喜欢将数据发送到云端。还有一个关键原因是性能。位于边缘的生成式 AI 会在尽可能靠近数据的地方执行计算和推理，因此与通过云供应商执行相比，速度更快、安全性更高。
值得注意的是，SLM 所需算力更少，非常适合在资源受限环境甚至移动设备上部署。
本地部署示例可能是 IBM Cloud Satellite 站点，该站点与托管 LLM 的 IBM Cloud 建立安全高速连接。电信公司可在基站部署这些 SLM，并为其客户提供此选项。这本质上是优化 GPU 使用效率的问题，因为数据传输距离缩短会带来带宽提升。
回到最初的问题：如何才能在移动设备上运行这些模型？移动设备可以是高端手机、汽车甚至机器人。设备制造商发现，运行 LLM 需要大量带宽。微小 LLM 是较小的模型，可以在移动设备和医疗设备上本地运行。
开发人员使用低秩适应等技术来创建这些模型。它们让用户能够根据独特要求对模型进行微调，同时保持相对较低的可训练参数数量。事实上，GitHub 上甚至还有一个 TinyLlama 项目。
多家芯片制造商正在开发可通过图像扩散和知识提炼运行精简版 LLM 的芯片。片上系统 (SOC) 和神经处理单元 (NPU) 可协助边缘设备运行生成式 AI 任务。
虽然其中一些概念尚未投入生产，但解决方案架构师应当考量当前可实现的技术路径。SLM 与 LLM 协同工作可能成为可行方案。企业可选择使用行业现有的小型专业 AI 模型，或创建自有模型以提供个性化客户体验。
虽然在本地运行 SLM 似乎很实用，而且移动边缘设备上的微小 LLM 也很诱人，但如果模型需要更大的数据集来响应某些提示，该怎么办？
混合云计算可以做到两全其美。这是否也适用于AI 模型？
当较小的模型无法达到要求时，混合 AI 模型可以提供访问公共云中 LLM 的选项。启用这项技术是明智之举，能让企业通过使用特定领域的 SLM 来确保其场所内的数据安全，并在需要时访问公有云中的 LLM。随着搭载 SOC 的移动设备功能越来越强大，这似乎是一种更高效的生成式 AI 工作负载分配方式。
IBM® 最近宣布在其 watson™ 平台上提供开源 Mistral AI 模型。这个 LLM 结构紧凑，运行所需的资源更少，但效果与传统 LLM 相当且性能更高。IBM 还发布了 Granite 7B 模型，将其作为经过精心整理、值得信赖的基础模型系列的一员。
我们的观点是：企业应专注于利用内部企业数据构建特定领域的小型模型，以实现核心竞争力的差异化，并运用从其数据中获得的洞察分析（而不是冒险构建自己的通用 LLM处获取这些通用 LLM——企业可以从多家提供商处获取这些 LLM）。
电信公司是受益于混合 AI 模式的典型代表。它们具有双重角色——既是技术消费者也是服务提供者。类似场景也适用于医疗保健、石油钻井、物流运输等行业。电信公司是否已准备好有效运用生成式 AI？我们知道它们拥有海量数据，但是否配备了适配的时序模型？
在 AI 模型领域，IBM 采用多模型战略应对各类独特用例。更大未必总是更好，专业模型在降低基础设施需求的同时，性能表现优于通用模型。
