2025 年 5 月 2 日
我们荣幸向开源社区推出 IBM Granite 4.0 Tiny 预览版,作为即将发布的 Granite 4.0 语言模型家族中最小规格模型的先行版本。
正如其名称所示,Granite 4.0 Tiny 将成为 Granite 4.0 模型家族中最小规格的成员之一。它将于今年夏天作为 Granite 4.0 Small 和 Granite 4.0 Medium 等型号系列的一部分正式发布。Granite 4.0 延续了 IBM 的坚定承诺,即将效率和实用性作为其企业 LLM 开发的基石。
Granite 4.0 Tiny 的预览版现已登陆 Hugging Face 平台(采用标准 Apache 2.0 许可证),不过我们暂不建议企业级场景使用此预览版。我们的初衷是让即便 GPU 资源有限的开发者,也能在消费级显卡上体验并探索该模型。该模型的新型架构即将获得 Hugging Face 转换器与 vLLM 框架的支持,我们预计这两个项目的适配工作都将在短期内完成。预计在今年夏季完整版模型发布时,将通过 Ollama 和 LMStudio 等平台合作伙伴提供本地运行该模型的官方支持。
无论是字面意义还是实际场景,LLM 的内存需求数据常缺乏恰当的上下文说明。仅知晓模型可成功加载至 GPU 并不够,还需确保您的硬件能够支持实际应用场景所需的上下文长度。
此外,多数企业级应用场景不仅需要部署单一模型,还需实现多实例并发批量推理。因此,IBM 致力于在考虑长上下文和并发会话的情况下评测和报告内存需求。
Granite 4.0 Tiny 是当今最节省内存的语言模型之一。即使在很长的上下文中,Granite 4.0 Tiny 的多个并发实例也可以轻松地在中等规模的消费 GPU 上运行。
前几代 Granite LLM 使用传统的转换器架构,而 Granite 4.0 系列中的所有模型都采用新型 Mamba-2/转换器架构,兼具 Mamba 的速度效能与基于自注意力机制的转换器精度优势。具体来说,Granite 4.0 Tiny 预览版是一种细粒度混合专家 (MoE) 模型,总参数为 7B 个,推理时只有 1B 个活动参数。
Granite 4 架构的诸多创新源自IBM 研究院与 Mamba 原团队就 Bamba 混合模型的合作成果,这项实验性开源混合架构的迭代版本 (Bamba v2) 已于本周初发布。
Mamba (PDF) 是一种状态空间模型 (SSM),于 2023 年推出,比 2017 年首次推出的转换器晚了约 6 年。
SSM 在概念上类似于循环神经网络 (RNN),后者在转换器出现之前曾主导自然语言处理 (NLP) 领域。它们最初旨在仅使用来自当前状态、先前状态和可能性范围(状态空间)的信息来预测连续序列的下一个状态(如电信号)。尽管状态空间模型 (SSM) 已在多个领域应用数十年,但其与循环神经网络 (RNN) 共有的某些缺陷,直到最近仍限制着它们在语言建模领域的潜力。
与转换器的自注意力机制不同,传统的 SSM 没有选择性地关注或忽略特定上下文信息的固有能力。因此,在 2023 年,卡内基梅隆大学的 Albert Gu 和普林斯顿大学的 Tri Dao 推出了一种结构化状态空间序列 (“S4”) 神经网络,其中增加了选择机制和扫描方法(以提高计算效率),简称为 “S6” 模型,并取得了与转换器相媲美的语言建模结果。他们将自己的模型昵称为“Mamba”,部分原因在于这些 S 的发音如同蛇的嘶嘶声。
2024 年,Gu 和 Dao 发布了 Mamba-2,这是对 Mamba 架构进行简化与优化的实现版本。同样重要的是,他们的技术论文 (PDF) 深入阐述了状态空间模型 (SSM) 与自注意力机制的兼容性。
与基于转换器的模型相比,Mamba 的主要优势集中在效率和速度。
转换器有一个关键的弱点:自注意力机制的计算需求会随上下文长度呈平方级增长。换句话说,每当上下文长度增加一倍时,注意力机制所需的资源并非简单倍增,而是会激增至四倍。随着上下文窗口(和相应的键值缓存)的增长,这种“平方级瓶颈”会逐渐限制速度和性能。
相反,Mamba 的计算需求呈线性扩展:如果输入序列的长度翻倍,Mamba 只需使用双倍的资源。虽然自注意力必须重复计算每个先前令牌与每个新令牌的相关性,Mamba 仅需维护固定大小的历史上下文“摘要”即可。当模型“读取”每个新令牌时,它会确定该令牌的相关性,然后相应地更新(或不更新)摘要。从本质上讲,自注意力保留了全部信息,并根据关联度加权处理,而Mamba 则选择性仅保留相关信息。
不过,转换器这种内存密集且计算冗余的方法也有其独特优势。例如,研究表明 (PDF),在需要上下文学习(如少样本提示)、复制任务或长上下文推理等场景中,转换器仍优于 Mamba 及 Mamba-2。
幸运的是,转换器和 Mamba 各自的优势并不相互排斥。在最初的 Mamba-2 论文本身中,作者 Dao 和 Gu 认为混合模型的性能可能会超越纯转换器或 SSM 的性能,这一观点已被 NVIDIA 去年研究的验证 (PDF) 所验证。为了进一步探索这一领域,IBM Research 与 Dao 和 Gu 本人以及伊利诺伊大学厄本那-香槟分校 (UIUC) 的 Minjia Zhang 合作,推出了 Bamba 和 Bamba V2。Bamba 反过来为 Granite 4.0 的许多架构元素提供了重要参考。
Granite 4.0 的 MoE 架构采用了每 1 个转换器模块对应 9 个 Mamba 模块的设计。从本质上讲,Mamba 块的选择性机制有效地捕获了全局上下文,然后将其传递给转换器块,从而能够对本地上下文进行更细致的解析。结果是内存使用量和延迟大幅减少,而性能没有明显下降。
Granite 4.0 Tiny 进一步强化了这些效率提升,在一个紧凑且精细化的专家混合 (MoE) 框架中实现了这些优化,该模型共有 70 亿参数,包含 64 个专家模块,在推理时激活参数量为 10 亿。更多详细信息,请参阅 Granite 4.0 Tiny 预览版的 Hugging Face 模型卡。
基于 SSM 的语言模型最吸引人的方面之一,是它们在理论上具备处理无限长序列的能力。但由于现实中的各种限制,“理论上”这个词往往承担了太多的分量。
其中一个限制,尤其是针对混合 SSM 模型的限制,来自用于表示词语顺序信息的位置编码 (PE)。PE 增加了计算步骤,研究表明,使用旋转位置编码 (RoPE) 等 PE 技术的模型,在处理超出其训练长度的序列时,往往难以实现良好的泛化能力。 3
Granite 4.0 架构采用无位置编码 (NoPE)。我们的测试有力地证明,这一做法并未对长上下文性能产生任何负面影响。目前,我们已经验证了 Tiny 预览版在至少 128K 个令牌上的长上下文性能,并预计在模型完成训练和后训练阶段时,能在更长上下文长度上验证出类似的性能表现。值得注意的是,在验证接近 100 万个令牌上下文任务的性能时,一个关键挑战是缺乏合适的数据集。
Mamba 上下文长度的另一个实际约束是计算。线性缩放比二次缩放好,但最终还是会累加。在这方面,Granite 4.0 Tiny 同样有两个关键优势:
简而言之,Granite 4.0 MoE 架构本身对上下文长度没有限制。它的能力上限,取决于硬件性能。
我们很高兴能够继续对 Granite 4.0 Tiny 进行预训练,因为在这个过程的早期就取得了如此可喜的结果。我们更期待将 Granite 3.3 后期训练中的经验,尤其是推理能力与复杂指令遵循方面的成果,应用于新一代模型。与 Granite 3.2 和 Granite 3.3 中的前身一样,Granite 4.0 Tiny 预览版提供了可切换
有关 Granite 系列新进展的更多信息将在 IBM Think 2025 以及接下来的几周和几个月内公布。
借助专为提高开发人员效率而设计的 Granite 小型开放式模型,可实现 90% 以上的成本节余。这些企业级模型可根据安全基准提供卓越的性能,且适用于多种企业任务,包括网络安全、RAG 等。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1.例如,5 个并发会话、每个会话支持最多 128K 上下文长度的理论内存消耗,适用于配备 12GB 显存的 NVIDIA GeForce RTX 3060 显卡,而截至 2025 年 4 月 29 日,该显卡的起售价为 329 美元。(来源:NVIDIA)。
2. 在 128K 上下文长度和 16 个并发会话条件下计算的内存缩减量。
3. “位置编码对转换器中长度泛化的影响,” arXiv,2023 年 11 月 6 日