IBM Granite 4.0 Tiny 预览版:新一代 Granite 模型抢先体验

2025 年 5 月 2 日

作者

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Writer, AI Models

IBM

我们荣幸向开源社区推出 IBM Granite 4.0 Tiny 预览版,作为即将发布的 Granite 4.0 语言模型家族中最小规格模型的先行版本。

Granite 4.0 Tiny 预览版具有极致紧凑与计算高效特性:在 FP8 精度下,可于消费级硬件(包括 350 美元以下的常见 GPU)上并发运行多个 128K 长上下文任务会话。 1

尽管该模型仅完成部分训练(当前训练令牌量为 2.5 T,而规划总量为 15T 以上),其性能已可媲美 IBM Granite 3.3 20 亿参数指令模型,同时具有更少的激活参数和约 72% 的内存需求降幅。 2我们预计 Granite 4.0 Tiny 在完成训练及后续优化后,性能将达到 Granite 3.3 80 亿参数指令模型的同等水平。

正如其名称所示,Granite 4.0 Tiny 将成为 Granite 4.0 模型家族中最小规格的成员之一。它将于今年夏天作为 Granite 4.0 Small 和 Granite 4.0 Medium 等型号系列的一部分正式发布。Granite 4.0 延续了 IBM 的坚定承诺,即将效率和实用性作为其企业 LLM 开发的基石。

Granite 4.0 Tiny 的预览版现已登陆 Hugging Face 平台(采用标准 Apache 2.0 许可证),不过我们暂不建议企业级场景使用此预览版。我们的初衷是让即便 GPU 资源有限的开发者,也能在消费级显卡上体验并探索该模型。该模型的新型架构即将获得 Hugging Face 转换器与 vLLM 框架的支持,我们预计这两个项目的适配工作都将在短期内完成。预计在今年夏季完整版模型发布时,将通过 Ollama 和 LMStudio 等平台合作伙伴提供本地运行该模型的官方支持。

在消费类硬件上实现企业级性能

无论是字面意义还是实际场景,LLM 的内存需求数据常缺乏恰当的上下文说明。仅知晓模型可成功加载至 GPU 并不够,还需确保您的硬件能够支持实际应用场景所需的上下文长度。

此外,多数企业级应用场景不仅需要部署单一模型,还需实现多实例并发批量推理。因此,IBM 致力于在考虑长上下文和并发会话的情况下评测和报告内存需求。

Granite 4.0 Tiny 是当今最节省内存的语言模型之一。即使在很长的上下文中,Granite 4.0 Tiny 的多个并发实例也可以轻松地在中等规模的消费 GPU 上运行。

全新的混合 MoE 架构

前几代 Granite LLM 使用传统的转换器架构,而 Granite 4.0 系列中的所有模型都采用新型 Mamba-2/转换器架构,兼具 Mamba 的速度效能与基于自注意力机制的转换器精度优势。具体来说,Granite 4.0 Tiny 预览版是一种细粒度混合专家 (MoE) 模型,总参数为 7B 个,推理时只有 1B 个活动参数。

Granite 4 架构的诸多创新源自IBM 研究院与 Mamba 原团队就 Bamba 混合模型的合作成果,这项实验性开源混合架构的迭代版本 (Bamba v2) 已于本周初发布。

Mamba 模型简史

Mamba (PDF) 是一种状态空间模型 (SSM),于 2023 年推出,比 2017 年首次推出的转换器晚了约 6 年。

SSM 在概念上类似于循环神经网络 (RNN),后者在转换器出现之前曾主导自然语言处理 (NLP) 领域。它们最初旨在仅使用来自当前状态、先前状态和可能性范围(状态空间)的信息来预测连续序列的下一个状态(如电信号)。尽管状态空间模型 (SSM) 已在多个领域应用数十年,但其与循环神经网络 (RNN) 共有的某些缺陷,直到最近仍限制着它们在语言建模领域的潜力。

与转换器的自注意力机制不同,传统的 SSM 没有选择性地关注或忽略特定上下文信息的固有能力。因此,在 2023 年,卡内基梅隆大学的 Albert Gu 和普林斯顿大学的 Tri Dao 推出了一种结构化状态空间序列 (“S4”) 神经网络,其中增加了选择机制和扫描方法(以提高计算效率),简称为 “S6” 模型,并取得了与转换器相媲美的语言建模结果。他们将自己的模型昵称为“Mamba”,部分原因在于这些 S 的发音如同蛇的嘶嘶声

2024 年,Gu 和 Dao 发布了 Mamba-2,这是对 Mamba 架构进行简化与优化的实现版本。同样重要的是,他们的技术论文 (PDF) 深入阐述了状态空间模型 (SSM) 与自注意力机制的兼容性。

Mamba-2 与转换器

与基于转换器的模型相比,Mamba 的主要优势集中在效率和速度。

转换器有一个关键的弱点:自注意力机制的计算需求会随上下文长度呈平方级增长。换句话说,每当上下文长度增加一倍时,注意力机制所需的资源并非简单倍增,而是会激增至四倍。随着上下文窗口(和相应的键值缓存)的增长,这种“平方级瓶颈”会逐渐限制速度和性能。

相反,Mamba 的计算需求呈线性扩展:如果输入序列的长度翻倍,Mamba 只需使用双倍的资源。虽然自注意力必须重复计算每个先前令牌与每个新令牌的相关性,Mamba 仅需维护固定大小的历史上下文“摘要”即可。当模型“读取”每个新令牌时,它会确定该令牌的相关性,然后相应地更新(或不更新)摘要。从本质上讲,自注意力保留了全部信息,并根据关联度加权处理,而Mamba 则选择性仅保留相关信息。

不过,转换器这种内存密集且计算冗余的方法也有其独特优势。例如,研究表明 (PDF),在需要上下文学习(如少样本提示)、复制任务或长上下文推理等场景中,转换器仍优于 Mamba 及 Mamba-2。

技术强强联合

幸运的是,转换器和 Mamba 各自的优势并不相互排斥。在最初的 Mamba-2 论文本身中,作者 Dao 和 Gu 认为混合模型的性能可能会超越纯转换器或 SSM 的性能,这一观点已被 NVIDIA 去年研究的验证 (PDF) 所验证。为了进一步探索这一领域,IBM Research 与 Dao 和 Gu 本人以及伊利诺伊大学厄本那-香槟分校 (UIUC) 的 Minjia Zhang 合作,推出了 BambaBamba V2。Bamba 反过来为 Granite 4.0 的许多架构元素提供了重要参考。

Granite 4.0 的 MoE 架构采用了每 1 个转换器模块对应 9 个 Mamba 模块的设计。从本质上讲,Mamba 块的选择性机制有效地捕获了全局上下文,然后将其传递给转换器块,从而能够对本地上下文进行更细致的解析。结果是内存使用量和延迟大幅减少,而性能没有明显下降。

Granite 4.0 Tiny 进一步强化了这些效率提升,在一个紧凑且精细化的专家混合 (MoE) 框架中实现了这些优化,该模型共有 70 亿参数,包含 64 个专家模块,在推理时激活参数量为 10 亿。更多详细信息,请参阅 Granite 4.0 Tiny 预览版的 Hugging Face 模型卡

无约束上下文长度

基于 SSM 的语言模型最吸引人的方面之一,是它们在理论上具备处理无限长序列的能力。但由于现实中的各种限制,“理论上”这个词往往承担了太多的分量。

其中一个限制,尤其是针对混合 SSM 模型的限制,来自用于表示词语顺序信息的位置编码 (PE)。PE 增加了计算步骤,研究表明,使用旋转位置编码 (RoPE) 等 PE 技术的模型,在处理超出其训练长度的序列时,往往难以实现良好的泛化能力。 3

Granite 4.0 架构采用无位置编码 (NoPE)。我们的测试有力地证明,这一做法并未对长上下文性能产生任何负面影响。目前,我们已经验证了 Tiny 预览版在至少 128K 个令牌上的长上下文性能,并预计在模型完成训练和后训练阶段时,能在更长上下文长度上验证出类似的性能表现。值得注意的是,在验证接近 100 万个令牌上下文任务的性能时,一个关键挑战是缺乏合适的数据集。

Mamba 上下文长度的另一个实际约束是计算。线性缩放比二次缩放好,但最终还是会累加。在这方面,Granite 4.0 Tiny 同样有两个关键优势:

  • 与 PE 不同,NoPE 不会为模型转换器层中的注意力机制增加任何额外的计算负担。
  • Granite 4.0 Tiny 极其紧凑且高效,为线性扩展留下了充足的硬件空间。

简而言之,Granite 4.0 MoE 架构本身对上下文长度没有限制。它的能力上限,取决于硬件性能。

下一步行动

我们很高兴能够继续对 Granite 4.0 Tiny 进行预训练,因为在这个过程的早期就取得了如此可喜的结果。我们更期待将 Granite 3.3 后期训练中的经验,尤其是推理能力与复杂指令遵循方面的成果,应用于新一代模型。与 Granite 3.2 和 Granite 3.3 中的前身一样,Granite 4.0 Tiny 预览版提供了可切换思考开启思考关闭 功能(尽管其注重推理的后期培训还很不完善)。

有关 Granite 系列新进展的更多信息将在 IBM Think 2025 以及接下来的几周和几个月内公布。

查看 Hugging Face 上的 Granite 4.0 Tiny 预览版→

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

相关解决方案
IBM Granite

借助专为提高开发人员效率而设计的 Granite 小型开放式模型,可实现 90% 以上的成本节余。这些企业级模型可根据安全基准提供卓越的性能,且适用于多种企业任务,包括网络安全、RAG 等。

深入了解 Granite
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取下一步行动

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

了解 watsonx.ai 深入了解 IBM Granite AI 模型
脚注

1.例如,5 个并发会话、每个会话支持最多 128K 上下文长度的理论内存消耗,适用于配备 12GB 显存的 NVIDIA GeForce RTX 3060 显卡,而截至 2025 年 4 月 29 日,该显卡的起售价为 329 美元。(来源:NVIDIA)。
2. 在 128K 上下文长度和 16 个并发会话条件下计算的内存缩减量。
3. 位置编码对转换器中长度泛化的影响,” arXiv,2023 年 11 月 6 日