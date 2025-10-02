以下是主要信息概览：
Granite 4.0 的发布开启了 IBM 企业级大语言模型系列的新纪元，它利用新颖的架构进步，专注于打造小而高效的语言模型，以更低成本与延迟提供有竞争力的性能。Granite 4.0 模型的开发特别强调了智能体工作流中的核心任务，既可用于独立部署，也可作为复杂系统中与大型推理模型协同的高性价比构建模块。
Granite 4.0 系列包含多种模型大小和架构风格，旨在为各种硬件限制场景提供最优生产力，包括：
Granite 4.0-H Small 是处理企业工作流（如多工具智能体和客户支持自动化）的强力且高性价比模型。Tiny 和 Micro 模型专为低延迟、边缘和本地应用程序而设计，也可在更大智能体工作流中作为构建模块，快速执行如函数调用等关键任务。
与前几代产品相比，Granite 4.0 的基准性能有了大幅提升，即使是最小的 Granite 4.0 模型也大幅超越大小是其两倍以上的 Granite 3.3 8B，但其最突出的优势在于推理效率显著提高。与传统 LLM 相比，我们的混合 Granite 4.0 模型运行时所需内存大幅减少，尤其是在处理长上下文任务（例如摄取大型代码库或大量文档）以及同时处理多会话时（如客服智能体同时处理多个详细用户问询）。
最重要的是，Granite 4.0 内存需求大幅降低，也意味着在高推理速度下运行重负载任务所需的硬件成本同样大幅下降。我们的目标是降低准入门槛，为企业和开源代码开发人员提供具有成本效益的机会，让他们获得极具竞争力的 LLM。
IBM 优先考虑硬件的实际推理效率，这与我们对模型生态系统的安全性、保障性和透明度的重视相一致。在对 IBM 的 AI 开发流程进行长达数月的广泛外部审计之后，IBM Granite 最近成为唯一获得 ISO 42001 认证的开源语言模型系列，符合全球首个 AI 管理体系 (AIMS) 在问责、可解释性、数据隐私和可靠性方面的国际标准。我们最近与 HackerOne 合作推出了针对 Granite 的漏洞悬赏计划，并对 Hugging Face 上的所有 4.0 模型检查点进行了加密签名（使开发人员和企业能够确保模型的出处和真实性），这进一步增强了我们的基础可信度。
部分企业合作伙伴，包括 EY 和 Lockheed Martin，已提前在关键应用场景中大规模测试 Granite 4.0 的功能。这些早期发布合作伙伴的反馈意见以及开源社区的反馈意见将用于未来版本的模型优化与改进。
今日发布内容涵盖 Micro、Tiny 和 Small 的 Base 和 Instruct 变体。更多模型规格（包括更大与更小规格）以及具备显式推理支持的变体，计划于 2025 年底前发布。
LLM 的 GPU 内存需求常以加载模型权重所需 RAM 来衡量。 但许多企业用例——尤其是涉及大规模部署、复杂环境中的智能体AI或RAG系统——往往需要处理长上下文、同时运行多个模型实例的批量推理，或两者兼而有之。秉承 IBM 对企业实用性的重视，我们对 Granite 4 的评估与优化充分考虑了长上下文与多会话并发场景。
与传统基于转换器的模型相比，Granite 4.0-H 可以将处理长输入和多个并发批处理所需的 RAM 减少 70% 以上。
混合架构的 Granite 4.0 模型兼容 AMD Instinct MI-300X GPU，可进一步减少内存占地面积。
随着上下文长度或批大小的增加，传统 LLM 难以维持吞吐量。即使在大多数模型运行速度变慢或完全超出硬件容量的工作量下，我们的混合模型仍能持续加速输出。任务越繁重，其优势越明显。
IBM 与 Qualcomm Technologies, Inc. 和 Nexa AI 合作，确保 Granite 4.0 模型与 Hexagon NPUs1 兼容，进一步优化在智能手机和 PC 端设备上的推理速度。
当然，这些效率优势的实际价值，根本在于 Granite 4.0 模型的输出质量足以媲美甚至超越同级别或更高级别模型——尤其是在遵循指令、函数调用等关键智能体 AI 任务的基准测试中。
与上一代 Granite 模型相比，所有 Granite 4.0 模型均实现全方位性能大幅提升。虽然全新 Granite 混合架构有助于提高模型训练的效率与效果，但模型准确性的进步主要源于我们训练（和训练后）方法的进步以及 Granite 训练数据语料库的持续扩展和完善。这就是为什么即使是基于与过去的 Granite 模型类似的转换器架构构建的 Granite 4.0-Micro，其性能也显著优于 Granite 3.3 8B。
这些模型尤其擅长企业应用和 agentic AI工作流中的核心任务。根据斯坦福大学 HELM 的评估，Granite-4.0-H-Small 在 IFEval（广泛用于评估模型遵循明确指令能力的基准）上超越了所有开源权重模型，唯一例外是参数达 4020 亿、体积是其 12 倍以上的 Llama 4 Maverick。
在许多智能体工作流中，不仅要可靠地遵循指令，还要准确地将指令转化为有效的工具调用，这一点至关重要。为此，Granite-4.0-H-Small 在伯克利函数调用排行榜 v3 基准上的表现与体积大得多的开源及闭源模型持平。此外，其在同类产品中也具备无可比拟的价格优势。
Granite 4.0 在 MTRAG 基准上同样表现出色，该基准衡量模型在复杂检索增强生成任务中的性能与可靠性，涉及多轮对话、无法回答的问题、非独立问题及跨领域信息。
Granite 4.0 的 Hugging Face 模型卡提供了其他评估指标。
所有 Granite 模型均以安全、可靠和负责任治理为核心构建。
本月早些时候，IBM Granite成为首个获得 ISO/IEC 42001:2023 认证的开源语言模型系列，这证实 Granite 符合国际公认的安全、负责任 AI 最佳实践，且 IBM 的AI 管理体系经受了最高级别审核。即使在高度监管行业和关键任务部署等高要求场景中，企业也可放心基于 Granite 4.0 模型进行构建。
与所有 Granite 模型一样，Granite 4.0 模型完全基于精心筛选、合规获取且经企业级审核的数据进行训练。出于对模型可信度的充分信心，IBM 为在 watsonx.ai 平台上使用 Granite 模型所生成内容可能涉及的第三方知识产权主张提供无上限赔偿保障。
除全面的内部测试与红队演练外，IBM 近期还与 HackerOne 合作推出了 Granite 漏洞赏金计划，提供高达 100,000 美元的赏金用于识别任何未预见的缺陷、故障模式、越狱等对抗性攻击的漏洞。参与漏洞赏金计划的研究人员发现的任何宝贵信息都将用于持续增强模型安全性——特别是通过生成合成数据以改进模型对齐。
IBM不仅关注模型自身安全，也重视模型分发链的安全。为此，IBM 开创了发布前对所有 Granite 4 模型检查点进行密码学签名的新实践：所有 Granite 模型检查点均附带 model.sig 文件，便于公开验证模型来源，确保其完整性与真实性。
尽管转换器模型有很多优点，但也有一个关键缺点：其计算需求与序列长度呈二次方增长。如果上下文长度增加一倍，转换器模型必须执行（并存储在内存中）的计算次数就会增加四倍。随着上下文长度增加，这种“二次方瓶颈”不可避免地会降低速度并增加成本。在较长的上下文长度下，它甚至可以快速耗尽高端消费级 GPU 的 RAM 容量。
转换器依赖于自注意力，而 Mamba 采用完全不同的选择性机制，本质上更有效。Mamba 的计算需求仅随序列长度线性增长：当上下文增加一倍时，Mamba 只需进行两倍而非四倍的计算。更优的是，Mamba 的内存需求保持恒定，与序列长度无关。您在 Mamba 模型上投入的工作越多，它相对于转换器的优势就越大。
尽管如此，转换器和自注意力机制仍然比 Mamba 和 Mamba-2 具有一些优势，特别是在涉及上下文学习任务（如少样本提示）中的性能。幸运的是，在混合模式中将二者结合起来，可兼收二者之长。如需了解更多洞察分析，请重新访问我们的 Granite-4.0-Tiny-Preview 预览版。
Granite 4.0-H-Micro、Granite 4.0-H-Tiny 及 Granite 4.0-H-Small 所采用的架构按 9:1 比例依次组合 Mamba-2 层与传统转换器模块。从本质上讲，Mamba-2 模块高效处理全局上下文，并定期将上下文信息传递至转换器模块；后者通过自注意力对局部上下文进行更精细解析，再送至下一组 Mamba-2 层。
值得注意的是，世界上大多数 LLM 服务基础设施历史上仅适配纯转换器模型。继今年初 Granite 4.0-Tiny-Preview 实验性发布后，我们与生态伙伴广泛合作，在 vLLM、llama.cpp、NexaML 及 MLX 等推理框架中建立了对 Granite 4 混合架构的支持，为今天的发布做好准备。NexaML 和 MLX 正在为今天的发布做准备。
Granite-4.0-H-Tiny 和 Granite-4.0-H-Small 将每个 Mamba-2 和转换器模块的输出传递到细粒度专家混合 (MoE) 块（其规格自 Granite 4.0-Tiny-Preview 后略有变化）。自 2024 年发布 Granite 3.0 以来，细粒度 MoE 一直是 IBM 积极研究的一个领域，但 Tiny 和 Small 则是我们首个利用“常启共享专家”的 MoE 模型，这提升了参数效率并使其他“专家”能更好地发展专项知识。
Granite 4.0-H-Micro 使用传统稠密前馈层替代 MoE 模块，其余架构与 Tiny 和 Small 一致。
Mamba 之类基于状态空间模型 (SSM)的语言模型最吸引人的方面之一，是它们在理论上具备处理无限长序列的潜力。所有 Granite 4.0 模型都使用上下文长度高达 512K 令牌的数据样本进行训练。其性能已在涉及长达 128K 令牌上下文长度的任务上得到验证，但理论上上下文长度还可进一步扩展。
在标准转换器模型中，最大上下文窗口从根本上受位置编码的限制。因为转换器的注意力机制同时处理所有令牌，所有不会保留任何关于令牌顺序的信息。位置编码 (PE) 负责重新注入该信息。一些研究表明，使用旋转位置编码 (RoPE) 等常见 PE 技术的模型，处理超出其训练长度的序列时，往往表现不佳。2
Granite 4.0 架构采用无位置编码 (NoPE) 。我们发现，简单地说，它们并不需要顺序信息：Mamba 本身就保留令牌顺序的信息，因为它是按顺序“读取”令牌的。
尽管架构实现各不相同，但所有 Granite 4.0 模型都基于来自同一精心编译的 22T 令牌语料库的企业级训练数据集、相同的改进预训练方法、后训练方案及对话模板进行训练。
Granite 4.0 基于来自 DataComp-LM (DCLM)、GneissWeb、TxT360 子集、维基百科和其他企业相关来源的广泛样本进行预训练。 随后使用跨语言、代码、数学与推理、多语言、安全、工具调用、RAG及网络安全等领域的合成与开源数据集进行后训练，以优化企业任务表现。所有训练数据集均基于开源 Data Prep Kit 框架准备。
与前几代 Granite 模型明显不同的是，我们决定将后训练的 Granite 4.0 模型分为单独的指令调整（今天发布）和推理变体（将于今秋晚些时候发布）。与近期行业研究结果相呼应，我们发现在训练中，将两者分开会让指令模型在遵循指令上表现更佳，思考模型在复杂推理上更优。这样做的另一个好处是简化了两种变体的对话模板。
今秋晚些时候，Granite 4.0 模型的基础版与指令版将迎来对应的“思考”版，其针对复杂逻辑驱动任务的增强后训练正在进行中。
年底前，我们计划发布更多模型规格，不仅包括 Granite 4.0 Medium，还有专为边缘设备推理等场景设计的一系列更小规模的 Granite 4.0 Nano。
Granite 4.0 模型现已在众多平台提供商与推理框架上可用，既可作高效独立的主力模型，也可与前沿大模型协同作为集成工作流的关键组件。您还可以在 Granite Playground 上试用。
全新 Granite 混合架构在 vLLM 0.10.2 和 Hugging Face 转换器中获得全面优化支持。llama.cpp 和 MLX 也支持 Granite 混合架构，不过全面优化运行时吞吐量的工作仍在进行中。我们感谢生态系统合作伙伴的协作，并希望我们的工作能推动混合模型的进一步探索。
Granite 4.0 指令模型现已在 IBM watsonx.ai 上线，后者是 IBM 集成的 AI 开发工作室，使 AI 部署简单可扩展。Granite 4.0 指令模型还可通过以下平台合作伙伴提供（按字母顺序）：Dell Technologies（在 Dell Pro AI Studio 和 Dell Enterprise Hub 上）、Docker Hub、Hugging Face、Kaggle、LM Studio、NVIDIA NIM、Ollama、OPAQUE 和 Replicate。Granite 4.0 基础模型可通过 Hugging Face 获取。
Granite 4.0 模型已获得 Unsloth 支持，可实现快速且内存高效的微调，并可通过 Continue 平台驱动定制化 AI 编程助手。
Granite Docs 中的指南和秘诀 可以帮助您入门，包括以下有用教程：
开源小型语言模型以具有竞争力的价格提供企业级性能和透明度。
借助 IBM 业界领先的人工智能专业知识和解决方案组合，让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营，最大限度提升体验、实时决策和商业价值。
1. Qualcomm 品牌产品是 Qualcomm Technologies, Inc. 和/或其子公司的产品。Qualcomm Hexgon 是 Qualcomm Incorporated 的商标或注册商标。
2. “位置编码对转换器中长度泛化的影响”， arXiv，2023 年 11 月 6 日