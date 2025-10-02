Granite 4.0 的发布开启了 IBM 企业级大语言模型系列的新纪元，它利用新颖的架构进步，专注于打造小而高效的语言模型，以更低成本与延迟提供有竞争力的性能。Granite 4.0 模型的开发特别强调了智能体工作流中的核心任务，既可用于独立部署，也可作为复杂系统中与大型推理模型协同的高性价比构建模块。

Granite 4.0 系列包含多种模型大小和架构风格，旨在为各种硬件限制场景提供最优生产力，包括：

Granite-4.0-H-Small 是一个混合专家（MoE）模型，共有 320 亿个参数（其中有 90 亿个活跃参数）。

是一个混合专家（MoE）模型，共有 320 亿个参数（其中有 90 亿个活跃参数）。 Granite-4.0-H-Tiny 是一个混合专家模型，总共 70 亿个参数（其中 10 亿个活跃参数）

是一个混合专家模型，总共 70 亿个参数（其中 10 亿个活跃参数） Granite-4.0-H-Micro 是一个稠密混合模型，有 30 亿个参数。

是一个稠密混合模型，有 30 亿个参数。 此版本还包含 Granite-4.0-Micro，这是一个 30 亿参数的稠密模型，采用传统注意力驱动的转换器架构，以适配尚未支持混合架构的平台和社区。

Granite 4.0-H Small 是处理企业工作流（如多工具智能体和客户支持自动化）的强力且高性价比模型。Tiny 和 Micro 模型专为低延迟、边缘和本地应用程序而设计，也可在更大智能体工作流中作为构建模块，快速执行如函数调用等关键任务。

与前几代产品相比，Granite 4.0 的基准性能有了大幅提升，即使是最小的 Granite 4.0 模型也大幅超越大小是其两倍以上的 Granite 3.3 8B，但其最突出的优势在于推理效率显著提高。与传统 LLM 相比，我们的混合 Granite 4.0 模型运行时所需内存大幅减少，尤其是在处理长上下文任务（例如摄取大型代码库或大量文档）以及同时处理多会话时（如客服智能体同时处理多个详细用户问询）。

最重要的是，Granite 4.0 内存需求大幅降低，也意味着在高推理速度下运行重负载任务所需的硬件成本同样大幅下降。我们的目标是降低准入门槛，为企业和开源代码开发人员提供具有成本效益的机会，让他们获得极具竞争力的 LLM。