Granite | IBM

基准测试	指标	granite-4.1-3b	granite-4.1-8b	granite-4.1-30b
MMLU	5 个样本	67.02	73.84	80.16
IFEval Avg		82.3	87.06	89.65
ArenaHard		37.8	68.98	71.02
GSM8K	8 个样本	86.88	92.49	94.16
HumanEval	pass@1	79.27	87.2	89.63
BFCL v3		60.8	68.27	73.68
MMMLU	5 个样本	57.61	64.84	73.71
AttaQ		81.88	81.19	85.76

访问和构建

Hugging Face

转到 Hugging Face

Ollama

LM Studio

watsonx.ai

OpenRouter

复制

权重和偏差

Unsloth

AnythingLLM

性能和效率

Granite 4.1 在指令遵循和工具调用方面展现出极具竞争力的优异性能，无需依赖长思维链，即可实现可预测的延迟、稳定的令牌使用量以及更低的运营成本。这使其成为注重效率和可靠性的企业工作量中功能强大、可即时投入生产环境的理想选择。

工具调用
指令遵循能力
危害检测
转录准确率
表格和图表提取

Granite 4.1 语言模型可理解并执行基于工具的指令，从而实现与各种软件工具和 API 的无缝整合。此功能允许企业创建强大的 AI 驱动型工作流，同时自动执行复杂的任务。

标题为“Granite 4.1 语言模型具备卓越的工具调用能力”的横向柱状图，基于 BFCL V3 基准测试评分（越高越好）得出的结果。排名最高的是 Granite-4.1-30B（得分为 73.7），其次是 Gemma-4-31B-it（得分为 72.7），Granite-4.1-8B 则紧随其后（得分为 68.3）。其余模型的得分介于 61.7 至 67.8 之间，其中包括 Gemma-4-26B-A4B-it (67.8)、Qwen3-30B-A3B-Instruct-2507 (65.1)、Granite-4.0-H-Small (64.7)、Qwen3.5-35B-A3B (64.2)、Gemma-4-E4B-it (63.2)、Qwen3-4B-Instruct-2507 (61.9) 和 Qwen3.5-9B (61.7)。Granite 4.1 模型以蓝色突出显示，表现优于其他模型。

Granite 4.1 语言模型可理解并遵循用户指令，确保可靠且准确地完成任务。对于希望实现流程自动化并提供一致、高质量结果的企业来说，此功能尤其有价值。

标题为“Granite 4.1 语言模型提供有竞争力的指令遵循能力”的横向柱状图，基于 IFEval 结果。Gemma-4-31B-it 的排名最高，为 94.1，其次是 Gemma-4-26B-A4B-it，为 91.3。Granite-4.1-30B得分为 89.7，表现略高于 Qwen3.5-35B-A3B的 89.1 分，领先于集中在 85 至 88 左右的多个模型，其中包括 Gemma-4-E4B-it (87.8)、Granite-4.0-H-Small(87.5)，Qwen3.5-9B(87.2) 和 Granite-4.1-8B（87.1）。较低的分数包括 Granite-4.1-3B的 82.1，和 Qwen3.5-2B 的 70.6。Granite 4.1 模型以蓝色突出显示，与 Gemma 模型相比，表现出具有竞争力但不算优越的性能。

Granite Guardian 4.1 可检测 IBM® AI Risk Atlas 中编目的关键风险维度。 Guardian 基于独特的数据进行训练，包括人工标注和来自内部红队测试的合成数据，在标准基准测试（包括但不限于越狱尝试、与工具调用相关的亵渎性语言和幻觉，以及智能体系统中的检索增强生成）中，其表现优于同类模型。

比较不同评估数据集的模型性能表格，其中包含 Granite-Guardian-4.1-8B、OffsetBias-8B、Skywork-Reward-8B、Skywork-Reward-27B、SFR-Judge-70B 和 Oracle 基线。Granite-Guardian-4.1-8B（突出显示）在所有数据集中都取得了优异成绩：GSM8k (93.71)，MATH (50.79)、HumanEval+ (80.08)、MBPP+ (70.63)、BigCodeBench (43.70) 和 IFEval (82.81)，综合得分为 70.29。该模型在大多数类别中的表现略优于其他模型，而 Oracle 的总体得分仍然最高，其中 GSM8k 为 97.46，总体得分为 81.54。

Granite Speech 4.1 可在不同的真实音频环境中提供高精度企业级语音识别，在会话式语音、会议、演示和财报电话会议的基准测试中展现出较低的单词错误率。

标题为“Granite Speech 4.1 在转录准确率方面的表现优于同类模型”的分组柱状图，展示了九个数据集中的英语 ASR 单词错误率（越低越好）：GigaSpeech、LScln、LSoth、SPGI、AMI_IHM、AMI_SDM、VoxPopuli、TED-LIUM 和 Evaluation -22。对比多个模型，包括 Whisper-large-v3、Gemini 2.0 Flash、phi-4-mm、Qwen ASR、Canary 和 Granite Speech 变体（浅蓝色）。Granite Speech 模型在大多数数据集中始终保持最低的错误率。LScln 的错误率约为 1-2，LSoth 和 SPGI 的错误率约为 3-5，AMI_IHM 的错误率约为 9-16，AMI_SDM 的错误率最高（约为 22-41）。该图表显示：相较于竞品模型，Granite Speech 4.1 的整体转录准确率最高。

Granite Vision 4.1 在从视觉内容中提取结构化信息方面展现出业界领先的性能，在图表提取、表格提取和键值对 (KVP) 提取等七项基准测试中取得平均分最高的优异成绩。

标题为“Granite Vision 4.1 在表格提取方面超越 Claude Opus 4.6”的横向柱状图，显示了七个提取基准上的平均分数（越高越好）。Granite-Vision-4.1-4B得分最高，为 86.5 分，其次是 Claude-Opus-4.6，得分为 83.8 分。其他模型得分较低：Gemma4-E4B (72.4)、Qwen3.5-4B(71.7)、Ministral-3-8B (68.2) 和 InternVL3.5-4B(66.4)。Granite Vision 以蓝色突出显示，Claude 显示为紫色，其余模型以灰色显示，强调 Granite Vision 是表现最佳的模型。

深受各行业公司信赖

美国网球公开赛

美国网球公开赛希望通过不断发展的数字体验吸引全球球迷。IBM 帮助将海量比赛数据转化为 AI 驱动的洞察分析和互动功能，提供动态应用程序和网站体验，让球迷时刻保持联系并沉浸在体验中。

1,400 万

全球数百万车迷获享卓越数字体验

比赛期间捕获并分析的数据点

阅览成功案例

Scuderia Ferrari HP

Scuderia Ferrari 希望优化其数字体验，以吸引全球车迷。 IBM 助其将大量赛车数据转化为人工智能驱动的洞察分析和个性化内容，从而交付重新设计的应用程序，并通过交互式功能和沉浸式叙事，拉近车迷与赛场的距离。

阅览成功案例

Blue Pearl

Blue Pearl 希望提升其招聘流程的速度和效率。 IBM 通过人工智能驱动的职位匹配和自动内容创建功能，助其转变人力资源工作流，以更高的准确性和速度为候选人和雇主建立联系。

85%

缩短填补职位空缺的平均时间

97%

缩短筛选时间

阅览成功案例

Food Ladder

Food Ladder 需要提高其防范粮食危机的能力，同时为偏远社区提供支持。IBM 助其引入人工智能驱动的自动化和数字化工具，以拓展其服务范围，打造更智能的平台，从而在全球范围内实现可持续粮食生产和个性化学习体验。

85,000

由单个仓库供应餐食

2500 万

2030 年的百万份餐食目标，相较于 2024 年的 132, 480 份餐食有所增加

阅览成功案例

面向开发人员的 Granite 模型

开发方案：文档摘要生成

基于 IBM Granite 构建文档摘要工具，处理超出上下文窗口限制的文档。

基于 Langchain 的 RAG 方案

基于 Granite 构建 RAG 流水线，依托外部知识库响应查询。

开发方案：多模态 RAG

基于 Granite 与 Docling 构建多模态 RAG 管道，支持文本、表格与图像查询。

指南：开源模型

了解开源大语言模型如何实现自主化、降低成本，并辅助开发人员完成评估、调优与部署。

教程：时间序列预测

使用 Granite 时间序列模型完成零样本与微调式时间序列预测。

Granite 智能体指南

智能体任务的 Granite 配方。

教程：本地 AI 辅助工具

基于 IBM Granite Code、Ollama 与 Continue 构建本地 AI 辅助工具。

Granite 指南

查看完整的 Granite 指南

使用 Granite 构建

Granite 模型为众多 IBM 产品与服务提供底层 AI 能力支撑。了解代码生成、应用程序开发与模型测试的一站式解决方案。全部能力由 IBM Granite 提供支持。

AI 编码智能体

依托 Granite 模型的 AI 与自动化技术，加快编码效率，简化开发流程。

深入了解 AI 编码智能体

watsonx.ai

可选用 Granite 模型或多款第三方模型，构建并部署 AI 应用程序。

深入了解 watsonx.ai

watsonx Orchestrate

开发并管理由 Granite 驱动的 AI 智能体，浏览预构建智能体目录。

探索 watsonx Orchestrate

Red Hat Enterprise Linux AI

开发、测试并运行 LLM，包括 Granite。

深入了解 Red Hat Enterprise Linux AI

分析报告与模型排行榜

IBM 获评数据科学与机器学习领域领导者

阅读报告，了解 IBM 如何助力数据科学家与机器学习工程师在企业内构建、部署并管理高价值 AI 应用程序。

GuardBench 护栏模型排行榜

了解 Granite Guardian 模型为何在 GuardBench 排行榜的前 10 名中名列第 6 位，此类模型均擅长识别有害或恶意提示以及 LLM 生成的响应。

语音识别 Open ASR 排行榜

深入了解 IBM 语音模型凭借低词错误率登顶 Open ASR 排行榜的详情。

斯坦福大学透明度指数

深入了解 Granite 在斯坦福大学基础模型透明度指数中获评最高等级的原因（该指数评估数据源、数据集规模、有害内容过滤等核心透明度指标）。

后续步骤

IBM 相信，AI 模型的创建、部署和运用能够负责任地推进整个企业的创新。IBM watsonx AI 和数据平台具有构建和测试基础模型以及生成式 AI 的端到端流程。针对 IBM 开发的模型，我们会在模型训练之前搜索并删除重复项，并使用 URL 拦截列表技术、不良内容和文档质量过滤器、句子分割和标记化技术。

在数据训练过程中，我们力求防止模型输出失准，并使用监督微调来改善指令跟踪，以便借助提示工程将模型用于企业任务。我们将继续朝着多个方向开发 Granite 模型，包括其他模态、特定行业内容和更多用于训练的数据注释，同时还将为 IBM 开发的模型部署定期、持续的数据保护措施。

鉴于生成式 AI 技术的日新月异，我们端到端的流程有望不断发展和完善。作为 IBM 在其基础模型开发和测试中投入的严谨性证明，IBM 为其开发的模型提供标准的合同知识产权赔偿，类似于为 IBM 硬件和软件产品提供的赔偿。

与其他一些大型语言模型提供商不同，IBM 不要求客户因使用 IBM 开发的模型而赔偿 IBM，这是 IBM 的标准赔偿惯例。此外，IBM 对自身开发的模型未设置赔偿责任上限，这也符合 IBM 的一贯赔偿义务做法。

受上述保护的 watsonx 模型目前包括：

(1) Slate 系列纯编码器模型。

(2) Granite 系列纯解码器模型。

了解有关 Granite 模型许可的更多信息

¹截至 2026 年 4 月 29 日，已发布的 Granite 语言、视觉、语音、嵌入和 Guardian 模型均已进行加密签名处理。

²ISO 认证适用于 Granite 语言模型的 Granite AI 管理系统 (AIMS)。可点击此处查看证书：https://www.schellman.com/certificate-directory（证书编号 1102257-1）。