Granite

开放架构,性能优异,值得信赖。Apache 2.0 许可,加密签名1,ISO 认证2

彩色渐变分层几何形状插画
IBM® Granite 4.1 正为安全的本地 AI 部署提供支持
轻量级、高性能模型,采用 Apache 2.0 许可证发布,专为可扩展的企业工作量而设计
了解 Granite 4.1

为什么要使用 Granite 进行构建?

利用针对企业工作量、成本效益和灵活部署而优化的可定制开源模型,更快构建和扩展 AI。

开放
Apache 2.0 下的开源 Granite 可确保透明度,同时在任何基础设施中实现完全的可定制性和部署灵活性。
下载模型
性能良好
这一小模型系列性能出众,专为提升企业核心任务的处理效率与扩展能力而打造。
审核基准
可信
通过实现训练数据和流程的透明化,设置损害检测功能和内置护栏,消除“黑匣”AI 的风险。
了解更多
Granite 4.1 正式上线
Granite 4.1 语言模型

我们迄今为止性能最为优异的密集型非思考模型。可在执行一系列企业任务时,与规模更大的思考模型相媲美,而成本仅为后者的一小部分。

下载语言模型
Granite 4.1 语音模型

轻量设计、功能强大。行业领先的转录准确率,全面覆盖各种口音、领域和嘈杂环境。

下载语音模型
Granite 4.1 视觉模型

以企业级精度理解文档、图表和图像。

下载视觉模型
Granite 4.1 Guardian 模型

设立护栏机制,检测恶意内容和有害输出。专为企业合规管理而设计。

下载 Guardian 模型
Granite 嵌入式模型

用于检索、搜索和分类的精确语义表示。

下载嵌入模型

深入了解基准测试

这些模型通过大量数据集和指标进行评估,涵盖文本生成的各个环节。更多基准测试详见 Granite 技术博客。​

 

基准测试​指标granite-4.1-3b​granite-4.1-8b​granite-4.1-30b​
MMLU​5 个样本​67.02​73.84​80.16​
IFEval Avg​ 82.3​87.06​89.65​
ArenaHard​ 37.8​68.98​71.02​
GSM8K​8 个样本​86.88​92.49​94.16​
HumanEval​pass@1​79.27​87.2​89.63​
BFCL v3​ 60.8​68.27​73.68​
MMMLU​5 个样本​57.61​64.84​73.71​
AttaQ​ 81.88​81.19​85.76​

性能和效率

Granite 4.1 在指令遵循和工具调用方面展现出极具竞争力的优异性能,无需依赖长思维链,即可实现可预测的延迟、稳定的令牌使用量以及更低的运营成本。这使其成为注重效率和可靠性的企业工作量中功能强大、可即时投入生产环境的理想选择。

Granite 4.1 语言模型可理解并执行基于工具的指令,从而实现与各种软件工具和 API 的无缝整合。此功能允许企业创建强大的 AI 驱动型工作流,同时自动执行复杂的任务。

标题为“Granite 4.1 语言模型具备卓越的工具调用能力”的横向柱状图,基于 BFCL V3 基准测试评分(越高越好)得出的结果。排名最高的是 Granite-4.1-30B(得分为 73.7),其次是 Gemma-4-31B-it(得分为 72.7),Granite-4.1-8B 则紧随其后(得分为 68.3)。其余模型的得分介于 61.7 至 67.8 之间,其中包括 Gemma-4-26B-A4B-it (67.8)、Qwen3-30B-A3B-Instruct-2507 (65.1)、Granite-4.0-H-Small (64.7)、Qwen3.5-35B-A3B (64.2)、Gemma-4-E4B-it (63.2)、Qwen3-4B-Instruct-2507 (61.9) 和 Qwen3.5-9B (61.7)。Granite 4.1 模型以蓝色突出显示,表现优于其他模型。

Granite 4.1 语言模型可理解并遵循用户指令,确保可靠且准确地完成任务。对于希望实现流程自动化并提供一致、高质量结果的企业来说,此功能尤其有价值。

标题为“Granite 4.1 语言模型提供有竞争力的指令遵循能力”的横向柱状图,基于 IFEval 结果。Gemma-4-31B-it 的排名最高,为 94.1,其次是 Gemma-4-26B-A4B-it,为 91.3。Granite-4.1-30B得分为 89.7,表现略高于 Qwen3.5-35B-A3B的 89.1 分,领先于集中在 85 至 88 左右的多个模型,其中包括 Gemma-4-E4B-it (87.8)、Granite-4.0-H-Small(87.5),Qwen3.5-9B(87.2) 和 Granite-4.1-8B(87.1)。较低的分数包括 Granite-4.1-3B的 82.1,和 Qwen3.5-2B 的 70.6。Granite 4.1 模型以蓝色突出显示,与 Gemma 模型相比,表现出具有竞争力但不算优越的性能。

Granite Guardian 4.1 可检测 IBM® AI Risk Atlas 中编目的关键风险维度。 Guardian 基于独特的数据进行训练,包括人工标注和来自内部红队测试的合成数据,在标准基准测试(包括但不限于越狱尝试、与工具调用相关的亵渎性语言和幻觉,以及智能体系统中的检索增强生成)中,其表现优于同类模型。

比较不同评估数据集的模型性能表格,其中包含 Granite-Guardian-4.1-8B、OffsetBias-8B、Skywork-Reward-8B、Skywork-Reward-27B、SFR-Judge-70B 和 Oracle 基线。Granite-Guardian-4.1-8B(突出显示)在所有数据集中都取得了优异成绩:GSM8k (93.71),MATH (50.79)、HumanEval+ (80.08)、MBPP+ (70.63)、BigCodeBench (43.70) 和 IFEval (82.81),综合得分为 70.29。该模型在大多数类别中的表现略优于其他模型,而 Oracle 的总体得分仍然最高,其中 GSM8k 为 97.46,总体得分为 81.54。

Granite Speech 4.1 可在不同的真实音频环境中提供高精度企业级语音识别,在会话式语音、会议、演示和财报电话会议的基准测试中展现出较低的单词错误率。

标题为“Granite Speech 4.1 在转录准确率方面的表现优于同类模型”的分组柱状图,展示了九个数据集中的英语 ASR 单词错误率(越低越好):GigaSpeech、LScln、LSoth、SPGI、AMI_IHM、AMI_SDM、VoxPopuli、TED-LIUM 和 Evaluation -22。对比多个模型,包括 Whisper-large-v3、Gemini 2.0 Flash、phi-4-mm、Qwen ASR、Canary 和 Granite Speech 变体(浅蓝色)。Granite Speech 模型在大多数数据集中始终保持最低的错误率。LScln 的错误率约为 1-2,LSoth 和 SPGI 的错误率约为 3-5,AMI_IHM 的错误率约为 9-16,AMI_SDM 的错误率最高(约为 22-41)。该图表显示:相较于竞品模型,Granite Speech 4.1 的整体转录准确率最高。

Granite Vision 4.1 在从视觉内容中提取结构化信息方面展现出业界领先的性能,在图表提取、表格提取和键值对 (KVP) 提取等七项基准测试中取得平均分最高的优异成绩。

标题为“Granite Vision 4.1 在表格提取方面超越 Claude Opus 4.6”的横向柱状图,显示了七个提取基准上的平均分数(越高越好)。Granite-Vision-4.1-4B得分最高,为 86.5 分,其次是 Claude-Opus-4.6,得分为 83.8 分。其他模型得分较低:Gemma4-E4B (72.4)、Qwen3.5-4B(71.7)、Ministral-3-8B (68.2) 和 InternVL3.5-4B(66.4)。Granite Vision 以蓝色突出显示,Claude 显示为紫色,其余模型以灰色显示,强调 Granite Vision 是表现最佳的模型。

深受各行业公司信赖

美国网球公开赛

美国网球公开赛希望通过不断发展的数字体验吸引全球球迷。IBM 帮助将海量比赛数据转化为 AI 驱动的洞察分析和互动功能,提供动态应用程序和网站体验,让球迷时刻保持联系并沉浸在体验中。

1,400 万
全球数百万车迷获享卓越数字体验
7M
比赛期间捕获并分析的数据点
美国网球公开赛球场广角图:球迷正在观看比赛

面向开发人员的 Granite 模型

开发方案:文档摘要生成

基于 IBM Granite 构建文档摘要工具,处理超出上下文窗口限制的文档。

基于 Langchain 的 RAG 方案

基于 Granite 构建 RAG 流水线,依托外部知识库响应查询。

开发方案:多模态 RAG

基于 Granite 与 Docling 构建多模态 RAG 管道,支持文本、表格与图像查询。

指南:开源模型

了解开源大语言模型如何实现自主化、降低成本,并辅助开发人员完成评估、调优与部署。

教程:时间序列预测

使用 Granite 时间序列模型完成零样本与微调式时间序列预测。

Granite 智能体指南

智能体任务的 Granite 配方。

教程:本地 AI 辅助工具

基于 IBM Granite Code、Ollama 与 Continue 构建本地 AI 辅助工具。

Granite 指南

查看完整的 Granite 指南

使用 Granite 构建

Granite 模型为众多 IBM 产品与服务提供底层 AI 能力支撑。了解代码生成、应用程序开发与模型测试的一站式解决方案。全部能力由 IBM Granite 提供支持。

AI 编码智能体

依托 Granite 模型的 AI 与自动化技术,加快编码效率,简化开发流程。

深入了解 AI 编码智能体
watsonx.ai

可选用 Granite 模型或多款第三方模型,构建并部署 AI 应用程序。

深入了解 watsonx.ai
watsonx Orchestrate

开发并管理由 Granite 驱动的 AI 智能体,浏览预构建智能体目录。

探索 watsonx Orchestrate
Red Hat Enterprise Linux AI

开发、测试并运行 LLM,包括 Granite。

深入了解 Red Hat Enterprise Linux AI

IBM 相信,AI 模型的创建、部署和运用能够负责任地推进整个企业的创新。IBM watsonx AI 和数据平台具有构建和测试基础模型以及生成式 AI 的端到端流程。针对 IBM 开发的模型,我们会在模型训练之前搜索并删除重复项,并使用 URL 拦截列表技术、不良内容和文档质量过滤器、句子分割和标记化技术。

在数据训练过程中,我们力求防止模型输出失准,并使用监督微调来改善指令跟踪,以便借助提示工程将模型用于企业任务。我们将继续朝着多个方向开发 Granite 模型,包括其他模态、特定行业内容和更多用于训练的数据注释,同时还将为 IBM 开发的模型部署定期、持续的数据保护措施。

鉴于生成式 AI 技术的日新月异,我们端到端的流程有望不断发展和完善。作为 IBM 在其基础模型开发和测试中投入的严谨性证明,IBM 为其开发的模型提供标准的合同知识产权赔偿,类似于为 IBM 硬件和软件产品提供的赔偿。

与其他一些大型语言模型提供商不同,IBM 不要求客户因使用 IBM 开发的模型而赔偿 IBM,这是 IBM 的标准赔偿惯例。此外,IBM 对自身开发的模型未设置赔偿责任上限,这也符合 IBM 的一贯赔偿义务做法。

受上述保护的 watsonx 模型目前包括:

(1) Slate 系列纯编码器模型。

(2) Granite 系列纯解码器模型。

了解有关 Granite 模型许可的更多信息

1截至 2026 年 4 月 29 日,已发布的 Granite 语言、视觉、语音、嵌入和 Guardian 模型均已进行加密签名处理。

2ISO 认证适用于 Granite 语言模型的 Granite AI 管理系统 (AIMS)。可点击此处查看证书:https://www.schellman.com/certificate-directory(证书编号 1102257-1)。