IBM Granite 3.1:强大的性能、更长的上下文、新的嵌入式模型等

代表 granite 3.1 立方体的立方体插图

作者

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

以下是主要信息概览:
 

  •  
  • 与 Granite 3.0 8B Instruct 相比,Granite 3.1 8B Instruct 的性能有了显著提高。目前,它在 Hugging Face OpenLLM 排行榜基准测试中的平均得分,在同量级开源模型中名列前茅。
  • 我们扩展了整个 Granite 3 语言模型系列的上下文窗口。我们最新的密集型模型(Granite 3.1 8B、Granite 3.1 2B)、MoE 模型(Granite 3.1 3B-A800M、Granite 3.1 1B-A400M)和防护模型(Granite Guardian 3.1 8B、Granite Guardian 3.1 2B)都具有 128K 词元上下文长度。
  • 我们发布了一系列全新的嵌入式模型。新的检索优化 Granite 嵌入式模型有四种规格,参数范围从 30M-278M 不等。与生成式模型一样,它们提供 12 种不同语言的多语言支持:英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文。
  •  
  • Granite Guardian 3.1 8B 和 2B 具有新的函数调用幻觉检测能力,可增强对代理在工具调用时的控制和可观察性。
  • 所有 Granite 3.1、Granite Guardian 3.1 和 Granite 嵌入式模型均根据 Apache 2.0 许可开放源代码
  • 继 IBM 最近推出 Docling(一个用于为 RAG 和其他生成式 AI 应用程序进行文档准备的开源框架)和 Bee(一个与模型无关的代理式 AI 开源框架)之后,Granite 系列又添新成员。
  • Granite TTM(TinyTimeMixers)是 IBM 推出的一系列结构紧凑但性能卓越的时序模型,现在可通过 watsonx.ai 时序预测 API 和 SDK 测试版在 watsonx.ai 中使用。
  • Granite 3.1 模型现已在 IBM watsonx.ai 中提供,并通过平台合作伙伴提供,包括(按字母顺序排列)DockerHugging FaceLM StudioOllamaReplicate
  • 企业合作伙伴也将在内部使用 Granite 3.1:三星正在将选定的 Granite 模型集成到其 SDS 平台中;洛克希德·马丁公司正在将 Granite 3.1 模型集成到其 AI Factory 工具中,该工具有 10,000 多名开发人员和工程师在使用。
 


今天是 IBM Granite 3.1 发布的日子,这是我们开放、高性能、企业优化语言模型 Granite 系列的最新更新。这套改进、添加和新功能,主要侧重于提高工具使用、检索增强生成 (RAG) 和可扩展代理 AI 工作流等基本企业用例的性能、准确性和可靠性。

Granite 3.1 在最近推出的 Granite 3.0 系列的基础上更上一层楼。未来几个月,IBM 将继续发布 Granite 3 系列的更新模型和功能,并计划于 2025 年第一季度发布新的多模态功能。

这些新的 Granite 模型并不是 IBM 近期对开源 LLM 生态系统做出的唯一显著贡献。从用于开发 AI 代理的灵活框架,到用于解锁隐藏在 PDF、幻灯片和其他模型难以消化的文件格式中的重要信息的直观工具包,今天的发布为最近推出的一系列创新开源产品画上了句号。将这些工具和框架与 Granite 3.1 模型结合使用,可为开发人员提供 RAG、AI 代理和其他基于 LLM 的工作流程的进化功能。

一如既往,IBM 对开源的一贯承诺体现在本文讨论的每个产品都采用了宽松且标准的的开源许可。

Granite 3.1 8B Instruct:提高轻量级企业模型的标准

IBM 不断优化 Granite 系列的努力,在其旗舰 8B 密集模型的成长中体现得淋漓尽致。目前,IBM 3.1 Granite 8B InstructHugging Face OpenLLM 排行榜的学术基准评估中的平均得分,超过了大多数同量级开源模型。

Granite 模型系列的演进过程中,一直将企业用例(包括代理 AI)的卓越性和效率放在首位。最新的 8B 模型在 IFEval多步软推理 (MuSR) 上的性能显著提高,前者是测试模型遵循详细指令能力的任务数据集,后者则是衡量推理和理解长文本能力的任务。

扩展的上下文长度

从 Granite 3.0 到 Granite 3.1 的性能飞跃得益于所有模型上下文窗口的扩展。Granite 3.1 的 128K 词元上下文长度与其他领先的开源模型系列(包括 Llama 3.1-3.3 和 Qwen2.5)相当。

大型语言模型 (LLM) 的上下文窗口(也称上下文长度)是 LLM 在同一时间内可考虑的文本数量(以词元为单位)。上下文窗口越大,模型就越能处理更大的输入量,进行更长时间的连续交流,并将更多信息纳入每次输出。词元化过程并没有固定的词元到单词的“转换汇率”,但一个实用的估计值是每个单词对应 1.5 个词元。128K 词元大致相当于一本 300 页的书。

超过大约 100K 个词元的阈值后,令人印象深刻的新可能性应运而生,包括多文档问答、代码库级别的代码理解、自我反思,以及由 LLM 驱动的自主智能体1 因此,Granite 3.1 上下文长度拓展后,适用于更广泛的企业用例,从处理完整的代码库、冗长的法律文件,到同时审核数千个金融交易。

Granite Guardian 3.1:检测代理工作流中的幻觉
 

现在,Granite Guardian 3.1 8BGranite Guardian 3.1 2B 可以检测到代理工作流程中可能出现的幻觉,为函数调用提供与我们在 RAG 中已经实现的同等级别的可靠性和可信度。

从向 AI 代理发送初始请求到代理最终向用户返回输出结果,其间会发生许多步骤和子流程。为了提供全程监督,Granite Guardian 3.1 模型对每次函数调用进行监控,以防出现语法和语义幻觉。

例如,如果 AI 代理声称查询了外部信息源,Granite Guardian 3.1 会监控是否有捏造的信息流。如果代理工作流程需要使用从银行记录中获取的数字进行中间计算,Granite Guardian 3.1 会检查代理是否调用了正确的函数以及相应的数字。

今天的发布意味着,基于 LLM 的企业工作流程的所有组件,又向可靠性和可信度迈出了一步。全新的 Granite Guardian 3.1 模型已在 Hugging Face 上发布。它们还将于本月晚些时候通过 Ollama 推出,并于 2025 年 1 月在 IBM watsonx.ai 上推出。

Granite 嵌入式模型

嵌入是 LLM 生态系统不可分割的一部分。以数字形式准确、高效地表示单词、查询和文档,对于一系列企业任务(包括语义搜索、矢量搜索RAG)以及维护有效的矢量数据库至关重要。有效的嵌入式模型可以大大增强系统对用户意图的理解,并提高查询回复中的信息和信息源的相关性。

在过去两年中,用于文本生成和摘要等任务的开源自回归 LLM 越来越多,竞争也越来越激烈,但主要供应商发布的开源嵌入式模型却相对较少。

新型 Granite 嵌入式模型Slate 系列编码器专用、基于 RoBERTA 的语言模型的增强版本。与 Granite 系列的其他产品一样,Granite 嵌入式模型在训练时同样注重过滤偏见、仇恨、辱骂和不当言论 (简称“HAP”),提供四种模型大小,其中两种支持 12 种自然语言的多语种嵌入功能:

  •  
  • Granite-Embedding-30M-English
  • Granite-Embedding-125M-English
  • Granite-Embedding-107M-Multilingual
  • Granite-Embedding-278M-Multilingual
 

Hugging Face MTEB 排行榜上的绝大多数开源嵌入式模型,都依赖于仅授权用于研究目的的训练数据集,如 MS-MARCO,而 IBM 则验证了用于训练 Granite 嵌入式模型的所有数据源的商业合规性。为了支持企业使用,IBM 为 Granite 嵌入式模型提供了与使用其他 IBM 开发的模型相同的、无上限第三方知识产权索赔保障,彰显了对企业需求的细致考量。

尽管 IBM 在整理和过滤训练数据方面非常谨慎,但这并没有妨碍英语 Granite 嵌入式模型在使用 BEIR 评估框架进行的内部性能评估中,与同等规模的知名开源嵌入式模型并驾齐驱。

IBM 的测试还表明,Granite-Embedding-30M-English 和 Granite-Embedding-107M-Multilingual 这两个新的嵌入式模型在推理速度方面大大超越了竞品。

此次发布启动了 IBM Research 雄心勃勃的开源 Granite 嵌入式模型系列持续创新路线图。我们计划在 2025 年进行更新和升级,包括上下文扩展、针对 RAG 的优化以及多模态检索功能。

文件破译和代理 AI

在 Granite 系列不断发展的同时,IBM 通过近期开发和开源发布用于构建 LLM 的创新型新工具和框架,继续坚定地致力于开源 AI 。这些 IBM 构建的资源针对 Granite 模型进行了优化,但本质上是开放的,与模型无关,可帮助开发人员充分发挥 LLM 的潜力,从促进微调管道到规范 RAG 源,再到组建自主 AI 代理。

Docling:为 RAG、预培训和微调准备文件
 

从创意写作到 RAG,生成式 AI 归根结底是基于数据运行的引擎。如果某些数据被困在模型无法识别的格式中,大型语言模型的真正潜力就无法发挥。LLM 是新事物,但问题早已有之:正如《华盛顿邮报》十年前的文章标题所宣称的那样,“我们所有问题的答案,可能都埋藏在无人阅读的 PDF 文件中”。

这就是 IBM Deep Search 开发 Docling 的原因。Docling 是一款功能强大的工具,用于解析 PDF、DOCX、图片、PPTX、XLSX、HTML 和 AsciiDoc 等流行格式的文档,并将其转换为 Markdown 或 JSON 等模型友好格式。这样,Granite 等模型就可以轻松访问这些文档及其中的信息,从而实现 RAG 和其他工作流程的目的。Docling 可与 LlamaIndex、LangChain 和 Bee 等代理框架轻松集成,开发人员可将其功能纳入自己选择的生态系统。

Docling 在宽松的 MIT 许可下开放源代码,是一个复杂的解决方案,超越了简单的光学字符识别 (OCR) 和文本提取。正如 Red Hat 的 William Caban 所解释的那样,Docling 集成了大量基于上下文和元素的预处理技术:如果一个表格跨越多个页面,Docling 知道要将其作为一个完整的表格提取出来;如果一个页面混合了正文、图片和表格,则必须根据其原始上下文将每种内容单独提取出来。

Docling 背后的团队正在积极开发其他功能,包括方程式和代码提取,以及元数据提取。要了解 Docling 的实际应用,请查看本教程,了解如何使用 Docling 和 Granite 构建文档问题解答系统

Bee:面向开放模型的代理 AI 框架

Bee Agent Framework 是一个开源框架,用于使用开源 LLM 构建强大的代理式 AI 工作流,并针对 Granite 和 Llama 模型的使用进行了优化(针对特定模型的进一步优化已在开发中)。它包括一系列模块,开发人员可以定制 AI 代理的几乎所有组件,从内存处理到工具使用,再到错误处理,以及多种可观察性功能,为生产部署提供必要的洞察力和可靠性。

该框架可无缝集成多种模型和一套强大的即用工具,如天气服务和互联网搜索(或使用 Javascript 或 Python 编写的定制工具)。Bee 灵活的工具使用功能,可根据您的具体情况定制工作流程,正如本例中使用 Granite 和 Wikipedia 的方法所示,该方法利用内置工具更有效地利用了有限的上下文窗口。

Granite Bee 代理可使用 Ollama 在本地运行,或利用 watsonx.ai 进行托管推理。

IBM watsonx.ai 中的时间序列预测

Granite 的 TinyTimeMixer (TTM) 时间序列模型于今年早些时候发布,是一系列基于新型架构的预训练轻量级模型。该模型专注于零样本和少样本预测,适用于 IoT 传感器数据、股票市场价格和能源需求等多个领域,Granite 时间序列模型的性能优于许多大小高达其 10 倍的模型,包括 TimesFM、Moirai 和 Chronos。2 自 5 月 30 日以来,Granite-time-series-TTM 模型在 Hugging Face 上已被下载超过 325 万次。

11 月,IBM 宣布推出 watsonx.ai 时序预测 API 和 SDK 测试版,使 Granite 时序模型可以在 IBM 的集成 AI 平台上进行端到端的 AI 应用开发。

有关 Granite-TTM 入门的更多信息,请查看 IBM Granite Timeseries 手册中的技巧,如使用 watsonx SDK 执行预测推断的笔记本

开始使用 Granite 3.1

Granite 3.1 模型现已在 IBM watsonx.ai 上发布。您还可以通过平台合作伙伴访问这些模型,包括 Docker(通过其 DockerHub 生成式 AI 目录)、Hugging Face、LM Studio、Ollama 和 Replicate。部分 Granite 3.1 模型还将于 2025 年 1 月通过英伟达提供(作为 NIM 微服务)。
GitHub 上的 Granite Snack Cookbook 提供了大量使用 Granite 模型的指南和秘诀,从在 Langchain 中使用 Granite 语言模型协调工作流到实施 Granite Guardian 模型,应有尽有。

开发人员还可以在 Granite model playground中开始使用 Granite 模型,或浏览 IBM 文档中一系列有用的演示和教程,例如:

 


深入了解 Granite 3.1 模型 →

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
人工智能服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示