今天是 IBM Granite 3.1 发布的日子,这是我们开放、高性能、企业优化语言模型 Granite 系列的最新更新。这套改进、添加和新功能,主要侧重于提高工具使用、检索增强生成 (RAG) 和可扩展代理 AI 工作流等基本企业用例的性能、准确性和可靠性。
Granite 3.1 在最近推出的 Granite 3.0 系列的基础上更上一层楼。未来几个月,IBM 将继续发布 Granite 3 系列的更新模型和功能,并计划于 2025 年第一季度发布新的多模态功能。
这些新的 Granite 模型并不是 IBM 近期对开源 LLM 生态系统做出的唯一显著贡献。从用于开发 AI 代理的灵活框架,到用于解锁隐藏在 PDF、幻灯片和其他模型难以消化的文件格式中的重要信息的直观工具包,今天的发布为最近推出的一系列创新开源产品画上了句号。将这些工具和框架与 Granite 3.1 模型结合使用,可为开发人员提供 RAG、AI 代理和其他基于 LLM 的工作流程的进化功能。
一如既往,IBM 对开源的一贯承诺体现在本文讨论的每个产品都采用了宽松且标准的的开源许可。
IBM 不断优化 Granite 系列的努力,在其旗舰 8B 密集模型的成长中体现得淋漓尽致。目前,IBM 3.1 Granite 8B Instruct 在 Hugging Face OpenLLM 排行榜的学术基准评估中的平均得分,超过了大多数同量级开源模型。
Granite 模型系列的演进过程中,一直将企业用例(包括代理 AI)的卓越性和效率放在首位。最新的 8B 模型在 IFEval 和多步软推理 (MuSR) 上的性能显著提高,前者是测试模型遵循详细指令能力的任务数据集,后者则是衡量推理和理解长文本能力的任务。
从 Granite 3.0 到 Granite 3.1 的性能飞跃得益于所有模型上下文窗口的扩展。Granite 3.1 的 128K 词元上下文长度与其他领先的开源模型系列(包括 Llama 3.1-3.3 和 Qwen2.5)相当。
大型语言模型 (LLM) 的上下文窗口(也称上下文长度)是 LLM 在同一时间内可考虑的文本数量(以词元为单位)。上下文窗口越大,模型就越能处理更大的输入量,进行更长时间的连续交流,并将更多信息纳入每次输出。词元化过程并没有固定的词元到单词的“转换汇率”,但一个实用的估计值是每个单词对应 1.5 个词元。128K 词元大致相当于一本 300 页的书。
超过大约 100K 个词元的阈值后,令人印象深刻的新可能性应运而生,包括多文档问答、代码库级别的代码理解、自我反思,以及由 LLM 驱动的自主智能体。1 因此,Granite 3.1 上下文长度拓展后,适用于更广泛的企业用例,从处理完整的代码库、冗长的法律文件,到同时审核数千个金融交易。
现在,Granite Guardian 3.1 8B 和 Granite Guardian 3.1 2B 可以检测到代理工作流程中可能出现的幻觉,为函数调用提供与我们在 RAG 中已经实现的同等级别的可靠性和可信度。
从向 AI 代理发送初始请求到代理最终向用户返回输出结果,其间会发生许多步骤和子流程。为了提供全程监督,Granite Guardian 3.1 模型对每次函数调用进行监控,以防出现语法和语义幻觉。
例如,如果 AI 代理声称查询了外部信息源,Granite Guardian 3.1 会监控是否有捏造的信息流。如果代理工作流程需要使用从银行记录中获取的数字进行中间计算,Granite Guardian 3.1 会检查代理是否调用了正确的函数以及相应的数字。
今天的发布意味着,基于 LLM 的企业工作流程的所有组件,又向可靠性和可信度迈出了一步。全新的 Granite Guardian 3.1 模型已在 Hugging Face 上发布。它们还将于本月晚些时候通过 Ollama 推出,并于 2025 年 1 月在 IBM watsonx.ai 上推出。
嵌入是 LLM 生态系统不可分割的一部分。以数字形式准确、高效地表示单词、查询和文档,对于一系列企业任务(包括语义搜索、矢量搜索和 RAG)以及维护有效的矢量数据库至关重要。有效的嵌入式模型可以大大增强系统对用户意图的理解,并提高查询回复中的信息和信息源的相关性。
在过去两年中,用于文本生成和摘要等任务的开源自回归 LLM 越来越多,竞争也越来越激烈,但主要供应商发布的开源嵌入式模型却相对较少。
新型 Granite 嵌入式模型是 Slate 系列编码器专用、基于 RoBERTA 的语言模型的增强版本。与 Granite 系列的其他产品一样,Granite 嵌入式模型在训练时同样注重过滤偏见、仇恨、辱骂和不当言论 (简称“HAP”),提供四种模型大小,其中两种支持 12 种自然语言的多语种嵌入功能:
Hugging Face MTEB 排行榜上的绝大多数开源嵌入式模型,都依赖于仅授权用于研究目的的训练数据集,如 MS-MARCO,而 IBM 则验证了用于训练 Granite 嵌入式模型的所有数据源的商业合规性。为了支持企业使用,IBM 为 Granite 嵌入式模型提供了与使用其他 IBM 开发的模型相同的、无上限第三方知识产权索赔保障,彰显了对企业需求的细致考量。
尽管 IBM 在整理和过滤训练数据方面非常谨慎,但这并没有妨碍英语 Granite 嵌入式模型在使用 BEIR 评估框架进行的内部性能评估中,与同等规模的知名开源嵌入式模型并驾齐驱。
IBM 的测试还表明,Granite-Embedding-30M-English 和 Granite-Embedding-107M-Multilingual 这两个新的嵌入式模型在推理速度方面大大超越了竞品。
此次发布启动了 IBM Research 雄心勃勃的开源 Granite 嵌入式模型系列持续创新路线图。我们计划在 2025 年进行更新和升级,包括上下文扩展、针对 RAG 的优化以及多模态检索功能。
在 Granite 系列不断发展的同时,IBM 通过近期开发和开源发布用于构建 LLM 的创新型新工具和框架,继续坚定地致力于开源 AI 。这些 IBM 构建的资源针对 Granite 模型进行了优化,但本质上是开放的,与模型无关,可帮助开发人员充分发挥 LLM 的潜力,从促进微调管道到规范 RAG 源,再到组建自主 AI 代理。
从创意写作到 RAG,生成式 AI 归根结底是基于数据运行的引擎。如果某些数据被困在模型无法识别的格式中,大型语言模型的真正潜力就无法发挥。LLM 是新事物,但问题早已有之:正如《华盛顿邮报》十年前的文章标题所宣称的那样,“我们所有问题的答案,可能都埋藏在无人阅读的 PDF 文件中”。
这就是 IBM Deep Search 开发 Docling 的原因。Docling 是一款功能强大的工具,用于解析 PDF、DOCX、图片、PPTX、XLSX、HTML 和 AsciiDoc 等流行格式的文档,并将其转换为 Markdown 或 JSON 等模型友好格式。这样,Granite 等模型就可以轻松访问这些文档及其中的信息,从而实现 RAG 和其他工作流程的目的。Docling 可与 LlamaIndex、LangChain 和 Bee 等代理框架轻松集成,开发人员可将其功能纳入自己选择的生态系统。
Docling 在宽松的 MIT 许可下开放源代码,是一个复杂的解决方案,超越了简单的光学字符识别 (OCR) 和文本提取。正如 Red Hat 的 William Caban 所解释的那样,Docling 集成了大量基于上下文和元素的预处理技术:如果一个表格跨越多个页面,Docling 知道要将其作为一个完整的表格提取出来;如果一个页面混合了正文、图片和表格,则必须根据其原始上下文将每种内容单独提取出来。
Docling 背后的团队正在积极开发其他功能,包括方程式和代码提取,以及元数据提取。要了解 Docling 的实际应用,请查看本教程,了解如何使用 Docling 和 Granite 构建文档问题解答系统。
Bee Agent Framework 是一个开源框架,用于使用开源 LLM 构建强大的代理式 AI 工作流,并针对 Granite 和 Llama 模型的使用进行了优化(针对特定模型的进一步优化已在开发中)。它包括一系列模块,开发人员可以定制 AI 代理的几乎所有组件,从内存处理到工具使用,再到错误处理,以及多种可观察性功能,为生产部署提供必要的洞察力和可靠性。
该框架可无缝集成多种模型和一套强大的即用工具,如天气服务和互联网搜索(或使用 Javascript 或 Python 编写的定制工具)。Bee 灵活的工具使用功能,可根据您的具体情况定制工作流程,正如本例中使用 Granite 和 Wikipedia 的方法所示,该方法利用内置工具更有效地利用了有限的上下文窗口。
Granite Bee 代理可使用 Ollama 在本地运行,或利用 watsonx.ai 进行托管推理。
Granite 的 TinyTimeMixer (TTM) 时间序列模型于今年早些时候发布,是一系列基于新型架构的预训练轻量级模型。该模型专注于零样本和少样本预测,适用于 IoT 传感器数据、股票市场价格和能源需求等多个领域,Granite 时间序列模型的性能优于许多大小高达其 10 倍的模型,包括 TimesFM、Moirai 和 Chronos。2 自 5 月 30 日以来,Granite-time-series-TTM 模型在 Hugging Face 上已被下载超过 325 万次。
11 月,IBM 宣布推出 watsonx.ai 时序预测 API 和 SDK 测试版,使 Granite 时序模型可以在 IBM 的集成 AI 平台上进行端到端的 AI 应用开发。
有关 Granite-TTM 入门的更多信息,请查看 IBM Granite Timeseries 手册中的技巧,如使用 watsonx SDK 执行预测推断的笔记本。
Granite 3.1 模型现已在 IBM watsonx.ai 上发布。您还可以通过平台合作伙伴访问这些模型,包括 Docker(通过其 DockerHub 生成式 AI 目录)、Hugging Face、LM Studio、Ollama 和 Replicate。部分 Granite 3.1 模型还将于 2025 年 1 月通过英伟达提供(作为 NIM 微服务)。
GitHub 上的 Granite Snack Cookbook 提供了大量使用 Granite 模型的指南和秘诀,从在 Langchain 中使用 Granite 语言模型协调工作流到实施 Granite Guardian 模型,应有尽有。
开发人员还可以在 Granite model playground中开始使用 Granite 模型,或浏览 IBM 文档中一系列有用的演示和教程,例如:
1. “将语言模型扩展到 128K 上下文的数据工程”,arXiv,2024 年 2 月 15 日
2. “微小时间混合器 (TTM):用于增强多变量时间序列零点/少点预测的快速预训练模型”,arXiv,2024 年 11 月 7 日
。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。