2025 年 5 月 6 日
在本周的 Think 大会上,IBM 大大简化了 AI 数据堆栈。
IBM 即将重磅推出 watsonx.data 的重大升级版本,它可帮助组织让数据为 AI 做好准备,并提供一个开放的、混合的数据基础,以及适用于企业的结构化和非结构化数据管理能力。
最终成效如何?根据 IBM watsonx.data 的测试,AI 的准确率比传统 RAG 高出 40%。1 预计将于 6 月推出的产品和功能包括:
Watsonx.data 整合组件和 Watsonx.data 智能组件将作为独立产品提供,同时部分功能也将通过 watsonx.data 提供,从而最大化客户的选择空间和模块化灵活性。
为了完善这些产品,IBM 近日宣布拟收购 DataStax,该公司在利用非结构化数据驱动生成式 AI 方面表现出色。借助 DataStax,客户可以访问额外的矢量搜索功能。
根据内部测试结果,在使用相同的一组开源通用推理、评估和嵌入模型及其他变量的前提下,比较了在三个常见用例中,使用 IBM 专有数据集的 watsonx.data Premium Edition 检索层与仅使用向量的 RAG(检索增强生成)之间的 AI 模型输出答案准确性。结果可能有所不同。
企业在实现高准确性和高性能的生成式 AI(尤其是智能体式 AI)方面正面临重大障碍。但这个障碍并不是大多数企业领导者所认为的那样。
问题不在于推理成本,也不在于难以捉摸的“完美”模型。问题在于数据。
为了让智能体式 AI 真正创造价值,组织需要可信赖的、专属公司的数据,也就是那些存在于电子邮件、文档、演示文稿和视频中的非结构化数据。据估计2022 年,企业生成的数据中有 90% 是非结构化的,但 IBM 预测只有 1% 的数据被纳入大型语言模型 (LLM) 中。
非结构化数据极难利用。它高度分散且动态变化,锁定在多种格式中,缺乏清晰的标签,并且通常需要额外的背景信息才能完全解释。传统检索增强生成 (RAG) 无法有效提取数据的价值,并且无法正确组合非结构化数据和结构化数据。
同时,一系列不连贯的工具可能会使 AI 数据堆栈变得复杂而繁琐。企业需要兼顾数据仓库、数据湖、数据治理和数据整合工具。数据技术栈有时会让人感到困惑,就像它本应管理的非结构化数据一样混乱。
许多组织并未解决根本问题。它们只关注生成式 AI 应用程序层,而不是下面的基本数据层。在组织修复其数据基础之前,AI 智能体和其他生成式 AI 计划将无法发挥其全部潜力。
IBM 的新功能将使组织能够采集、管理和检索非结构化(和结构化)数据,并从中扩展准确、高性能的生成式 AI。