智能体式 AI 存在非结构化数据问题:IBM 将推出一款解决方案

2025 年 5 月 6 日

作者

Edward Calvesbert

Vice President

Product Management, watsonx Platform

在本周的 Think 大会上,IBM 大大简化了 AI 数据堆栈。

IBM 即将重磅推出 watsonx.data 的重大升级版本,它可帮助组织让数据为 AI 做好准备,并提供一个开放的、混合的数据基础,以及适用于企业的结构化和非结构化数据管理能力。

最终成效如何?根据 IBM watsonx.data 的测试,AI 的准确率比传统 RAG 高出 40%。1 预计将于 6 月推出的产品和功能包括:

  • watsonx.data integration,这款软件通过统一界面协调多种整合风格与格式的数据访问及工程处理,其核心优势在于弹性扩展能力
  • Watsonx.data 智能组件,这款软件通过 AI 技术重塑企业数据治理模式,优化数据的筛选、管理与应用流程,显著提升高价值数据的利用效率
  • watsonx 作为 Meta Llama Stack 中的 API 提供商,增强了企业以开放性为核心,大规模部署生成式 AI 的能力

Watsonx.data 整合组件和 Watsonx.data 智能组件将作为独立产品提供,同时部分功能也将通过 watsonx.data 提供,从而最大化客户的选择空间和模块化灵活性。

为了完善这些产品,IBM 近日宣布拟收购 DataStax,该公司在利用非结构化数据驱动生成式 AI 方面表现出色。借助 DataStax,客户可以访问额外的矢量搜索功能。

根据内部测试结果,在使用相同的一组开源通用推理、评估和嵌入模型及其他变量的前提下,比较了在三个常见用例中,使用 IBM 专有数据集的 watsonx.data Premium Edition 检索层与仅使用向量的 RAG(检索增强生成)之间的 AI 模型输出答案准确性。结果可能有所不同。

这一重大演变的背景

企业在实现高准确性和高性能的生成式 AI(尤其是智能体式 AI)方面正面临重大障碍。但这个障碍并不是大多数企业领导者所认为的那样。

问题不在于推理成本,也不在于难以捉摸的“完美”模型。问题在于数据。

为了让智能体式 AI 真正创造价值,组织需要可信赖的、专属公司的数据,也就是那些存在于电子邮件、文档、演示文稿和视频中的非结构化数据。据估计2022 年,企业生成的数据中有 90% 是非结构化的,但 IBM 预测只有 1% 的数据被纳入大型语言模型 (LLM) 中。

非结构化数据极难利用。它高度分散且动态变化,锁定在多种格式中,缺乏清晰的标签,并且通常需要额外的背景信息才能完全解释。传统检索增强生成 (RAG) 无法有效提取数据的价值,并且无法正确组合非结构化数据和结构化数据。

同时,一系列不连贯的工具可能会使 AI 数据堆栈变得复杂而繁琐。企业需要兼顾数据仓库、数据湖、数据治理和数据整合工具。数据技术栈有时会让人感到困惑,就像它本应管理的非结构化数据一样混乱。

许多组织并未解决根本问题。它们只关注生成式 AI 应用程序层,而不是下面的基本数据层。在组织修复其数据基础之前,AI 智能体和其他生成式 AI 计划将无法发挥其全部潜力。

帮助组织使其数据为 AI 做好准备

IBM 的新功能将使组织能够采集、管理和检索非结构化(和结构化)数据,并从中扩展准确、高性能的生成式 AI。

注册获取更新

IBM 最新产品新闻

了解最重磅的产品与功能发布资讯,包括近期产品视频访谈,以及 IBM 与培训合作伙伴提供的教育课程资源。请参阅 IBM 隐私声明

谢谢!您已订阅。