数据是让 AI 引擎持续运转的燃料。许多企业并未充分利用触手可及的非结构化数据宝藏,只因他们不知如何为其注入动力。
这正是拥有非结构化数据处理工具的企业日益吸引投资者关注的原因。就在上月,Salesforce 为强化其 Agentforce 平台完成了一项重大收购——这仅是近期对非结构化数据管理提供商众多投资案例之一。
“生成式 AI 提升了非结构化数据(主要是文档)的重要性,无论是用于 RAG、LLM 微调,还是面向机器学习、商业智能与数据工程的传统分析,”IBM watsonx 产品管理副总裁、IBM 常驻数据专家之一 Edward Calvesbert 表示。“每日产生的数据大多是非结构化的,这代表着最大的新机遇。”
我们希望进一步了解非结构化数据将为 AI 带来怎样的发展。为此我们专访了 Calvesbert 与数据科学公司 Unstructured 战略负责人 Dave Donahue——该公司于今年三月携手 IBM、英伟达和 Databricks 完成了 4000 万美元融资,共同探讨非结构化数据的重要性及其未来走向。
来自 IBM 的 Edward Calvesbert:非结构化数据(语言、图像等)是基础模型赖以生存并能协助解析的“新兴”数据,因此成为当前焦点。但正如结构化数据,非结构化数据同样需要治理:进行分类、质量评估、过滤 PII 与不良内容、去重处理。因此成功的策略会将许多传统结构化数据管理能力应用于非结构化数据。
来自 Unstructured 的 Dave Donahue:非结构化数据本身并不比结构化数据更具价值,但一般而言,大型组织产生的非结构化数据量是结构化数据的四倍。所以问题在于:实施 AI 时,您是否希望更多利用自身数据,尤其是人类创造的非结构化数据?答案必然是响亮的“当然”。
Calvesbert:“足够优质”是个动态标准,取决于具体用例。用于提升语义搜索、问答系统和客户支持坐席摘要能力的 RAG 知识库,需要其文档知识库具备完整性、准确性和时效性。用于模型微调的数据需要一组经过人工筛选的提示词/回应对范例。为驱动分析用例而处理成表格或图数据库的文档,需要有效提取实体或数值。在几乎所有场景中,都需要根据用例生命周期的背景对数据进行分类、筛选和管理。
Donahue:在企业或公司层面,“优质”数据应满足清洁性、结构化与高价值密度的特征。数据预处理流程需最大限度减少原始内容与 LLM 就绪版本间的信息损耗。Unstructured 能帮助企业将任意文件类型的非结构化数据转化为标准化格式,并通过附加元数据增强其价值。这使得组织能够有效应对使用 LLM 时的三大核心挑战:知识时效性局限、内容虚构倾向,以及缺乏对组织专属知识的认知。
Calvesbert:我们合作的某大型电信客户最初构建了面向客服坐席的内部知识库,此举不仅缩短了客户问题响应时间,更提升了解答准确率。该应用在客户服务中心内部呈燎原之势自发推广,促使企业不得不重新进行顶层设计,着手构建治理体系并优化成本效益。在 IBM 内部,我们实施了营销自动化用例,通过导入品牌指南与案例库,自动生成全新营销内容并确保其质量与品牌调性始终如一。
Donahue:我们正与一家全球性快消品企业合作,助力其新产品创意孵化。您或许会问:“这与非结构化数据有何关联?”传统模式下,市场与产品团队需要耗费数月时间分析海量销售数据、产品反馈信息及人口统计数据,才能生成可针对特定市场进行用户测试的新概念。如果我们能将该流程从数月压缩至数小时呢?如果我们能基于真实数据生成可快速验证的产品创意呢?
这正是利用非结构化数据创造商业价值的威力所在。如今,这家快消品企业正借助其多个品牌的数据来开发并测试新产品创意,以推向市场。
Calvesbert:每家企业都拥有文档资源——比如为新员工入职准备的培训材料——这些已足够启动 RAG 与语义搜索应用。
Donahue:企业 80% 的数据都是非结构化的,无论是电子邮件、备忘录、内部通讯平台(如 Slack 或 Microsoft Teams)还是商业演示文稿。关键在于:您希望利用这些数据实现什么目标?是为正在从事重复性数据清洗工作的工程师提升效率?还是基于销售与市场数据开发新产品创意?AI 蕴藏着无限可能。确定目标。锁定所需数据。从小处着手实践。
Calvesbert:我认为湖仓一体架构与开放表格式(特别是 Iceberg)已成为主流,并主导着新兴数据/工作负载的管理架构。向量检索能力已原生嵌入众多运营/分析数据库,使生成式 AI 工作负载能无缝集成至现有应用程序。行业正逐渐认识到,对于需要基于非显性关联进行情境增强 (GraphRAG) 及提升事务记录精密度 (SQL-RAG) 的企业级场景,仅靠基础 RAG 技术仍显不足。客户也意识到,构建符合企业内容管理系统权限管控的用户授权模型,是实现生成式 AI 全域规模化部署必须攻克的关键难题。
Donahue:我们正看到数据科学和机器学习工程团队与数据工程团队的协作日益紧密。过去十年间,随着数据仓库和商业智能应用的兴起,数据工程团队逐渐发展成熟,他们历来活跃于 SQL、结构化数据库以及为数据分析师和最高管理层设计的商业分析流程领域。随着企业纷纷投入 LLM 应用,对海量预处理数据的需求呈现爆发式增长。然而,这些数据使用者往往更熟悉 Python、向量数据库以及快速可弃置的用户界面。我们预计,成熟的数据工程团队将逐步承担起为生成式 AI 团队提供企业级就绪数据的重要职责。
Calvesbert:我认为客户正寻求简化其数据资产组合,并降低相关成本与风险。为此,随着客户致力于整合数据平台以减少数量,多模型数据库与多引擎湖仓一体架构将继续成功争夺原属于孤岛式数据库的工作负载。文本转 SQL 模型正变得越来越强大,这将显著降低商业智能之外广泛数据用例的使用门槛。
同样,智能体的普及将把数据注入到数量激增、类型多样的自动化工作流中。部分具备自主能力的智能工作流将彻底变革众多知识工作者的工作模式,并创造令人振奋的新机遇。试想一下:处理与客户的内外部对话后,系统能即时将其关联到产品目录中的对应商品或 CRM 系统中的商机记录,并自动评估推进状态和成交可能性。
Donahue:与现代数据堆栈中 Snowflake、BigQuery 和 Databricks 在数据仓库领域确立的“数据引力”形成对比的是,我们尚未在非结构化数据领域实现同等效应。鉴于非结构化数据体积是结构化数据的四倍且每年呈指数级增长,面向 LLM 的新一代存储解决方案的重要性不言而喻。关于向量、图数据库、对象存储等何种组合将成为主导,以及各类别中哪些供应商将胜出,目前尚无定论,但未来 18 至 24 个月内赢家很可能浮出水面。