可信数据对于帮助企业成功实施其生成式 AI 计划至关重要。企业难以利用非结构化数据这一强大的洞察分析来源。企业生成的数据中有约 90% 是非结构化数据,有价值的信息则存储于电子邮件、PDF 文档、视频文件和其他格式中。1
好消息是,不断演进的解决方案和方法可以助力企业组织、访问非结构化数据并从中获取情报。Think 撰稿人 Alice Gomstyn 特别邀请 IBM 软件高级副总裁 Dinesh Nirmal,共同探讨企业如何释放曾经遥不可及的数据宝库的潜力。
Gomstyn:组织在使用非结构化数据时面临哪些挑战?
Nirmal:非结构化数据存在三大核心挑战。可扩展性是第一项挑战。如何实现数据的扩展和治理?第二,如何确保生成式 AI 的性能和准确性?第三,如何关联非结构化和结构化数据,并从中获取价值。
Gomstyn:您能详细说明一下可扩展性挑战以及如何应对它吗?
Nirmal:非结构化数据更加复杂,它可能有数百个字段,其中一些可能是大量字段或安全字段。当采集这些文档时,至关重要的是要对其进行受管控的采集,并将数据存储在受管控的存储区,例如湖仓一体。
组织还需要对数据管道进行治理。如何将可观测性和监控引入其中?如果该管道中存在偏差或发生变化,如何快速识别并加以解决?这些管道或许复杂且冗长,而您希望确保在整个管道中获取正确的结果、执行时间、性能和准确性。组织需要工具来构建、管理和观测管道。
对于企业而言,这也与安全有关。数据安全成为确保不会丢失数据的关键因素。我们拥有数据安全工具来确保数据加密。因此,在扩展时,您需要确保在结构化方面拥有的治理和安全性也适用于非结构化方面。
Gomstyn:组织该如何应对第三个挑战——关联结构化和非结构化数据?
Nirmal:目前的局面是,如果组织拥有文档形式的非结构化数据,则须将文档划分或细分为多个部分,并将其作为嵌入存储于矢量数据库中。
由此带来的挑战在于,组织会丧失准确性,因为其无法明确数据的分块位置。假设您在表格中间进行了分块或截断操作。当恢复表格时,您就只能获取部分数据,且其准确性已受损。
我们能为此做些什么呢?我们不仅将数据存储于矢量数据库中,还将该文档的事务性内容放入事务数据库中。当您进行自然语言查询时,需要对两边的数据(事务数据和向量数据)进行比较,以确定如何将其整合来提高该查询的准确性和性能。这正是 RAG SQL 或 Graph RAG 的用武之地——您可以借助这两者来实现更高级别的准确性。这就是关联事务数据库与矢量数据库中的数据的关键所在。
Gomstyn:为了有效管理非结构化数据,IT 领导者必须培养哪些关键的技能和能力?
Nirmal:数据工程是非结构化数据方面最重要的部分。在结构化方面,数据工程是一门组织严密的学科,但在非结构化方面,由于数据量巨大,数据工程还没有真正起步。
但现在,治理、安全和所有相关工作都进入了非结构化阶段。我们需要数据工程师对数据进行工程设计,使其成为数据管道。我们需要他们针对非结构化数据创建数据产品,并为每位数据科学家和工程师提供自助服务。数据工程师在结构化数据方面运用的技能可扩展至非结构化数据,并实现更大规模的应用。
Gomstyn:您如何衡量非结构化数据试点项目是否成功?
Nirmal:当最终用户获得价值时,企业才能真正收获投资回报。例如,我给电话公司打电话,而客户代表负责接听来电。当我提出问题时,他们必须先查找答案,然后才能做出回复。
现在,借助生成式 AI,我就能在线完成这一操作。我可以向助手或聊天机器人提出简单的问题,并通过它们访问账单文件等非结构化数据格式。在 15 秒内,我就能收到答复,其中汇总了我的账单或个人账户相关信息。看看我节省的时间。我不必再花 15 分钟等待对方接听电话,一切答案都触手可及。作为最终用户,生成式 AI 助我实现了这一梦想。
这一切都与生成式 AI 所推动的生产力、时间节省和优化有关,特别是在非结构化数据方面。
为了清晰和控制长度,本访谈经过了编辑和压缩。
使用 IBM 数据库解决方案满足混合云中的各种工作负载需求。
深入了解 IBM Db2,这是一种关系数据库,为存储和管理结构化数据提供高性能、可扩展性和可靠性。该数据库在 IBM Cloud 上作为 SaaS 提供,也可以用于自托管。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 未开发的价值:每位高管都需要了解的非结构化数据。IDC,2023 年 8 月