克服非结构化数据的 3 个核心挑战

3D 渲染:网格中浮动的白色方形平台,平台上方有一个蓝色立方体

作者

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

Staff Writer

IBM Think

可信数据对于帮助企业成功实施其生成式 AI 计划至关重要。企业难以利用非结构化数据这一强大的洞察分析来源。企业生成的数据中有约 90% 是非结构化数据,有价值的信息则存储于电子邮件、PDF 文档、视频文件和其他格式中。1

好消息是,不断演进的解决方案和方法可以助力企业组织、访问非结构化数据并从中获取情报。Think 撰稿人 Alice Gomstyn 特别邀请 IBM 软件高级副总裁 Dinesh Nirmal,共同探讨企业如何释放曾经遥不可及的数据宝库的潜力。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

Gomstyn:组织在使用非结构化数据时面临哪些挑战?

Nirmal:非结构化数据存在三大核心挑战。可扩展性是第一项挑战。如何实现数据的扩展和治理?第二,如何确保生成式 AI 的性能和准确性?第三,如何关联非结构化和结构化数据,并从中获取价值。

Gomstyn:您能详细说明一下可扩展性挑战以及如何应对它吗?

Nirmal:非结构化数据更加复杂,它可能有数百个字段,其中一些可能是大量字段或安全字段。当采集这些文档时,至关重要的是要对其进行受管控的采集,并将数据存储在受管控的存储区,例如湖仓一体

组织还需要对数据管道进行治理。如何将可观测性和监控引入其中?如果该管道中存在偏差或发生变化,如何快速识别并加以解决?这些管道或许复杂且冗长,而您希望确保在整个管道中获取正确的结果、执行时间、性能和准确性。组织需要工具来构建、管理和观测管道。

对于企业而言,这也与安全有关。数据安全成为确保不会丢失数据的关键因素。我们拥有数据安全工具来确保数据加密。因此,在扩展时,您需要确保在结构化方面拥有的治理和安全性也适用于非结构化方面。

Gomstyn:那么,组织该如何应对第二个核心挑战——实现生成式 AI 模型的性能呢?

Nirmal:这其中存在着巨大的机遇,因为只有我们能够为这些模型提供受管控的、可信的数据进行训练和提示,生成式 AI 才能成功。

治理工具还允许人员访问数据。使用治理工具(如数据目录),组织就能为数据科学家和提示工程师提供非结构化数据,以便他们利用这些数据对模型进行提示微调。

治理与创新相辅相成。如果组织确实要开展创新以提供数据自助服务,那就需要进行妥善治理才能实现这一目标。从数据产品的角度来看,提供数据自助服务是组织必须优先考虑的首要因素。

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

Gomstyn:组织该如何应对第三个挑战——关联结构化和非结构化数据?

Nirmal:目前的局面是,如果组织拥有文档形式的非结构化数据,则须将文档划分或细分为多个部分,并将其作为嵌入存储于矢量数据库中。

由此带来的挑战在于,组织会丧失准确性,因为其无法明确数据的分块位置。假设您在表格中间进行了分块或截断操作。当恢复表格时,您就只能获取部分数据,且其准确性已受损。

我们能为此做些什么呢?我们不仅将数据存储于矢量数据库中,还将该文档的事务性内容放入事务数据库中。当您进行自然语言查询时,需要对两边的数据(事务数据和向量数据)进行比较,以确定如何将其整合来提高该查询的准确性和性能。这正是 RAG SQL 或 Graph RAG 的用武之地——您可以借助这两者来实现更高级别的准确性。这就是关联事务数据库与矢量数据库中的数据的关键所在。

Gomstyn:为了有效管理非结构化数据,IT 领导者必须培养哪些关键的技能和能力?

Nirmal:数据工程是非结构化数据方面最重要的部分。在结构化方面,数据工程是一门组织严密的学科,但在非结构化方面,由于数据量巨大,数据工程还没有真正起步。

但现在,治理、安全和所有相关工作都进入了非结构化阶段。我们需要数据工程师对数据进行工程设计,使其成为数据管道。我们需要他们针对非结构化数据创建数据产品,并为每位数据科学家和工程师提供自助服务。数据工程师在结构化数据方面运用的技能可扩展至非结构化数据,并实现更大规模的应用。

Gomstyn:您如何衡量非结构化数据试点项目是否成功?

Nirmal:当最终用户获得价值时,企业才能真正收获投资回报。例如,我给电话公司打电话,而客户代表负责接听来电。当我提出问题时,他们必须先查找答案,然后才能做出回复。

现在,借助生成式 AI,我就能在线完成这一操作。我可以向助手或聊天机器人提出简单的问题,并通过它们访问账单文件等非结构化数据格式。在 15 秒内,我就能收到答复,其中汇总了我的账单或个人账户相关信息。看看我节省的时间。我不必再花 15 分钟等待对方接听电话,一切答案都触手可及。作为最终用户,生成式 AI 助我实现了这一梦想。

这一切都与生成式 AI 所推动的生产力、时间节省和优化有关,特别是在非结构化数据方面。

为了清晰和控制长度,本访谈经过了编辑和压缩。

相关解决方案
数据库软件和解决方案

使用 IBM 数据库解决方案满足混合云中的各种工作负载需求。

深入了解数据库解决方案
采用 IBM Db2 的云原生数据库

深入了解 IBM Db2,这是一种关系数据库,为存储和管理结构化数据提供高性能、可扩展性和可靠性。该数据库在 IBM Cloud 上作为 SaaS 提供,也可以用于自托管。

探索 Db2
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

使用 IBM 数据库解决方案满足混合云中的各种工作负载需求。

深入了解数据库解决方案 深入了解 IBM Db2