攻克非结构化数据的三大核心挑战

作者

SVP

IBM Software

Staff Writer

IBM Think

可信数据对于帮助企业成功实施其生成式 AI 计划至关重要。企业难以利用非结构化数据这一强大的洞察分析来源。企业生成的数据中有约 90% 是非结构化数据，有价值的信息则存储于电子邮件、PDF 文档、视频文件和其他格式中。¹

好消息是，不断演进的解决方案和方法可以助力企业组织、访问非结构化数据并从中获取情报。Think 撰稿人 Alice Gomstyn 特别邀请 IBM 软件高级副总裁 Dinesh Nirmal，共同探讨企业如何释放曾经遥不可及的数据宝库的潜力。

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看最新播客节目

Gomstyn：组织该如何应对第三个挑战——关联结构化和非结构化数据？

Nirmal：目前的局面是，如果组织拥有文档形式的非结构化数据，则须将文档划分或细分为多个部分，并将其作为嵌入存储于矢量数据库中。

由此带来的挑战在于，组织会丧失准确性，因为其无法明确数据的分块位置。假设您在表格中间进行了分块或截断操作。当恢复表格时，您就只能获取部分数据，且其准确性已受损。

我们能为此做些什么呢？我们不仅将数据存储于矢量数据库中，还将该文档的事务性内容放入事务数据库中。当您进行自然语言查询时，需要对两边的数据（事务数据和向量数据）进行比较，以确定如何将其整合来提高该查询的准确性和性能。这正是 RAG SQL 或 Graph RAG 的用武之地——您可以借助这两者来实现更高级别的准确性。这就是关联事务数据库与矢量数据库中的数据的关键所在。

Gomstyn：为了有效管理非结构化数据，IT 领导者必须培养哪些关键的技能和能力？

Nirmal：数据工程是非结构化数据方面最重要的部分。在结构化方面，数据工程是一门组织严密的学科，但在非结构化方面，由于数据量巨大，数据工程还没有真正起步。

但现在，治理、安全和所有相关工作都进入了非结构化阶段。我们需要数据工程师对数据进行工程设计，使其成为数据管道。我们需要他们针对非结构化数据创建数据产品，并为每位数据科学家和工程师提供自助服务。数据工程师在结构化数据方面运用的技能可扩展至非结构化数据，并实现更大规模的应用。

Gomstyn：您如何衡量非结构化数据试点项目是否成功？

Nirmal：当最终用户获得价值时，企业才能真正收获投资回报。例如，我给电话公司打电话，而客户代表负责接听来电。当我提出问题时，他们必须先查找答案，然后才能做出回复。

现在，借助生成式 AI，我就能在线完成这一操作。我可以向助手或聊天机器人提出简单的问题，并通过它们访问账单文件等非结构化数据格式。在 15 秒内，我就能收到答复，其中汇总了我的账单或个人账户相关信息。看看我节省的时间。我不必再花 15 分钟等待对方接听电话，一切答案都触手可及。作为最终用户，生成式 AI 助我实现了这一梦想。

这一切都与生成式 AI 所推动的生产力、时间节省和优化有关，特别是在非结构化数据方面。

为了清晰和控制长度，本访谈经过了编辑和压缩。

利用分析技术改进业务预测的四个步骤

利用分析和商业智能的强大功能来规划、预测和塑造未来结果，使公司和客户获得最大利好。

克服非结构化数据的 3 个核心挑战

作者

最新的 AI 新闻 + 洞察分析

解码 AI：每周新闻摘要

资源

脚注