传统上,“数据检索”一词指使用查询语言从数据库中检索结构化数据。然而,随着数据量的扩大和技术的进步,该词已与检索各种类型的数据(无论是结构化还是非结构化数据)联系在一起。
组织通过数据检索来利用自身系统内部以及第三方存储库中日益丰富的数据集合。借助数据检索工具,企业用户、研究人员等可以找到问题的答案,定位关键数据点——这些数据源如果通过人工方式访问,往往困难重重甚至无法实现。
数据检索系统曾经仅限于基本的数据库搜索,而如今通常融合了自动化和人工智能 (AI) 技术,能够处理复杂的数据请求,连接更多知识库,并动态优化查询执行。机器学习、自然语言处理和检索增强生成 (RAG) 有助于提高查询结果中数据的准确性和相关性。
但在进行分析之前,组织必须先访问这些数据。当数据位于大型数据集或庞大的数据资产中时,例如一个庞大的科学研究数据库或一个庞大的混合多云存储系统,这项任务尤其具有挑战性。
数据的爆炸式增长加剧了这些挑战:据某些估计,每天创建超过 4 亿 TB 的数据 ,而企业自身通常管理着1PB或更多的数据。1
人工智能的进步也改变了企业对数据的需求。AI 工作流需要快速的数据访问,包括访问大量非结构化数据。
从历史上看,数据检索过程主要关注来自关系数据库管理系统等结构化源的查询。然而,组织不再使用耗时费力的人工方法来梳理当今海量的内部和外部数据源,而是转向现代数据检索。这种方法利用向量数据库和检索增强生成等技术,来满足对位于内部关系数据库之外的数据的需求。
特别是智能体式 RAG 在满足这一需求方面已被证明尤为强大。 IBM 客户工程部咨询技术工程师 David Levy 在 IBM 技术的一次演示中解释了智能体式 RAG 的能力。
“智能体式 RAG 是我们改进 RAG 流程的一种演进,从简单的响应生成迈向更智能的决策。通过让智能体选择最佳数据源,甚至可能整合外部信息(如实时数据或第三方服务),我们可以创建一个响应更快、更准确、更灵活的流程,”Levy 说。
结果如何?企业和其他组织可以更好地利用自身结构化和非结构化的企业数据,以及生态系统外产生的日益增长的数据量。他们能够按需获取精确的数据,从而支持分析和数据驱动的洞察,推动更好的业务成果。
数据检索和信息检索 (IR) 这两个术语经常被混用——这是有道理的。
虽然它们传统上与不同类型的数据相关(数据检索对应结构化数据,信息检索对应非结构化数据),但数据科学的发展模糊了这一区别。如今,数据检索不仅可以涵盖非结构化数据,而且某些信息检索系统还允许“结构化文档检索”(通过使用 XML 对文本文档进行索引)。
可以说,两者更显著的区别在于各自产生的结果类型。数据检索侧重于返回与用户查询完全匹配的结果,而信息检索系统(构成网络搜索引擎的基础)则提供按相关信息排序的多个结果(例如网页)。
数据检索和信息检索有时也会与数据挖掘混为一谈。然而,这里的区别是明确的:数据检索和信息检索侧重于访问和提供数据,而数据挖掘则侧重于从数据中发现模式和洞察。换句话说,数据挖掘包含分析,而不仅仅是检索。此外,数据挖掘应用于大型数据集,而数据检索和信息检索可用于任何规模的数据集合。
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
数据检索方法可分为两类:传统技术和 AI 技术。2传统技术包括:
通过查询语言从经典数据库管理系统 (DBMS) 中检索数据。最著名的查询语言是结构化查询语言 (SQL),用于关系数据库。用户使用 SQL 命令检索数据并完成其他任务,包括添加、更新和删除。
索引是指创建可搜索的数据结构,这些结构指向较大表中的数据记录。搜索操作可以扫描索引而不是整个表,从而实现更快、更高效的查询处理。
在数据库管理系统中,查询优化工具通过在不同查询计划(即执行查询的不同方式)中选择最高效的方案来提升查询性能。例如,优化器会决定是否使用索引、以何种方式读取表,以及在请求连接时表的连接顺序。
这些成熟的技术已被证明对检索结构化数据和支持基本搜索操作有效,但人们也知道它们在多个方面存在不足,包括检索非结构化数据、执行复杂查询、捕获语义含义、支持可扩展性以及提供实时结果。3
AI 驱动的数据检索技术有助于弥补传统数据检索技术的不足,提升查询性能和用户体验。4
关键的 AI 数据检索技术包括:
检索增强生成通过应用程序编程接口 (API) 将大语言模型连接到外部知识库。这使得系统能够检索既具有领域特异性又具有时效性的信息。
智能体式 RAG 系统在传统 RAG 的基础上增加了高级能力,通过智能体式推理动态优化查询并提升数据检索性能。领先的智能体式 RAG 系统的组成部分包括:
数据检索技术和解决方案可以在众多行业和学科中改善数据访问和数据管理。
一家为医疗机构提供服务的提供商使用自然语言处理和检索增强生成,将业务关键数据的检索速度加快了 90%。
一家金融科技公司部署了一个由 RAG 驱动的客服聊天机器人,用于检索实时信息, 与传统客户服务中心相比,平均交互时间减少了 80%。
电子商务公司 允许购物者上传他们想购买的商品照片,由计算机视觉驱动的搜索解决方案会检索与图片中商品相似的信息。
企业在深入了解数据检索解决方案时,考虑潜在的挑战非常重要。
借助由受治理且互联的数据驱动的、具备上下文感知能力的 AI 智能体,获取值得信赖的答案,无需重构平台,亦无锁定风险。
设计一项数据战略,消除数据孤岛,降低复杂性并提高数据质量,以实现卓越的客户和员工体验。
通过制定适当的战略、数据、安全和治理措施,成功实现 AI 的规模化应用。
1《AI 与信息管理报告》。AvePoint。2024 年。
2,3,4,5 《面向智能数据检索的 AI》。《智能计算与应用程序进展》。2025 年 8 月 15 日。