什么是数据检索?

数据检索的定义

数据检索是从数据源中访问可直接使用的信息的过程。

 

传统上,“数据检索”一词指使用查询语言从数据库中检索结构化数据。然而,随着数据量的扩大和技术的进步,该词已与检索各种类型的数据(无论是结构化还是非结构化数据)联系在一起。

组织通过数据检索来利用自身系统内部以及第三方存储库中日益丰富的数据集合。借助数据检索工具,企业用户、研究人员等可以找到问题的答案,定位关键数据点——这些数据源如果通过人工方式访问,往往困难重重甚至无法实现。

数据检索系统曾经仅限于基本的数据库搜索,而如今通常融合了自动化人工智能 (AI) 技术,能够处理复杂的数据请求,连接更多知识库,并动态优化查询执行。机器学习自然语言处理检索增强生成  (RAG) 有助于提高查询结果中数据的准确性和相关性。

为什么数据检索很重要?

当组织能够从高质量数据中提取洞察时,才能做出明智的决策

但在进行分析之前,组织必须先访问这些数据。当数据位于大型数据集或庞大的数据资产中时,例如一个庞大的科学研究数据库或一个庞大的混合多云存储系统,这项任务尤其具有挑战性。

数据的爆炸式增长加剧了这些挑战:据某些估计,每天创建超过 4 亿 TB 的数据 ,而企业自身通常管理着1PB或更多的数据。1

人工智能的进步也改变了企业对数据的需求。AI 工作流需要快速的数据访问,包括访问大量非结构化数据

从历史上看,数据检索过程主要关注来自关系数据库管理系统等结构化源的查询。然而,组织不再使用耗时费力的人工方法来梳理当今海量的内部和外部数据源,而是转向现代数据检索。这种方法利用向量数据库检索增强生成等技术,来满足对位于内部关系数据库之外的数据的需求。

特别是智能体式 RAG 在满足这一需求方面已被证明尤为强大。 IBM 客户工程部咨询技术工程师 David Levy 在 IBM 技术的一次演示中解释了智能体式 RAG 的能力。

“智能体式 RAG 是我们改进 RAG 流程的一种演进,从简单的响应生成迈向更智能的决策。通过让智能体选择最佳数据源,甚至可能整合外部信息(如实时数据或第三方服务),我们可以创建一个响应更快、更准确、更灵活的流程,”Levy 说。

结果如何?企业和其他组织可以更好地利用自身结构化和非结构化的企业数据,以及生态系统外产生的日益增长的数据量。他们能够按需获取精确的数据,从而支持分析和数据驱动的洞察,推动更好的业务成果。

数据检索、信息检索与数据挖掘

数据检索和信息检索 (IR) 这两个术语经常被混用——这是有道理的。

虽然它们传统上与不同类型的数据相关(数据检索对应结构化数据,信息检索对应非结构化数据),但数据科学的发展模糊了这一区别。如今,数据检索不仅可以涵盖非结构化数据,而且某些信息检索系统还允许“结构化文档检索”(通过使用 XML 对文本文档进行索引)。

可以说,两者更显著的区别在于各自产生的结果类型。数据检索侧重于返回与用户查询完全匹配的结果,而信息检索系统(构成网络搜索引擎的基础)则提供按相关信息排序的多个结果(例如网页)。

数据检索和信息检索有时也会与数据挖掘混为一谈。然而,这里的区别是明确的:数据检索和信息检索侧重于访问和提供数据,而数据挖掘则侧重于从数据中发现模式和洞察。换句话说,数据挖掘包含分析,而不仅仅是检索。此外,数据挖掘应用于大型数据集,而数据检索和信息检索可用于任何规模的数据集合。

传统数据检索方法

数据检索方法可分为两类:传统技术和 AI 技术。2传统技术包括:

  • 使用查询语言
  • 索引
  • 查询优化

使用查询语言

通过查询语言从经典数据库管理系统 (DBMS) 中检索数据。最著名的查询语言是结构化查询语言 (SQL),用于关系数据库。用户使用 SQL 命令检索数据并完成其他任务,包括添加、更新和删除。

索引

索引是指创建可搜索的数据结构,这些结构指向较大表中的数据记录。搜索操作可以扫描索引而不是整个表,从而实现更快、更高效的查询处理。

查询优化

在数据库管理系统中,查询优化工具通过在不同查询计划(即执行查询的不同方式)中选择最高效的方案来提升查询性能。例如,优化器会决定是否使用索引、以何种方式读取表,以及在请求连接时表的连接顺序。

这些成熟的技术已被证明对检索结构化数据和支持基本搜索操作有效,但人们也知道它们在多个方面存在不足,包括检索非结构化数据、执行复杂查询、捕获语义含义、支持可扩展性以及提供实时结果。3

用于数据检索的 AI 技术

AI 驱动的数据检索技术有助于弥补传统数据检索技术的不足,提升查询性能和用户体验。4

关键的 AI 数据检索技术包括:

  • 向量搜索
  • 机器学习和深度学习
  • 自然语言处理
  • 检索增强生成与智能体式 RAG

矢量搜索

向量数据库中,包括文本和图像在内的各种类型的数据都以称为向量嵌入的数值表示形式存储。具有相似维度的向量嵌入被分组在一起。在向量搜索过程中,系统会检索与搜索词具有相似向量嵌入的相关数据和文档。此类搜索通常依赖于最近邻算法,该算法根据数据点之间的接近程度推断它们之间的关联。

机器学习和深度学习

基于历史数据和用户行为训练的机器学习算法,可以根据常见的查询模式向用户提供查询建议,然后呈现相关数据。此外,机器学习的子集——深度学习——有助于检索非结构化数据。例如,卷积神经网络 (CNN) 为计算机视觉提供动力,可用于搜索图像和视频文件。5

自然语言处理

自然语言处理 (NLP) 允许用户以对话方式组织查询,而不是将其构造为查询语言命令,从而实现用户友好的搜索查询。然后,由 NLP 驱动的搜索引擎不仅依赖关键词匹配,还可以进行语义搜索:它们识别出反映查询意图的相关结果,即使文档中没有确切的搜索词。

检索增强生成和智能体式 RAG

检索增强生成通过应用程序编程接口 (API)大语言模型连接到外部知识库。这使得系统能够检索既具有领域特异性又具有时效性的信息。

智能体式 RAG 系统在传统 RAG 的基础上增加了高级能力,通过智能体式推理动态优化查询并提升数据检索性能。领先的智能体式 RAG 系统的组成部分包括:

  • 核心搜索能力:数据检索由传统和人工智能驱动的数据检索方法提供支持,包括索引以及关键词搜索与向量搜索的组合(称为混合搜索)。
  • 语义缓存:智能体式 RAG 系统可以存储并引用之前的一组查询、上下文和结果。这种记忆可以为新的搜索提供参考,从而产生更相关、更个性化的结果。
  • 智能体式分块:智能体式分块将大段文本输入分割成更小的、语义连贯的块(即分块),存储在向量数据库中。这些块的语义连贯性使系统能够检索到更完整、更高质量的查询答案。
  • 路由智能体:路由智能体确定哪些外部知识源和工具最能解决用户的查询。
  • 查询规划智能体:查询规划智能体将复杂的用户查询分解为逐步执行的过程,并将由此产生的子查询提交给 RAG 系统中的其他智能体。一旦这些智能体分别返回各自的答案,查询规划智能体将它们组合成一个连贯的响应。
AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据检索用例

数据检索技术和解决方案可以在众多行业和学科中改善数据访问和数据管理。

医疗保健

一家为医疗机构提供服务的提供商使用自然语言处理和检索增强生成,将业务关键数据的检索速度加快了 90%。

金融服务

一家金融科技公司部署了一个由 RAG 驱动的客服聊天机器人,用于检索实时信息, 与传统客户服务中心相比,平均交互时间减少了 80%。

电子商务

电子商务公司 允许购物者上传他们想购买的商品照片,由计算机视觉驱动的搜索解决方案会检索与图片中商品相似的信息。

数据检索挑战

企业在深入了解数据检索解决方案时,考虑潜在的挑战非常重要。

数据质量

随着企业在数据检索方面越来越成功,他们可能会发现部分数据存在缺口和错误。数据质量管理实践(如数据剖析数据清洗)可以帮助组织优化数据集,提升其准确性、完整性、一致性等质量维度。

安全性

如果没有适当的安全措施来确保敏感数据不会被错误的人检索到,那么实施增强的数据检索能力可能会带来风险。受治理的数据平台可以包含内置的安全、身份和访问控制,以防止未经授权的访问并支持法规合规。

供应商锁定

专有数据解决方案通常将数据检索、编排AI 模型捆绑在封闭系统中,将组织限制在供应商控制的技术堆栈内。以智能体式 RAG 等为特色的开源数据解决方案提供了另一种选择,使企业能够更好地控制其技术堆栈和数据管理功能。

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

相关解决方案
IBM® watsonx.data AI Enterprise Search

借助由受治理且互联的数据驱动的、具备上下文感知能力的 AI 智能体,获取值得信赖的答案,无需重构平台,亦无锁定风险。

了解 watsonx.data AI Enterprise Search
数据管理软件和解决方案

设计一项数据战略,消除数据孤岛,降低复杂性并提高数据质量,以实现卓越的客户和员工体验。

探索数据管理解决方案
数据和 AI 咨询服务

通过制定适当的战略、数据、安全和治理措施,成功实现 AI 的规模化应用。

深入了解数据和 AI 咨询服务
采取后续步骤

利用由受治理、互联的业务数据驱动的智能体式 AI,从您的组织内部提供可信、上下文感知的答案。

  1. 了解 watsonx.data AI Enterprise Search
  2. 深入了解数据管理解决方案
脚注

1《AI 与信息管理报告》。AvePoint。2024 年。

2,3,4,5 《面向智能数据检索的 AI》。《智能计算与应用程序进展》。2025 年 8 月 15 日。