什么是信息检索?

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

什么是信息检索?

信息检索是计算机科学和信息科学的一个广泛领域,主要研究如何针对用户查询进行数据检索。它为图书馆目录和 Web 搜索引擎等搜索工具提供支持。

我们通常可以将 IR 定义为在大量集合中查找非结构化数据以满足特定的信息需求。1 IR 系统(信息检索系统)根据给定的查询提供材料。系统在集合中搜索与用户查询相关的项目。然后,它将这些项目返回给用户,通常是以列表形式按计算的相关性排序。2

IR 系统和技术为网络搜索引擎和 Digital Library 目录等一系列搜索工具提供了动力。

信息检索与数据检索的对比

请注意,许多在线资源将信息检索系统与数据检索进行了对比:信息检索系统检索非结构化信息,如文本文档和网页;相比之下,数据检索处理结构化数据,如关系数据库管理系统中所示。通过扩展,数据检索使用结构化查询语言 (SQL) 来执行搜索查询。

然而,非结构化和非关系型 IR 与结构化和关系型数据检索之间的区别比许多在线资源所表明的更加模糊。IR 系统对信息进行索引,从而构建信息结构。例如,虽然传统上 IR 系统处理的是原始文本文档检索,但有些 IR 系统使用 XML 来表示文本并编制索引。研究文献通常将基于 XML 的系统描述为 IR 的一个分支,称为 结构化检索 或 半结构化检索3 此外,文献中对关系 IR 模型的使用进行了数十年的深入了解。4

因此,IR 与数据检索之间的区别比传统观点更加模糊。事实上,鉴于数据顾名思义就是信息,结构化数据检索也许更应该被理解为一种信息检索。

信息检索与推荐系统的对比

请注意,IR 有别于推荐系统。机器学习推荐技术(例如 协同过滤 和 基于内容的过滤)或许可以理解为一种信息过滤形式,是 IR 系统的一项子任务。然而,IR 和推荐系统是截然不同的。传统上,投IR 需要用户查询;而推荐引擎通常无需用户查询即可检索对象。5

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

信息检索系统的工作原理

不同的信息检索模型以不同方式表示信息。所选择的文档表示形式在很大程度上决定了模型如何搜索和检索信息。然而,编制索引、加权和相关反馈是信息检索模型中常见的三种信息检索技术。

索引

编制索引实质上就是创建元数据。6 很多人都遇到过印刷书籍后面有索引的情况。它是从给定的印刷文件中编译出来的一套结构化单词,可让读者随时查阅有关给定主题的段落。IR 索引与之类似。IR 索引(或 反转索引)是一种源自一组文档的数据结构,旨在改进搜索查询结果。7

索引构建首先需要对文档进行解析,以提取特征。例如,我们正在为基于文本的文档创建一个信息检索系统。与自然语言处理 (NLP) 中的常见做法一样,我们通过各种预处理技术(如标记化和删除停用词)来准备文档集。然后,信息检索系统会将处理过的文件集表示为组织好的数据结构。其中一种结构是字典,每份文档都有一个 ID,其中出现的单词(或索引词)将指向该 ID。8文本检索系统的另一种潜在数据结构是向量空间模型,如 Bag of Words9这两种方法都提取单词作为特征,然后根据用户查询检索文档并对文档进行排序。

加权

搜索系统如何对给定查询的近似匹配或精确匹配进行排序?信息排序和检索的方法取决于信息检索模型的类型和系统中使用的文档表示形式。然而,索引词项在 IR 系统如何根据查询对文档进行排序方面起着关键作用。但并不是所有的索引词项都是一样的。因此,IR 系统采用不同的方法,根据索引词项的重要程度对其进行加权。

使用 Bag of Words 等矢量空间模型的 IR 系统可能会使用词频-逆文档频率 (TF-IDF)。TF-IDF 是 Bag of Words 的一种变体,它解释了单词在文本集中每个文档中的普遍性。给定单词出现的文档越多,TF-IDF 越大,该单词的权重就越小。其他方法包括奇异值分解 (SVD) 和潜在语义分析 (LSA),后者是一种常见的 主题建模 方法。10

此类加权方法会影响 IR 系统在响应查询时如何对文档进行排序。但不同类型的 IR 模型以不同的方式使用这些权重进行排名。

相关性反馈

系统如何改进搜索结果?也就是说,系统如何对用户的搜索进行微调,并增加返回的相关文档数量?

相关性反馈是一种用于改进搜索结果的一种常用信息检索技术。相关性反馈主要是收集用户对一组初始查询结果的响应信息。然后,系统会根据用户的响应对项目相关性重新加权。然后,它会返回一组新的搜索结果,其中包含初始查询和用户对初始查询结果的反馈。

相关性反馈通常涉及用户对检索到的文档的相关性提供明确的响应。隐式反馈是一种变体,它通过观察用户行为(例如,用户在搜索结果页面中点击哪个网站链接)来推断项目的相关性。伪相关性反馈假设初始查询的前 n 个检索到的文档是相关的。然后,它会收集这些文档的其他共有特征,以进一步修改查询。11

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

信息检索技术的类型

信息检索模型种类繁多。要提供详尽无遗的总结,需要进行更广泛的讨论。尽管如此,IR 教科书和百科全书式的综述往往重叠提及三种一般的 IR 方法:布尔法、代数法和概率法。

布尔模型

布尔模型也许是最直接、甚至最简单的 IR 模型。 如前所述,它们使用索引词项字典结构。然后,该模型根据检索到的文档中是否存在用户查询中的单词对文档进行排序。例如,如果用户提出“jazz 和 dancing”的查询,布尔模型只检索包含  jazz乐  和  dancing  这两个组合词的文档。因此,布尔模型只考虑文档中是否存在单词;布尔检索系统中不存在部分匹配。文本预处理技术(如 词干提取 和 词形还原 )可以解决形态变体的问题,例如包含  dance、 dances 或  dancer 的文档,而不仅仅是用户的查询  dancing

如前所述,布尔模型只考虑单词的存在和不存在。这种二元决策标准缺乏分级标准来确定哪些文档与用户的查询最相关。一种可能的解决方案是根据文档中用户查询词项的频率对文档进行分级。换句话说,文档提到  Jazz  和  dancing 的次数越多,模型就越认为它与用户的查询越相关。但是,词频的增加并不一定表示相关性更大。尽管存在这一潜在缺陷,但由于布尔模型易于实施,已在许多 IR 系统中得到使用。12

代数模型

布尔文档检索禁止任何形式的部分匹配。代数和概率模型通过为索引词分配非二进制权重来解决此问题。

其中一个具有代表性的代数模型是矢量空间模型。在这种方法中,IR 系统将文档和查询表示为多维矢量空间中的 矢量 。在此空间中,索引词项可能是矢量空间的特征,查询和文档根据其包含索引词项的存在和频率在此空间中绘制。IR 系统根据搜索查询和文档在矢量空间中的接近程度来计算它们之间的相似性。

有许多用于确定矢量空间模型中的接近度的指标,例如 Jaccard 和点积。然而,最常见的一种可能是余弦相似度,用公式表示为

 cosine_similarity(A,B)=i=1nAiBii=1nAi2i=1nBi2   

此处,x 和 y 表示矢量空间中的两个矢量。余弦相似度分数可以是介于 -1 到 1 之间的任何值。余弦分数越高,两个项目就越相似。

IR 矢量空间模型会根据测得的相似度按顺序返回文档。这样,代数 IR 系统(如矢量空间模型)就可以进行部分匹配,从而提供更精确或更细致的信息检索形式。13

概率模型

概率模型还允许在用户查询和文档之间进行部分匹配。概率模型的功能基于这样的假设,即给定查询具有理想的检索信息系统资源集合。诚然,该理想集合还不得而知。但索引词项语义学可以表征该集合的属性。

与代数模型一样,概率模型使用索引词的存在和频率来确定查询和文档之间的相似性。但概率模型的不同之处在于它们考虑了更多因素。例如,它们可能会考虑索引词的共现频率(索引词在文档中同时出现的频率)与文档全文长度的关系,或者单个索引词在给定查询中的所有查询词中的出现频率。这些只是考虑的一些潜在因素,更详细的讨论需要对概率论有更透彻的理解。

请注意,并非所有概率模型在计算文档相似度或概率时都会考虑相同的因素。例如,二元独立模型 (BIM) 是第一个概率 IR 模型,不考虑词频。然而,采用 主题建模 技术 隐含狄利克雷分布  (LDA) 的模型将考虑词项共频。14

最近的研究

偏见。Web 搜索引擎可能是最著名的信息检索用例之一。文本摘要工具 PageRank 用于检索网页(HTML 文档)并对其进行排名。研究充分证实了一个不幸的现实,即搜索算法会助长一系列偏见,如种族偏见和性别偏见。15为此,已发表的实验深入研究了一系列旨在减少信息检索系统中的社会偏见的方法,例如负采样16以及对有偏见的结果进行惩罚的偏见感知算法17。减少偏见是围绕信息检索甚至人工智能制定伦理规范的研究的一个重要领域。

相关解决方案
IBM watsonx Orchestrate

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
自然语言处理工具和 API

通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。

深入了解 NLP 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate 深入了解 NLP 解决方案
脚注

1 Christopher Manning、Prabhakar Raghavan 和 Hinrich Schütze,《信息检索导论》,剑桥大学出版社,2009 年。

2 Qiaohu Mei 和 Dragomir Radev,“信息检索”,《牛津计算语言学手册》,第 2 版,牛津大学出版社,2016 年。

3 Christopher Manning、Prabhakar Raghavan 和 Hinrich Schütze,  《信息检索导论》 ,剑桥大学出版社,2009 年。Mounia Lalmas 和 Ricardo Baeza-Yates,“结构化文档检索”, 数据库系统百科全书 ,Springer,2018 年。

4 Robert Crawford,“信息检索中的关系模型”, Journal of the American Society for Information Science,第 32 卷,第 1 期,1981 年,第 51-64 页。

5 Alejandro Bellogín 和 Alan Said,“信息检索和推荐系统”,《实践中的数据科学》,Springer,2018 年。

6 Jeffrey Pomerantz, 元数据,麻省理工学院出版社,2015 年。

7 Steven Beitzel、Eric Jensen 和 Ophir Frieder,“索引创建和文件结构”,《数据库系统百科全书》,Springer,2018 年。

8 Christopher Manning、Prabhakar Raghavan 和 Hinrich Schütze,《信息检索导论》,剑桥大学出版社,2009 年。

9 Qiaohu Mei 和 Dragomir Radev,“信息检索”,《牛津计算语言学手册》,第 2 版,牛津大学出版社,2016 年。

10 Qiaozhu Mei 和 Dragomir Radev,“信息检索”, 《牛津计算语言学手册》第 2 版 ,牛津大学出版社,2016 年。Ricardo Baeza-Yates 和 Berthier Ribeiro-Neto, 《现代信息检索》,ACM Press,1999 年。

11 Qiaohu Mei 和 Dragomir Radev,“信息检索”,《牛津计算语言学手册》,第 2 版,牛津大学出版社,2016 年。Stefan Büttcher、Charles Clarke 和 Gordon Cormack,《信息检索:实施和评估搜索引擎》,麻省理工学院出版社,2016 年。

12 Ricardo Baeza-Yates 和 Berthier Ribeiro-Neto, 《现代信息检索》,ACM Press,1999 年。Christopher Manning、Prabhakar Raghavan 和 Hinrich Schütze, 《信息检索导论》 ,剑桥大学出版社,2009 年。

13 Qiaohu Mei 和 Dragomir Radev,“信息检索”,  《牛津计算语言学手册》第 2 版 ,牛津大学出版社,2016 年。Christopher Manning、Prabhakar Raghavan 和 Hinrich Schütze, 《信息检索导论》,剑桥大学出版社,2009 年。

14 Ricardo Baeza-Yates 和 Berthier Ribeiro-Neto, 《现代信息检索》,ACM Press,1999 年。Christopher Manning、Prabhakar Raghavan 和 Hinrich Schütze, 《信息检索导论》 ,剑桥大学出版社,2009 年。

15 Safiya Umoja Noble,《压迫算法:搜索引擎如何强化种族主义》,纽约大学出版社,2018 年。

16 Amin Bigdeli 等人,“抑制神经排名器中性别偏见的轻量级策略”, 第 44欧洲信息检索进展会议论文集 ,2022 年,第 47-55 页。

17 Dhanasekar Sundararaman and Vivek Subramanian, “Debiasing Gender Bias in Information Retrieval Models,” 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.