情報検索とは？

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Technical Content, Editorial Lead

IBM

情報検索とは？

情報検索（IR）は、ユーザークエリのデータ検索に取り組むコンピューターサイエンスと情報サイエンスの幅広い分野です。ライブラリー・カタログやウェブ検索エンジンなどの検索ツールを強化します。

一般的には、特定の情報ニーズを満たすために、大規模なコレクション内で非構造化データを見つけることと定義できます。¹IRシステム（情報検索システム）は、特定のクエリに応じて資料を提供します。このシステムは、ユーザーのクエリに関連する項目をコレクションから検索します。その後それらの項目を、通常、計算された関連性ごとにソートされたリスト形式でユーザーに返します。²

IRシステムと手法は、Web検索エンジンやデジタル・ライブラリー・カタログなど、さまざまな検索ツールを強化します。

情報検索とデータ検索

多くのオンラインソースがIRシステムとデータ検索を対比しています。IRシステムは、テキスト文書やWebページなどの非構造化情報を検索しますが、データ検索は、リレーショナル・データベース管理システムに見られるような構造化データを扱います。転じてデータ検索は、検索クエリーを実行するために構造化クエリー言語（SQL）を使用します。

しかし、非構造化および非リレーショナルなIRと、構造化およびリレーショナルとしてのデータ検索のこの違いは、多くのオンライン・リソースが示唆するよりも曖昧です。IRシステムは情報をインデックス化、つまり構造化します。たとえば、IRは従来、生テキストの文書取得を処理しますが、一部のIRシステムでは、テキストの表現とインデックス化にXMLを使用しています。研究文献では、XMLベースのシステムを構造化検索または半構造化検索と呼ばれるIRの一分野として説明されることがよくあります。³ また何十年にもわたってリレーショナルIRモデルの使用が検討されてきました。⁴

したがって、IRとデータ検索の区別は、従来の区別よりも曖昧になっています。実際、データが定義上情報であることを考えると、構造化データ検索は情報検索の一種として理解する方がおそらく良いでしょう。

情報検索システムとレコメンダー・システムの比較

IRはレコメンダー・システムとは異なることに注意してください。協調フィルタリングやコンテンツ・ベースのフィルタリングなどの機械学習の推奨技術は、IRシステムのサブタスクである情報フィルタリングの一形態として理解できるかもしれません。とはいえ、IRシステムとレコメンダー・システムは異なるものです。IRは従来から、ユーザー・クエリーを必要とします。レコメンデーション・エンジンは通常、ユーザー・クエリーなしでオブジェクトを取得します。⁵

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

情報検索システムの仕組み

IRモデルによって情報の表現方法は異なります。選択されたドキュメント表現の形式によって、モデルが情報を検索および取得する方法が主に決まります。いずれにしても、インデックス化、重み付け、関連性フィードバックが、IRモデル全体で共通する3つの情報検索手法になります。

インデックス化

インデックス化は、基本的にメタデータの作成に相当します。⁶ 多くの人が、印刷された本の裏に索引（インデックス）があるのを目にしたことがあるでしょう。これは、特定の印刷文書からまとめられた構造化された単語セットであり、読者は特定のトピックに関する文章に簡単にアクセスできます。IRインデックスも同様です。IRインデックス（または転置インデックス）とは、検索クエリーの成果を向上させることを目的とした、一連のドキュメントから得られるデータ構造です。⁷

インデックスを構築するには、まずドキュメントを解析して特徴を抽出する必要があります。例えば、テキストベースのドキュメント用にIRシステムを作るとすします。自然言語処理（NLP）でよくあることですが、トークン化やストップワードの削除など、さまざまな前処理手法を使用してドキュメントのコレクションを作成します。そしてIRシステムは、この処理されたドキュメントのコレクションを、組織化されたデータ構造として表します。そのような構造の1つが辞書であり、各ドキュメントにはそこに現れる単語（または索引語）が参照するIDがあります。⁸ テキスト検索システムのデータ構造としてもう一つ考えられるのは、Bag-of-Words（BoW）などのベクトル空間モデルです。⁹これらのアプローチはどちらも単語を特徴として抽出し、それをユーザーのクエリーに応じてドキュメントを検索し、ランク付けするために使用します。

重み付け

検索システムは、特定のクエリーの近似一致または完全一致をどのようにランク付けするのでしょうか？情報のランク付けと検索へのアプローチは、システムで使用される情報検索モデルの種類とドキュメント表現の形式の両方によって異なります。ただし、インデックス（索引）用語は、IRシステムがクエリーに応じてドキュメントをランク付けするうえで重要な役割を果たします。しかし、すべてのインデックス用語が平等に扱われるわけではありません。そのためIRシステムは、認識された重要度に応じてインデックス用語に重み付けするためにさまざまな方法を使用します。

Bag-of-Wordsなどのベクトル空間モデルを使用するIRシステムでは、用語周波数逆ドキュメント周波数（TF-IDF）を使用できます。TF-IDFはBag-of-Wordsのひとつのバリエーションで、テキスト・セット内の各ドキュメント全体での単語の使用度合いを考慮します。特定の単語が出現する文書の数が多いほど、TF-IDF値が大きくなり、その単語の重みが下がります。他のアプローチには、特異値分解（SVD）と潜在意味分析（LSA）があり、後者はトピック・モデリングの一般的なアプローチです。¹⁰

このような重み付けアプローチは、IRシステムがクエリーに応じてドキュメントをどのようにランク付けするかに影響を与えます。しかし、IRモデルの種類が異なれば、これらの重みを使用してランク付けを行う方法も異なります。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

情報検索手法の種類

情報検索モデルにはさまざまな種類があります。どんなことでも網羅的に要約した形で提供するには、はるかに大規模な議論が必要になります。それにもかかわらず、IRの教科書や概説書では、ブール型、代数型、確率型という3つの一般的なIR方法論に言及することが多くなっています。

ブール型モデル

ブール型モデルは、おそらく最も単純で、単純化したIRモデルです。このモデルでは、前に説明したように、インデックス用語の辞書構造を使用します。そして、このモデルは、検索されたドキュメントにユーザーのクエリーに含まれる単語があるかどうかによって、ドキュメントをランク付けします。例えば、ユーザーが「jazz AND dancing」というクエリーを与えた場合、ブールモデルはjazzと dancingという単語が組み合わさって含まれているドキュメントのみを取得します。これにより、ブール型モデルはドキュメント内の単語の有無のみを考慮するため、ブール検索システムでは部分一致は存在しません。ステミングやレマタイゼーションなどのテキスト前処理技術は、ユーザーのクエリー「dancing」だけでなく「dance」、「dances」、「dancer」を含むドキュメントなど、形態学上のバリアントの問題を解決できます。

前述したように、ブール型モデルは単語の有無のみを考慮します。この二項決定基準には、ユーザーのクエリーに最も関連するドキュメントを決定するための評価スケールがありません。考えられる解決策の 1 つは、その中のユーザー・クエリー用語の頻度に基づいてドキュメントを評価することです。言い換えると、ドキュメントで「jazz」や「dance」について言及すればするほど、モデルはそれをユーザーのクエリーに対してより適切と考えるようになります。しかし、用語の頻度が高いからといって、必ずしも関連性が高いとは限りません。このような潜在的な欠点があるにもかかわらず、ブール型モデルは実装が容易なため、多くのIRシステムで使用されてきました。¹²

代数的モデル

ブール型のドキュメント検索では、どのような形式の部分一致も禁止されます。代数モデルと確率モデルでは、インデックス用語に非バイナリの重みを割り当てることでこの問題に対処します。

代表的な代数モデルの 1 つは、ベクトル空間モデルです。このアプローチでは、IRシステムはドキュメントとクエリーを多次元ベクトル空間内の「ベクトル」として表現します。この空間では、インデックス用語はベクトル空間の特徴となる可能性が高く、クエリーとドキュメントはインデックス用語の存在と頻度に応じてこの空間全体にプロットされます。IRシステムは、ベクトル空間における近接性に基づいて、検索クエリーとドキュメント間の類似性を計算します。

ベクトル空間モデルでの近接性を判断するためのメトリクスは、ジャカードやドット積など、多数あります。しかし、おそらく最も一般的なものの1つは、次の式で表されるコサイン類似度でしょう。

$c o s i n e_s i m i l a r i t y (A, B) = \frac{\sum_{i = 1}^{n} A_{i} B_{i}}{\sqrt{\sum_{i = 1}^{n} A_{i^{2}}} \sqrt{\sum_{i = 1}^{n} B_{i^{2}}}}$

ここでのAとBは、ベクトル空間内の2つのベクトルを示します。コサイン類似性スコアは、-1～1の任意の値です。コサイン・スコアが高いほど、2つのアイテムが類似していると見なされます。

IRベクトル空間モデルは、測定された類似度に応じて順序付けられたドキュメントを返します。このように、ベクトル空間モデルなどの代数的IRシステムでは、部分的なマッチングが可能になり、より正確でニュアンスのある情報検索が提供される可能性があります。¹³

確率的モデル

確率的モデルでは、ユーザーのクエリーとドキュメントの部分的なマッチングも可能です。確率的モデルは、与えられたクエリーに理想的な検索情報システム・リソース・セットがあるという前提に基づいて機能します。実際、この理想的なリソース・セットは未知のものです。しかし、このセットのプロパティはインデックス用語のセマンティクス（意味論）によって特徴づけられます。

代数的モデルと同様、確率的モデルもインデックス用語の存在と頻度を用いてクエリと文書間の類似性を判断します。しかし、確率的モデルは、追加の要因を考慮するという点で異なります。例えば、インデックス用語の出現頻度（ドキュメント内でインデックス用語が共起する頻度）を、ドキュメントの全文長との関係で考慮したり、単一のインデックス用語が、与えられたクエリー内のすべてのクエリー用語に対して出現する頻度を考慮したりすることができます。これらは考えられる要因の一部に過ぎず、より詳細な議論を行うには確率論をより深く理解する必要があります。

すべての確率的モデルが、ドキュメントの類似性または確率を計算する際に同じ要素を考慮するわけではないことに注意してください。たとえば、最初の確率的IRモデルであるバイナリ独立モデル（BIM）では、用語の頻度は考慮されません。ただし、トピック・モデリング手法の潜在的ディリクレ配分法（LDA）を組み込んだモデルでは、用語の共起頻度が考慮されます。¹⁴

参考情報

IBM Granite®はこちら

IBM Granite®は、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションはこちら。

NLPの初心者向けガイド

自然言語処理（NLP）がコンピューターとのより自然な対話にどのように役立つかをご覧ください。

IBMはデータサイエンスと機械学習のリーダーに選ばれました

IBM®が2025年Gartner Magic Quadrantのデータサイエンスおよび機械学習プラットフォーム部門におけるリーダーとして評価された理由をご覧ください。

生成AIを試してみる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

脚注

1 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

2 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2^nd edition, Oxford University Press, 2016.

3 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. Mounia Lalmas and Ricardo Baeza-Yates, “Structured Document Retrieval,” Encyclopedia of Database Systems, Springer, 2018.

4 Robert Crawford, “The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, No. 1, 1981, pp. 51-64.

5 Alejandro Bellogín and Alan Said, “Information Retrieval and Recommender Systems,” Data Science in Practice, Springer, 2018.

6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.

7 Steven Beitzel, Eric Jensen, and Ophir Frieder, “Index Creation and File Structures,” Encyclopedia of Database Systems, Springer, 2018.

8 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

9 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2^nd edition, Oxford University Press, 2016.

10 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2^nd edition, Oxford University Press, 2016. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.

11 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2^nd edition, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke, and Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.

12 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

13 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2^nd edition, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

14 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.

16 Amin Bigdeli et al., “A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers,” Proceedings of the 44^th European Conference on Advances in Information Retrieval, 2022, pp. 47-55.

17 Dhanasekar Sundararaman and Vivek Subramanian, "Debiasing Gender Bias in Information Retrieval Models," 2022,https://arxiv.org/abs/2208.01755.Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.

情報検索とは？

情報検索とは？

情報検索とデータ検索

情報検索システムとレコメンダー・システムの比較

The DX Leaders

ご登録いただきありがとうございます。

情報検索システムの仕組み

インデックス化

重み付け

関連性のフィードバック

IBMお客様事例

情報検索手法の種類

ブール型モデル

代数的モデル

確率的モデル

最近の研究

参考情報

脚注