IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
情報検索(IR)は、ユーザークエリのデータ検索に取り組むコンピューターサイエンスと情報サイエンスの幅広い分野です。ライブラリー・カタログやウェブ検索エンジンなどの検索ツールを強化します。
多くのオンラインソースがIRシステムとデータ検索を対比しています。IRシステムは、テキスト文書やWebページなどの非構造化情報を検索しますが、データ検索は、リレーショナル・データベース管理システムに見られるような構造化データを扱います。転じてデータ検索は、検索クエリーを実行するために構造化クエリー言語(SQL)を使用します。
しかし、非構造化および非リレーショナルなIRと、構造化およびリレーショナルとしてのデータ検索のこの違いは、多くのオンライン・リソースが示唆するよりも曖昧です。IRシステムは情報をインデックス化、つまり構造化します。たとえば、IRは従来、生テキストの文書取得を処理しますが、一部のIRシステムでは、テキストの表現とインデックス化にXMLを使用しています。研究文献では、XMLベースのシステムを構造化検索または半構造化検索と呼ばれるIRの一分野として説明されることがよくあります。3 また何十年にもわたってリレーショナルIRモデルの使用が検討されてきました。4
したがって、IRとデータ検索の区別は、従来の区別よりも曖昧になっています。実際、データが定義上情報であることを考えると、構造化データ検索は情報検索の一種として理解する方がおそらく良いでしょう。
IRはレコメンダー・システムとは異なることに注意してください。協調フィルタリングやコンテンツ・ベースのフィルタリングなどの機械学習の推奨技術は、IRシステムのサブタスクである情報フィルタリングの一形態として理解できるかもしれません。とはいえ、IRシステムとレコメンダー・システムは異なるものです。IRは従来から、ユーザー・クエリーを必要とします。レコメンデーション・エンジンは通常、ユーザー・クエリーなしでオブジェクトを取得します。5
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
IRモデルによって情報の表現方法は異なります。選択されたドキュメント表現の形式によって、モデルが情報を検索および取得する方法が主に決まります。いずれにしても、インデックス化、重み付け、関連性フィードバックが、IRモデル全体で共通する3つの情報検索手法になります。
インデックス化は、基本的にメタデータの作成に相当します。6 多くの人が、印刷された本の裏に索引(インデックス)があるのを目にしたことがあるでしょう。これは、特定の印刷文書からまとめられた構造化された単語セットであり、読者は特定のトピックに関する文章に簡単にアクセスできます。IRインデックスも同様です。IRインデックス(または転置インデックス)とは、検索クエリーの成果を向上させることを目的とした、一連のドキュメントから得られるデータ構造です。7
インデックスを構築するには、まずドキュメントを解析して特徴を抽出する必要があります。例えば、テキストベースのドキュメント用にIRシステムを作るとすします。自然言語処理(NLP)でよくあることですが、トークン化やストップワードの削除など、さまざまな前処理手法を使用してドキュメントのコレクションを作成します。そしてIRシステムは、この処理されたドキュメントのコレクションを、組織化されたデータ構造として表します。そのような構造の1つが辞書であり、各ドキュメントにはそこに現れる単語(または索引語)が参照するIDがあります。8 テキスト検索システムのデータ構造としてもう一つ考えられるのは、Bag-of-Words(BoW)などのベクトル空間モデルです。9これらのアプローチはどちらも単語を特徴として抽出し、それをユーザーのクエリーに応じてドキュメントを検索し、ランク付けするために使用します。
検索システムは、特定のクエリーの近似一致または完全一致をどのようにランク付けするのでしょうか?情報のランク付けと検索へのアプローチは、システムで使用される情報検索モデルの種類とドキュメント表現の形式の両方によって異なります。ただし、インデックス(索引)用語は、IRシステムがクエリーに応じてドキュメントをランク付けするうえで重要な役割を果たします。しかし、すべてのインデックス用語が平等に扱われるわけではありません。そのためIRシステムは、認識された重要度に応じてインデックス用語に重み付けするためにさまざまな方法を使用します。
Bag-of-Wordsなどのベクトル空間モデルを使用するIRシステムでは、用語周波数逆ドキュメント周波数(TF-IDF)を使用できます。TF-IDFはBag-of-Wordsのひとつのバリエーションで、テキスト・セット内の各ドキュメント全体での単語の使用度合いを考慮します。特定の単語が出現する文書の数が多いほど、TF-IDF値が大きくなり、その単語の重みが下がります。他のアプローチには、特異値分解(SVD)と潜在意味分析(LSA)があり、後者はトピック・モデリングの一般的なアプローチです。10
このような重み付けアプローチは、IRシステムがクエリーに応じてドキュメントをどのようにランク付けするかに影響を与えます。しかし、IRモデルの種類が異なれば、これらの重みを使用してランク付けを行う方法も異なります。
システムはどのような方法で検索成果を改善できるのでしょうか。言い換えれば、システムがユーザーの検索を微調整し、返される関連ドキュメントの数を増やすにはどうすればよいでしょうか。
関連性フィードバックは、検索成果を改善するための一般的な情報検索手法です。関連性フィードバックでは、基本的に、最初の一連のクエリー結果に対するユーザーの応答に関して情報が収集されます。次に、システムがユーザーの応答に照らしてアイテムの関連性を再評価します。その後最初のクエリーを組み込んだ新しい検索結果セットと、その最初のクエリー結果に対するユーザーのフィードバックを返します。
関連性フィードバックには通常、取得したドキュメントの関連性についてのユーザーによる明示的な回答が含まれます。暗黙的フィードバックとは、ユーザーの行動(たとえば、ユーザーが検索成果ページでどのウェブサイトリンクをクリックしたかなど)を観察して商品の関連性を推定するバリエーションです。疑似関連性フィードバックは、最初のクエリで取得された最初のn件のドキュメントに関連性があることを前提としています。次に、それらのドキュメント全体に共通する追加機能を収集して、クエリーをさらに変更します。11
情報検索モデルにはさまざまな種類があります。どんなことでも網羅的に要約した形で提供するには、はるかに大規模な議論が必要になります。それにもかかわらず、IRの教科書や概説書では、ブール型、代数型、確率型という3つの一般的なIR方法論に言及することが多くなっています。
ブール型モデルは、おそらく最も単純で、単純化したIRモデルです。このモデルでは、前に説明したように、インデックス用語の辞書構造を使用します。そして、このモデルは、検索されたドキュメントにユーザーのクエリーに含まれる単語があるかどうかによって、ドキュメントをランク付けします。例えば、ユーザーが「jazz AND dancing」というクエリーを与えた場合、ブールモデルはjazzと dancingという単語が組み合わさって含まれているドキュメントのみを取得します。これにより、ブール型モデルはドキュメント内の単語の有無のみを考慮するため、ブール検索システムでは部分一致は存在しません。ステミングやレマタイゼーションなどのテキスト前処理技術は、ユーザーのクエリー「dancing」だけでなく「dance」、「dances」、「dancer」を含むドキュメントなど、形態学上のバリアントの問題を解決できます。
前述したように、ブール型モデルは単語の有無のみを考慮します。この二項決定基準には、ユーザーのクエリーに最も関連するドキュメントを決定するための評価スケールがありません。考えられる解決策の 1 つは、その中のユーザー・クエリー用語の頻度に基づいてドキュメントを評価することです。言い換えると、ドキュメントで「jazz」や「dance」について言及すればするほど、モデルはそれをユーザーのクエリーに対してより適切と考えるようになります。しかし、用語の頻度が高いからといって、必ずしも関連性が高いとは限りません。このような潜在的な欠点があるにもかかわらず、ブール型モデルは実装が容易なため、多くのIRシステムで使用されてきました。12
ブール型のドキュメント検索では、どのような形式の部分一致も禁止されます。代数モデルと確率モデルでは、インデックス用語に非バイナリの重みを割り当てることでこの問題に対処します。
代表的な代数モデルの 1 つは、ベクトル空間モデルです。このアプローチでは、IRシステムはドキュメントとクエリーを多次元ベクトル空間内の「ベクトル」として表現します。この空間では、インデックス用語はベクトル空間の特徴となる可能性が高く、クエリーとドキュメントはインデックス用語の存在と頻度に応じてこの空間全体にプロットされます。IRシステムは、ベクトル空間における近接性に基づいて、検索クエリーとドキュメント間の類似性を計算します。
ベクトル空間モデルでの近接性を判断するためのメトリクスは、ジャカードやドット積など、多数あります。しかし、おそらく最も一般的なものの1つは、次の式で表されるコサイン類似度でしょう。
ここでのAとBは、ベクトル空間内の2つのベクトルを示します。コサイン類似性スコアは、-1~1の任意の値です。コサイン・スコアが高いほど、2つのアイテムが類似していると見なされます。
IRベクトル空間モデルは、測定された類似度に応じて順序付けられたドキュメントを返します。このように、ベクトル空間モデルなどの代数的IRシステムでは、部分的なマッチングが可能になり、より正確でニュアンスのある情報検索が提供される可能性があります。13
確率的モデルでは、ユーザーのクエリーとドキュメントの部分的なマッチングも可能です。確率的モデルは、与えられたクエリーに理想的な検索情報システム・リソース・セットがあるという前提に基づいて機能します。実際、この理想的なリソース・セットは未知のものです。しかし、このセットのプロパティはインデックス用語のセマンティクス(意味論)によって特徴づけられます。
代数的モデルと同様、確率的モデルもインデックス用語の存在と頻度を用いてクエリと文書間の類似性を判断します。しかし、確率的モデルは、追加の要因を考慮するという点で異なります。例えば、インデックス用語の出現頻度(ドキュメント内でインデックス用語が共起する頻度)を、ドキュメントの全文長との関係で考慮したり、単一のインデックス用語が、与えられたクエリー内のすべてのクエリー用語に対して出現する頻度を考慮したりすることができます。これらは考えられる要因の一部に過ぎず、より詳細な議論を行うには確率論をより深く理解する必要があります。
すべての確率的モデルが、ドキュメントの類似性または確率を計算する際に同じ要素を考慮するわけではないことに注意してください。たとえば、最初の確率的IRモデルであるバイナリ独立モデル(BIM)では、用語の頻度は考慮されません。ただし、トピック・モデリング手法の潜在的ディリクレ配分法(LDA)を組み込んだモデルでは、用語の共起頻度が考慮されます。14
バイアス。ウェブ検索エンジンは、おそらく最もよく知られているIRユースケースのひとつです。テキスト要約ツールPageRankは、ウェブページ(HTMLドキュメント)の検索とランク付けに使われます。研究により、検索アルゴリズムが人種や性別などの多くのバイアスを永続させているという残念な現実が確認されています。15これに応えて、公開された実験では、ネガティブ・サンプリング16や、偏った結果に対するペナルティーを組み込んだバイアス認識アルゴリズムなど、IRシステムにおける社会的バイアスを軽減するためのさまざまな方法を探索しています。17バイアスの軽減は、IRや人工知能に関する倫理的実践を開発する研究にとって最も重要な分野です。
IBM® watsonx Orchestrateを使用すると、スケーラブルなAIアシスタントとエージェントを簡単に設計し、反復的なタスクを自動化し、複雑なプロセスを簡素化できます。
ライブラリー、サービス、アプリケーションの強力かつ柔軟なポートフォリオにより、人工知能のビジネス価値を促進します。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
2 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016.
3 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. Mounia Lalmas and Ricardo Baeza-Yates, “Structured Document Retrieval,” Encyclopedia of Database Systems, Springer, 2018.
4 Robert Crawford, “The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, No. 1, 1981, pp. 51-64.
5 Alejandro Bellogín and Alan Said, “Information Retrieval and Recommender Systems,” Data Science in Practice, Springer, 2018.
6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.
7 Steven Beitzel, Eric Jensen, and Ophir Frieder, “Index Creation and File Structures,” Encyclopedia of Database Systems, Springer, 2018.
8 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
9 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016.
10 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.
11 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke, and Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.
12 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
13 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
14 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.
16 Amin Bigdeli et al., “A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers,” Proceedings of the 44th European Conference on Advances in Information Retrieval, 2022, pp. 47-55.
17 Dhanasekar Sundararaman and Vivek Subramanian, "Debiasing Gender Bias in Information Retrieval Models," 2022,https://arxiv.org/abs/2208.01755.Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.