データ検索とは？| IBM

By Alice Gomstyn , Alexandra Jonker

データ取得、定義

データ検索は、データ・ソースからすぐに使用できる情報にアクセスするプロセスです。

従来、データ検索という用語は、クエリー言語を使用してデータベースから構造化データを取得することを指していました。しかし、データ量の拡大とテクノロジーの進歩に伴い、この用語は、構造化、非構造化を問わず、無数のデータ・タイプの検索に関連付けられるようになりました。

データ検索ツールを使用することで、企業ユーザーや研究者などは、手動でアクセスするには困難または現実的でないソースから、質問への回答を見つけたり、重要なデータ・ポイントを特定したりできます。データ検索ツールを使用することで、企業ユーザーや研究者などは、手動でのアクセスが困難または法外と思われるソースからの質問に対する答えを見つけたり、重要なデータ・ポイントを見つけたりすることができます。

かつては初歩的なデータベース検索に限られていたデータ検索システムも、今日では複雑なデータ要求を管理し、より多くのナレッジ・ベースに接続し、クエリー実行を動的に最適化できるオートメーションや人工知能（AI）技術によって強化されることが多くなっています。機械学習、自然言語処理、検索拡張生成（RAG）は、クエリーへの応答として提供されるデータの精度と関連性を向上させるのに役立ちます。

データ検索が重要な理由

スマートな意思決定は、組織が質の高いデータから洞察を引き出せるときに実現します。

しかし、分析を行う前に、組織はそのデータにアクセスする必要があります。こうしたタスクは、膨大な科学研究データベースや広範なハイブリッド・マルチクラウド・ストレージ・システムなど、大規模なデータ・セットや膨大なデータ資産にデータが保存されている場合、特に困難になる可能性があります。

爆発的なデータ増加はこれらの課題をさらに深刻化させています。一部の推計によると、毎日4億テラバイトを超えるデータが生成されており、企業自身も1ペタバイト以上のデータを管理している場合が多くあります。¹

人工知能の進歩により、企業のデータのニーズも変化しています。AIワークフローでは、大量の非構造化データへのアクセスを含む、高速なデータ・アクセスが必要になります。

歴史的に見ると、データ検索プロセスは、リレーショナル・データベース管理システムなどの構造化されたソースからのクエリーに重点を置いていました。しかし、今日の膨大な社内外のデータ・ソースを精査するために時間のかかる手作業のアプローチを使用するのではなく、組織は最新のデータ検索を活用しています。このアプローチでは、ベクトル・データベースや検索拡張生成などの技術を使用して、内部のリレーショナル・データベース以外に存在するデータへの需要を満たします。

特に、エージェント型RAGは、この需要を満たす上で特に強力であることが証明されています。IBMのクライアント・エンジニアリング担当アドバイザリー・テクノロジー・エンジニアであるDavid Levy氏は、IBM Technology向けのプレゼンテーションで、エージェント型RAGの機能について説明しました。

「エージェント型RAGは、単純な応答生成を超え、よりインテリジェントな意思決定へと移行することで、RAGパイプラインを強化する進化形です。エージェントが最適なデータ・ソースを選択し、リアルタイム・データやサードパーティー・サービスなどの外部情報を組み込めるようにすることで、より応答性、正確性、適応性の高いパイプラインを構築できます」とLevy氏は述べています。

その結果、企業やその他の組織は、自社の構造化および非構造化エンタープライズ・データだけでなく、自社のエコシステム外で生成される増え続けるデータもさらに活用できます。必要なときに必要な正確なデータにアクセスできるようになることで、ビジネス成果の向上につながる分析やデータ駆動型のインサイトが可能になります。

データ検索、情報検索、データマイニングの比較

データ検索と情報検索（IR）という用語は、しばしば同じ意味で使用されます。それにはもっともな理由があります。

従来、両者は異なる種類のデータ（データ検索では構造化データ、IRでは非構造化データ）に関連付けられていましたが、データ・サイエンスの発展により、その区別は曖昧になってきました。現在では、データ検索で非構造化データを扱えるようになっただけでなく、一部のIRシステムでは、XMLを使用してテキスト文書にインデックスを付けることで、「構造化ドキュメント検索」も可能になっています。

おそらく、この2つのより重要な違いは、それぞれが生成する結果の種類にあります。データ検索は、ユーザーの問い合わせに完全に一致するものを返すことに重点を置いていますが、Web検索エンジンのバックボーンを形成するIRシステムは、関連情報によってランク付けされた複数の結果（Webページなど）を提供します。

データ検索と情報検索は両方とも、データ・マイニングと混同されることがあります。しかし、ここでの違いは明確です。データ取得とIRがデータへのアクセスと提供に重点を置いているのに対し、データ・マイニングはデータからパターンやインサイトを見つけ出すことを意味します。言い換えれば、検索だけでなく分析も含まれます。さらに、データ・マイニングは大規模なデータ・セットに適用されますが、データ取得とIRはあらゆる規模のデータ・コレクションに使用できます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

従来のデータ検索アプローチ

データ取得の手法は、従来の手法とAI手法の2つのカテゴリーに分類できます。²従来の手法には、次のようなものがあります。

クエリー言語の利用
インデックス化
クエリー最適化

クエリ言語の使用

データは、クエリー言語を介して従来のデータベース管理システム（DBMS）から取得されます。最も代表的なクエリー言語は構造化クエリー言語（SQL）であり、リレーショナル・データベースで使用されます。ユーザーはSQLコマンドをデプロイしてデータを取得したり、追加、更新、削除などのタスクを実行したりします。

インデックス化

インデックス化とは、より大きなテーブル内のデータ・レコードを指す検索可能なデータ構造を作成することです。検索処理では、テーブル全体ではなくインデックスをスキャンすることで、より高速で効率的なクエリー処理が可能になります。

クエリーの最適化

データベース管理システムでは、クエリー最適化ツールが、さまざまなクエリー計画、つまりクエリーを実行するさまざまな方法の中から最も効率的なものを選択することで、クエリーのパフォーマンスを向上させます。オプティマイザーは、たとえば、インデックスを使用するかどうか、テーブルを読み取る方法、結合が要求された場合はテーブルを結合する順序を決定します。

これらの確立された手法は、構造化データの取得や基本的な検索操作のサポートには効果的であることが証明されていますが、非構造化データの取得、複雑なクエリーの実行、意味的な理解、スケーラビリティーの確保、リアルタイムの結果の提供など、複数の面で限界があることも知られています。³

データ検索のためのAI手法

AI駆動型のデータ検索手法は、従来のデータ検索手法の欠点を補い、クエリーのパフォーマンスとユーザー・エクスペリエンスを向上させます。⁴

主要なAIデータ検索テクノロジーには次のようなものがあります。

ベクトル検索
機械学習とディープラーニング
自然言語処理
検索拡張生成とエージェント型RAG

ベクトル検索

ベクトル・データベースでは、テキストや画像を含むさまざまな種類のデータが、ベクトル埋め込みとして知られる数値表現として保存されます。類似した特徴を持つベクトル埋め込みは、グループ化されます。ベクトル検索では、システムは検索用語に類似したベクトル埋め込みを持つ関連データとドキュメントを取得します。このような検索は通常、データ・ポイント間の関係を推測する最近傍法アルゴリズムに依存します。

機械学習（ML）とディープラーニング

履歴データとユーザーの行動に基づいてトレーニングされた機械学習アルゴリズムは、一般的なクエリー・パターンに基づいてユーザーにクエリーを推奨し、関連データを提示することができます。さらに、ディープラーニングと呼ばれる機械学習のサブセットは、非構造化データの検索に役立ちます。たとえば、畳み込みニューラル・ネットワーク（CNN）はコンピューター・ビジョンを支えており、画像やビデオ・ファイルの検索に使用できます。⁵

自然言語処理

自然言語処理（NLP）は、クエリーをクエリー言語のコマンドとして構造化するのではなく、会話形式で入力できるようにすることで、ユーザーフレンドリーな検索を実現します。NLPを利用した検索エンジンは、キーワードのマッチングだけに頼るのではなく、セマンティック検索を行うことができます。正確な検索語が文書内に存在しない場合でも、クエリーの意図を反映した関連性の高い結果を特定します。

検索拡張生成とエージェント型RAG

検索拡張生成は、アプリケーション・プログラミング・インターフェース（API）を使用して、大規模言語モデルを外部の知識ベースに接続します。これにより、システムはドメイン固有かつタイムリーな情報を検索できるようになります。

エージェント型RAGシステムは、従来のRAGに高度な機能を追加し、エージェント型推論によってクエリーを動的に最適化して、データ検索のパフォーマンスを向上させます。主要なエージェント型RAGシステムのコンポーネントには、次のものが含まれます。

コア検索機能：データ検索は、インデックス作成や、キーワード検索とベクトル検索の組み合わせ（ハイブリッド検索）など、従来型およびAI活用型のデータ検索アプローチによって支えられています。

セマンティック・キャッシング：エージェント型RAGシステムは、過去のクエリー、コンテキスト、および結果を保存し、参照できます。このメモリーは新たな検索に活用され、より関連性が高くパーソナライズされた結果をもたらします。

エージェント型チャンキング：エージェント型チャンキングは、大規模なテキスト入力を、意味的に一貫性のある小さなブロック（チャンク）に分割し、それらをベクトル・データベースに格納します。この意味的な一貫性により、システムはクエリーに対してより完全で高品質な回答を取得できます。

ルーティング・エージェント：ルーティング・エージェントは、ユーザーのクエリーに最適な外部知識ソースとツールを決定します。

クエリー・プランニング・エージェント：クエリー・プランニング・エージェントは、複雑なユーザー・クエリーをステップバイステップのプロセスに分解し、その結果として得られたサブクエリーをRAGシステム内の他のエージェントに送信します。これらのエージェントがそれぞれの回答を提供すると、クエリー・プランニング・エージェントはそれらを統合して一貫性のある応答を生成します。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

データ検索のユースケース

データ検索の技術とソリューションにより、無数の業界や分野におけるデータ・アクセスとデータ管理が改善されます。

ヘルスケア

医療施設向けのサービス・プロバイダーは、自然言語処理と検索拡張生成を使用して、ビジネス・クリティカルなデータの検索を90％高速化しました。

金融サービス

あるフィンテック企業は、リアルタイムの情報を取得するRAG活用型のカスタマー・サービス用チャットボットをデプロイし、従来のコールセンターと比較して平均対応時間を80％短縮しました。

Eコマース

Eコマース企業は、買い物客が購入したい商品の写真をアップロードできるようにしており、コンピューター・ビジョンを活用した検索ソリューションが、その画像に類似した商品の情報を検索します。

データ検索の課題

企業がデータ検索ソリューションを検討する際には、潜在的な課題を考慮することが重要です。

データ品質

企業がデータの検索に成功するにつれて、データの一部に欠落やエラーが含まれていることに気づく可能性があります。データ・プロファイリングやデータ・クレンジングなどのデータ品質管理の実践は、組織がデータ・セットを正確性、完全性、一貫性、その他の品質の側面から最適化するのに役立ちます。

セキュリティー

機密データが誤った人によって取得されないようにするための適切なセキュリティー対策を講じていなければ、高度なデータ取得機能の導入はリスクが高くなります。管理対象データ・プラットフォームには、不正アクセスを防止し、規制コンプライアンスをサポートする組み込みのセキュリティー機能、ID管理、アクセス制御を含めることができます。

ベンダー・ロックイン

プロプライエタリーな（ベンダー独自の）データ・ソリューションは、データ検索、オーケストレーション、AIモデルをクローズドなシステムにバンドルすることが多く、組織はベンダーが管理するテクノロジー・スタックに制限されます。エージェント型RAGやその他のテクノロジーを備えたオープンソースのデータ・ソリューションは、企業がテクノロジー・スタックやデータ管理機能をより柔軟に制御できる代替手段を提供します。

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor