検索エンジン

すべての検索エンジンには、以下の 4 つの主要コンポーネントがあります。

クロール、シード、およびコネクター: クローラーは、最終的に検索結果を形成するロー・データを収集します。クローラーは、Web ページをクロールするときに、ユーザー指定のシード URL から始めて、Web ページのダウンロードを開始します。クローラーは、ダウンロードしたページ上のハイパーリンクを見つけて、新たに検出されたページのさらなるクロールをスケジュールします。どのページをクロールする必要があるのか、およびどのようにしてクロールするのかを判別するために構成情報が使用されます。
変換: コンバーターは、クローラーによって検出されたロー・データを処理して、1 つ以上の索引付け可能なデータを生成します。ロー・データは、アーカイブ、圧縮ファイル、PDF、または Microsoft Word ファイルなど、任意の数の形式でエンコードできます。ほとんどの検索エンジンは変換ステップを公開しません。このステップは、Watson™ Explorer Engine 検索エンジンで頻繁にカスタマイズ可能で、高度なメタデータの処理や (オプションとしての) 生成などのロー・データの極めて柔軟な処理をサポートします。Watson Explorer Engine は、PDF、Word、およびその他の形式の文書から文書のタイトルを推測するための非常に高度なタイトル抽出も提供します。変換プロセスの最終的な出力は、IBM XML 形式の XML になります。
索引付け: インデクサーは、コンバーターによって生成されたテキスト・データを処理して、この情報の効率的な検索と取得を容易に行えるようにデータ構造を構築します。Watson Explorer Engine 検索エンジンでは、索引付けにより、検索時に類似重複除去に使用されるシグニチャーも生成されます。各コレクションのインデクサー・サービスは、実際に結果を提供するプロセスです。
検索: 検索プロセス (照会サービスと呼ばれます) は、継続的に実行され、要求を正しいインデクサー・サービスにプロキシーします。

Watson Explorer Engine 管理ツールには、これらの各コンポーネントのサブセクションを含む構成タブがあります。さらに、照会サービス構成は、すべてのコレクションに適用されるオプションを指定します。

検索のデータおよび構成は、コレクションと呼ばれます。作成できるコレクションの数に制限はありません。各コレクションには、ライブ・データと (場合によっては) ステージング・データが含まれます。ライブ・データは現在の検索に使用されます。ステージング・データは、コレクションの新規コピーがクロールされて索引付けされるときに情報を累積するために使用されます。これらの概念について詳しくは、ライブおよびステージングのセクションで説明します。新しい構成を変更してテストするには、コレクションに作業用コピーも必要です。

新しいコレクションは、既存のコレクションの構成のコピーです。これは通常、デフォルトのコレクションです。デフォルトのコレクションを使用して、組織全体のデフォルト・オプションを指定できます。例えば、プロキシーが必要な場合、デフォルトのコレクションでプロキシー情報を入力できます。この情報は、その後で作成されるすべてのコレクションで使用されます。

クローラーは、再帰的なルール・システムに基づいており、クロールに対する幅広い制御を提供します。文書は、任意のプログラムやスクリプトのほか、XSL 変換や Watson Explorer Engine 変換を挿入できるオープンで拡張可能なフレームワークを使用して生成されます。