概説
アプリケーションの最終的な目的は、ユーザーが「適切な」検索結果を見つけられるようにすることです。これは、ユーザーが求めている情報およびその情報を見つけるためにユーザーが使用する照会の両方に左右されます。Watson Explorer Engine では、検索結果の品質と有用性を高めるために、アプリケーション開発者が選ばれた検索結果の注目度 (ランキング) を常に調整できるようにするとともに、ユーザーが関連する一連の結果を容易に特定して探索できるようにするクラスタリングなどのメカニズムを導入してきました。ただし、結局は適切な質問が適切な結果の検出につながることには変わりがありません。つまり、適切な結果の検出は、検索フィールドに適切な照会と照会用語を入力することから始まります。
概念検索の技法では、照会で使用できる関連用語をユーザーに自動的に提示することで、ユーザーが照会を簡単に拡張できるようにします。この簡単でありながら高度なメカニズムによって、本来であれば最初に選択した照会用語では見逃されていた可能性のある検索結果が見つかります。
一般に、アプリケーションのユーザーが検索を行う目的は、特定の情報を見つけ出すこと、またはトピックに関する全般的な調査を行うことのどちらかです。情報検索の用語で説明すると、前者の場合はユーザーが結果の適合率に関心を持ち、後者の場合はユーザーが結果の完全性 (一般には再現率と呼ばれます) に関心を持っています。標準的な Web 検索メカニズムでは、特定の文書を見つけること (適合率) が重視され、概念検索では、関連性のある結果をより多く返すことが重視されます。概念検索では、大きな用語セットとの突き合わせに基づいて検索結果が返されるため、再現率は上がりますが、その性質上適合率は下がります。
Watson Explorer Engine アプリケーションで利用できる検索拡張には 3 つのタイプがあります。各タイプの定義は以下のとおりです。
- セマンティック拡張 -- これを有効にすると、オントレクションに既にインポートされている同義語およびその他の関連用語で、元の照会を自動拡張または手動拡張できるようになります。
- ワイルドカード拡張 -- これを有効にすると、照会内のワイルドカード用語のワイルドカード・パターンと一致するワードが、プロジェクトで使用されるすべての辞書から取得され、OR で結合されたそれらのワードで、照会内のワイルドカード用語が置き換えられます。
- ステム拡張 -- これを有効にすると、meta.stem_expand_stemmer 変数に指定されているステマーを使用して、ステムで拡張されたワードが、OR で結合された同じステムの複数のワードで置き換えられます。
『拡張された照会のステミング』セクションでは、照会のステミング拡張とセマンティック拡張を統合する方法について説明しています。ワイルドカード拡張とステム拡張の詳細については、この資料の『カスタム辞書の出力の定義』セクションを参照してください。このチュートリアルでは、セマンティック拡張を中心に説明します。
Watson Explorer Engine では、2 つの手法でセマンティック拡張を利用できます。
- シソーラス駆動型: Watson Explorer Engine では、同義語、頭字語、および一般関連用語に関する既存の情報を利用して、後続の照会で使用する追加の用語としてそれらの用語を提供できます。多くの企業が、業務固有の用語、同義語、頭字語などを識別する社内辞書またはシソーラスを保持しています。Watson Explorer Engine アプリケーションは、この実績のあるドメイン固有の情報を取り込んで、よりスマートなサイト独自の検索を可能にします。シソーラス内の用語は、企業ドメインまたはアプリケーション・ドメインとの関連が既に確認されているため、シソーラス駆動型の概念検索で提示される追加の照会用語を選択しても、個々の照会の適合率にはほとんど影響しません。
- データ駆動型: Watson Explorer Engine によって、特定の検索に適用可能な業界固有の概念を含んでいるドメイン・コレクションまたはドメイン・リストから、関連する用語および概念が自動的に特定されます。
アプリケーションでは、シソーラス駆動型とデータ駆動型の概念検索を別々に使用することも併用することもできるため、定義済みの用語または自動的に特定された用語、あるいはその両方を使用して、再現率を高めることができます。これらの概念検索の技法で見つかった関連用語はポップアップ・ダイアログに表示されるので、検索で考慮する追加の用語を簡単に選択したり選択解除したりできます。また、このダイアログでは、エンド・ユーザーが用語を変えて検索を繰り返し実行できるので、求めている情報がすぐに見つかります。検索を繰り返すたびに、新たに選択された用語がそれまでの照会用語に追加されます。この手法は、一般に照会拡張と呼ばれます。
シソーラスなどの企業データを Watson Explorer Engine アプリケーションに追加するには、そのデータをクロールして特別なタイプの検索コレクションを生成します。この検索コレクションは、Watson Explorer Engine の内部で関連用語や代替用語を特定して提示するために使用されます。情報科学では、一連の基本用語を特定し、その用語間の関係を定義して知識ドメインをモデル化することを、一般にオントロジー と呼びます。Watson Explorer Engine の概念検索サポートで使用される特別なタイプの検索コレクションは、アプリケーションまたは企業のドメインに固有の関連用語セットに基づいているため、オントレクションと呼ばれます。
このチュートリアルでは、Watson Explorer Engine の概念検索の機能をアプリケーションに統合する方法について説明します。このチュートリアルでは、以下の項目について紹介します。
- シソーラス駆動型の基本的な概念検索を構成およびカスタマイズする際に使用できる Watson Explorer Engine 管理ツールの各部分
- データ駆動型の基本的な概念検索を構成およびカスタマイズする際に使用できる Watson Explorer Engine 管理ツールの各部分
このチュートリアルの次のセクションに進むには、このチュートリアルの前提条件をクリックしてください。