検索コレクションの作成

このタスクについて

チュートリアルを開始するには、以下のようにします。

手順

  1. 「Configuration」セクションに移動します。
  2. 「Search Collections」項目の横にある「Add」アイコン () をクリックします。
  3. 名前「sc-tutorial」、説明「General Search Engine Tutorial」を使用して、新規コレクションを作成します。
  4. 「default」検索コレクションのデフォルトをコピーします。

    「Collection name」は、検索エンジン・インターフェースでこのコレクションを識別するため、およびユーザーによってコレクションの検索時に使用されます。「Description」は、Watson™ Explorer Engine 管理ツール内でのみ使用されます。既存のコレクションからのデフォルト値を使用することで、複数の同じような検索コレクションを作成する際に時間が節約されます。

  5. 「Add」をクリックして、新規コレクションを作成します。

    データをコレクションから収集する (クロール と呼ぶプロセス) 前に、コレクションのシード を指定する必要があります。シードは、クロールの開始点であり、通常は URL ですが、ファイル、SMB 共有、データベース、E メール・アーカイブなどにすることもできます。URL の場合、クローラーは示されているページをダウンロードし、すべてのハイパーリンクを抽出し、新たに検出したページのクロールを続行します。たどられる各リンクは、ホップ と呼ばれます。最初、新規コレクションにはシードがありません。

    コレクションを構成し、シードを追加するには、以下のようにします。

  6. コレクションの「Configuration」タブをクリックします。
  7. 「Crawling」サブタブで「Add a new seed」をクリックします。

    これにより、Watson Explorer Engine インストール済み環境で使用可能なシードのスクロール可能なリストを示すダイアログが表示されます。

  8. リストから「URLs」を選択します。
  9. 「Add」をクリックして、「Seed URLs」として Web サイトのリストを追加できるテキスト・ボックスを表示します。
  10. ボックスに URL を入力します。例:
    http://ibm.com

    「Restrict crawl to」オプションを変更して、該当するドメインをクロールするのか、該当するホストのみをクロールするのか、またはホスト上の特定のパスのみをクロールするのかを決定します。このチュートリアルでは、ドロップダウン・メニューから「host」を選択して、クロールを指定ホストに制限します。

  11. 「Overview」タブに移動します。

    このページの上半分には、このコレクションで使用可能な各種管理アクションがリストされます。個別のソースをテストしたり、検索コレクションに関連付けられているシードを表示したり、ページの右側にある「start」ボタンをクリックしてクロールを開始したりすることができます。

  12. このチュートリアルを進めるには、「start」をクリックして、クロールおよび索引付けプロセスを開始します。

タスクの結果

クロールが開始し、概要ページにクロール情報が表示されます。クロールは、「Seed URLs」としてリストされたリンクからのデータの収集を開始し、シードからハイパーリンクを抽出し、新たに検出されたページのクロールを続行します。クロールが続行する中、収集されたデータが索引付けされます。索引付けは、オンライン・リソースに照会できるようにする、アクセスしやすい最適化されたメカニズム (索引) を検索エンジンが生成するために実行されるアクションです。クロールを開始すると、検索コレクション・ページに「Live Status」タブが表示され、「Crawling」「Converting」「Indexing」「URLs」、および「Enqueue」に関する情報用の別個のサブタブが示されます。「Overview」タブについて詳しくは、『管理: 検索コレクションの「Overview」パネル』を参照してください。

クローラーの実行時に、「URLs」タブで最新の URL 情報を確認できます。このタブには、クロールされた URL、およびクロールを待機している URL が含まれています。「Crawling」タブ・ページの右上隅にある「stop」をクリックして、いつでもクロールを終了できます。クロールを停止した後には、「resume」をクリックしていつでもクロールを再開できます。クロールの停止と再開は、クローラーの実行中に構成を更新する場合に役立ちます。

索引付けは、クロールと同時に行われます。クローラーは、URL の処理の完了後に、その URL をインデクサーに渡します。ステージングしている (つまり、コレクションのクロールをテストしている) 場合、索引付けが正常に完了すると、ステージング・データに対してコレクションのテストが実行されます。該当するテストにすべて合格すると、ステージング・データは自動的にライブ・データになり、コレクションは検索する準備ができた状態になります。

このチュートリアルを進めるには、コレクションの検索をクリックします。