Entity Extractor のカスタマイズ
Entity Extractor は、最初に検索コレクションの変換パイプラインに追加されると、編集モードのままになるため、設定を変更して動作をカスタマイズすることができます。後で Entity Extractor をカスタマイズする場合は、検索コレクションの「Converting」サブタブ変換でそれを見つけて、「edit」をクリックし、その設定を変更します。
デフォルトでは、Entity Extractor は、Type-In 値が vxml-unnormalizedと一致する文書を取り込み、タイプ vxml-unnormalized の文書を生成します。Entity Extractor は、ユーザーが指定する Type-Out 値に関係なく、常にタイプ vxml-unnormalized の文書を出力します。入力文書が VXML 文書でない場合でも、Entity Extractor は VXML 出力を生成しますが、入力文書全体が、名前属性 input を持つ単一の VXML <content> エレメントに入れられます。
Entity Extractor に固有の以下の設定を変更できます。
- 「Conditional Settings」: 「Test」、「With」、および関連するテキスト域では、エンティティー抽出によって処理されるために文書の URL または本文のコンテンツが満たす必要があるテストを定義できます。「With」設定は、テキスト域に指定する式を文書の URL または本文コンテンツと比較する際に、その式がどのように使用されるかを決定します。「With」設定として可能な値は、「wildcard set」(デフォルト値)、「regex」、「case insensitive regex」、「perl-regex」、「case insensitive perl regex」、「program」、および「xpath」です。
- 「Advanced」: 当該コンバーターが利用できる CPU 時間、メモリー量、経過時間の制限を指定できます。このセクションで指定されるすべての値と、関連する検索コレクションの構成の「Crawling」サブタブの「Converting」セクションで指定される値のうち、大きい方の値がその値の制限として使用されます。
- 「Person, Location, or Organization Entity Options」: これらの各エンティティー・タイプに、以下の値を設定できる別々の構成セクションがあります。
- 「Whitelist」: デフォルトでは指定のエンティティー・タイプとして検出されないが、検出される必要がある値を指定できます。1 行につき 1 つの値を追加します。
- 「Blacklist」: 指定されたタイプのエンティティーとして抽出されてはならない語句を指定できます。1 行につき 1 つの語句を追加します。「Blacklist」の入力は「Whitelist」の入力をオーバーライドするため、両方のフィールドに指定された値は個人、場所、または組織として抽出されなくなります。
- オプション:
- 「Exclude Contents By Default」: このオプションを有効にすると、「Content List」フィールドに指定されたものを除き、すべてのコンテンツ・エレメントが分析から除外されます。このオプションを有効にしない場合は、「Content List」フィールドにリストされているコンテンツ・エレメントのみが分析から除外されます。
- 「Content List」 VXML 文書を取り込むとき、Entity Extractor は、文書の分析時に name 属性に特定の値が指定された <content> エレメントを組み込むか除外することができます。この属性に基づいて特定のコンテンツ・エレメントを無視するには、無視する値をこのフィールドにリストします。1 行につき 1 つのコンテンツ・エレメントを指定して、「Exclude Contents By Default」オプションを確実に無効にします。いくつかのエレメントを除き、すべてのコンテンツ・エレメントを無視するには、無視する値をこのフィールドにリストします。1 行につき 1 つのコンテンツ・エレメントを指定して、「Exclude Contents By Default」オプションを有効にします。
具体的な例として、Watson™ Explorer Engine のチュートリアルで使用されている example-metadata コレクションをクロールする場合に、author コンテンツ・エレメントが既に抽出されているため、Entity Extractor によってこのフィールドに対して重複した person コンテンツ・エレメントが作成されないようにするとします。作成されないようにするには、このフィールドに author と入力して、「Exclude Contents By Default」オプションを確実に無効にします。
- 「Logging Enabled」: このオプションにチェック・マークを付けると、Entity Extractor は、デバッグやサポートに役立つ情報が入ったログ・ファイルを作業ディレクトリー内に作成します。