要約 (スニペット処理)
このタスクについて
クラスタリング・プロセス中に、Watson™ Explorer Engine は、各入力文書 の簡単な要約を作成します。この要約 (「スニペット」) は、文書内に出現する content タグのうち、要約可能としてマークが付けられているタグから自動的に形成される一連のテキストです。Watson Explorer Engine は、name="snippet" および type="html" を使用して、この要約を新規 content タグ内に保管します。この新規コンテンツ・エレメントは、文書の子として挿入されます。
出力に入力コンテンツ・エレメントを含める必要がない場合は、compact オプションを有効にすると、name="title" または name="snippet" が付けられているコンテンツ・エレメント以外のすべてのコンテンツ・エレメントが削除されます。
入力文書を要約するプロセスは以下のとおりです。
手順
- 要約可能としてマークが付けられているコンテンツのうち、Watson Explorer Engine によって文書が格納されているクラスターのラベルとの一致度が最も高いコンテンツからテキスト節を選択します。これらの節のサイズは、オプション context_words によって指定されます。
- テキスト節は、新規コンテンツを形成するために結合されます。このコンテンツ内のテキストの長さは、オプション context_total_words によって指定されます。このオプション値は、厳密ではありませんが、合計サイズの目標として機能します。
- context_initial_words オプションの値によっては、文書の先頭からの一連のテキストが要約に組み込まれることがあります。
- 要約テキスト内に出現する照会用語およびクラスター・ラベルは、太字テキストで表示されます。
タスクの結果
デフォルトはほとんどの場合に適していますが、この設定を変更すると、より詳細な出力またはより簡潔な出力を取得できます。文書全体を組み込み、照会用語のみを太字テキストとして表示するためには、以下のオプションを使用します。
-context_words -1 -bolding 1
元の文書を組み込み、単語を太字で表示しないようにするには、以下のオプションを使用します。
-context_words -1 -bolding 0