クラスタリング設定

以下の表は、プロジェクトのクラスタリング設定の詳細を示します。各設定の名前、変数名、変数タイプ、説明、およびデフォルトが定義されています。

注: これらのパラメーターの構成は、ご使用の Watson™ Explorer Engine 検索アプリケーションで必要な場合も不要な場合もあります。 ここにリストするパラメーターの説明を読んでも、ご使用の検索アプリケーションでそのパラメーターを使用する必要があるかどうかが明確に判断できない場合は、IBM サポートに連絡して確認してください。
表 1. クラスタリング設定
設定名 タイプ 説明

Number of words to index around a query term

(proximity)

number

照会用語の n 個の範囲内にある単語のみを含みます。

デフォルト: -1

Stemmers

(stem)

string

使用するステミング・アルゴリズムを 1 つ以上指定します。複数のステマーは、間に + を書き込んで結合できます。 例えば、dutch+french を指定すると、オランダ語のステマーが適用され、そのステマーによって単語がステムされなかった場合はフランス語のステマーが適用されます。 ヘブライ語のステマーは、現在、初期プレリリース・バージョンとして提供されています。 使用可能なステマーは以下のとおりです。

  • porterf
  • danish
  • dutch
  • english
  • finnish
  • french
  • german
  • hebrew
  • italian
  • norwegian
  • norwegian-depluralize
  • porter1
  • porter2
  • portuguese
  • russian
  • spanish
  • spanish-depluralize
  • swedish
  • turkish
  • depluralize
  • delanguage
  • case
  • external
  • none

デフォルト: delanguage+english+depluralize

字句解析言語ストリームを使用する場合は、「none」に設定します。字句解析ストリームを参照してください。

Explicit stream configuration

(option stream)

string

XML として指定された、クラスタリング用のストリーム構成。例えば、この構成オプションを使用すると、<content-analytics-stream> を使用してクラスタリングを実行できます。このパラメーターは、ステマー、セグメンター、および知識ベースの各オプションをオーバーライドする場合は使用しないでください。

デフォルト: 指定なし

字句解析言語ストリームを使用する場合は、字句解析ストリームを参照してください。

Lexical Analysis log4jconfiguration

(option stream-log4j-configuration)

string

字句解析ストリームを使用する場合に使用する、XML として指定するロギング (log4j) 構成。 値の例については、「インデクサー (Indexer)」 > 「拡張」の下にある、検索コレクションのデフォルトの字句解析ロギング構成を参照してください。

デフォルト: 指定なし

Lexical Analysis JVM options

(option stream-jvm-options)

string

字句解析ストリームを使用する場合に使用する JVM 引数。値の例については、「インデクサー (Indexer)」 > 「拡張」の下にある、検索コレクションのデフォルトの JVM 引数を参照してください。

デフォルト: 指定なし

Segmenter

(segmenter)

enum

使用するセグメンターを指定します。セグメンターを使用して、セグメント化されていない言語 (例えば、日本語や中国語) の連続した言葉を個々のコンポーネント (単語) に分割します。

  • unigram: 個々の文字にセグメント化します。
  • unigram-of-bigram: 各単語の最初の文字をセグメント化するセグメンター
  • bigram: オーバーラップする単語の対にセグメント化します。
  • mixed: すべての表意文字をユニグラムにセグメント化します。これは、中国語データおよび混合した CJK データで使用するのに適したセグメンターです。
  • japanese: 日本語の単語用のセグメンター (表層形の活用形)
  • japanese-base: 日本語の単語用のセグメンター (表層形の基本形)
  • japanese-reading: 日本語の単語用のセグメンター (読み取りの基本形)
  • thai: タイ語の単語用のセグメンター

デフォルト: なし

Knowledge bases

(stoplist)

string

使用する知識ベース・セット (事前定義またはユーザー定義) を指定します。個々の知識ベースの名前は + で区切ります。 すべてのストップワード・ルールがこのリストで左から右への順序で処理され、その後に他のすべてのルールがこのリストで左から右への順序で処理されます。 同じ単語が複数の知識ベースに出現する場合、最後にリストされた知識ベースが優先されますが、ストップワード・ルール以外のすべてのルールが、すべてのストップワード・ルールより優先されます。注: このオプションは、「コンポーネント (Components)」タブの「language.main」オプションが「カスタム」に設定されている場合にのみ使用できます。例えば、これが「english+german」に設定されている場合、両方の知識ベースに die に関するルールが含まれます。そのため、それらが同じタイプであれば、ドイツ語の知識ベースが優先されます。 ただし、これはストップワード・ルールですが、英語のルールは書き換えルールであるため、英語の知識ベースの書き換えルールが優先され、ストップワード・ルールは除去されます。 選択可能なドメイン知識ベースは以下のとおりです。

  • ads
  • business
  • chemistry
  • computers
  • core
  • drugs
  • email
  • government
  • medicine
  • news
  • patents
  • physics
  • science
  • shopping
  • support
  • web

選択可能な言語知識ベースは以下のとおりです。

  • catalan
  • danish
  • dutch
  • english
  • english-multi
  • farsi
  • french
  • french-multi
  • german
  • hebrew
  • italian
  • korean
  • polish
  • portuguese
  • spanish
  • swedish

デフォルト: core+web+english+custom

Maximum number of words in a phrase

(phrase-words)

number

クラスタリング用に選択する句には、最大 n 個の単語 (最大数は 16 個) を含めることができます。 n を 1 以下に設定すると、Watson Explorer Engine は単一の単語のみに基づいてクラスター化を行います。

デフォルト: 6

Enable automatic phrase rewriting

(auto-rewriting)

boolean

句の自動書き換えシステムを有効にします。これは、同じ概念を表す複数の形式を検出し、それらを統合します。

デフォルト: true

Allow indexing interleaved with loading

(index-on-the-fly)

boolean

文書を受信したときに索引付けを行うかどうかを制御します。コレクションのクラスター化を行わない場合に処理時間を節約するには、このオプションを無効にします。

デフォルト: true

Minimum cluster size

(min-cluster-size)

number

この数以上の文書を含むクラスターのみを保持します。これより小さいクラスターは削除され、文書は「Other Topics」ノードに追加されます。 「Other Topics」を無効にするには、1 に設定します。

デフォルト: 2

Maximum cluster depth

(cluster-depth)

number

クラスタリングの上位 n 個のレベルのみを保持します。ルートはレベル 0、生成されるアノテーションの最上位は 1、などとなります。-1 に設定すると、無制限になります。

デフォルト: -1

Allow documents to be duplicated

(doc-duplication)

boolean

文書がクラスタリング内の複数のノードの下に存在することを許可します。false に設定すると、各文書は単一のクラスター内に配置されます。 true に設定すると、各文書を 1 つ以上のクラスター内に配置できます。

デフォルト: true

Near duplicates max distance

(near-duplicates)

number

x (内容が異なる部分の割合) よりも相互の類似割合が高い文書は重複と見なされます。 重複文書の 1 つのインスタンスのみが出力に表示されます (それぞれの重複の複数の「ソース」リンクが示されます)。 このオプションを 1 に設定すると、すべての文書が相互に重複となります。0 に設定すると、まったく同じか、ほぼ同じである索引付きテキストを含む文書のみが重複としてマーク付けされます。このオプションを -1 に設定すると、近似重複の検出が完全に無効になります (相互に近似重複となる文書はなくなります)。

デフォルト: 0.100000

Key duplicates elimination

(key-duplicates)

boolean

true にすると、同じ「キー」属性を持つ文書は重複と見なされ、スコアが最高の文書のみがクラスター化されます。

デフォルト: true

XPath expression for selecting between duplicates

(key-duplicates-score-xpath)

string

同じ「キー」属性を持つ文書のスコアを設定する方法を定義する XPath 式を指定します。 デフォルトの動作では、各スコアが現在のスコアに追加されます。

デフォルト: $current-score + $added-score

Require that clusters be contrasted with their parent

(contrast-parent)

boolean

このオプションは、大規模クラスターの大部分がその親クラスターと重複する状態にならないようにします。

デフォルト: true

Enable treating phrases as a bag of words

(phrase-bag-of-words)

boolean

例えば、このオプションをオンにすると、「document clustering」と「clustering document」は一致となります。

デフォルト: true

Maximum size (MB) of internal cache

(cluster-cache-size)

number

内部ソリューション・キャッシュとして使用するメモリーの最大量。このデフォルト値は、ほとんどのアプリケーションに適切な値です。 メモリー量が限られている場合や要求量が非常に多い場合は、この値を低くすることでメモリーを節約することが適切と考えられます。

デフォルト: 50

Exponent for cluster label match score

(cluster-label-exponent)

number

文書のクラスター・ラベルへの一致に割り当てられるスコアに適用される指数。

デフォルト: 1.000000

Exponent for top-level ranking score

(cluster-label-query-exponent)

number

照会語との文書の一致の最上位ランキングに割り当てられるスコアに適用される指数。

デフォルト: 0.000000

Cluster weighting rank/score exponent

(rank-exp)

number

クラスターの加重に関する文書のランク/スコアに適用される指数。

デフォルト: 0.500000

List of sources for which to preserve ranking

(rank-preserve-ordering)

string

ソースのスペース区切りリスト。ツリーでは、これらのソースから返された結果の順序付けが保持されます。 1 つのソースのみが指定された場合、そのソースの結果が順序に従って表示されます。 複数のソースが指定された場合は、競合が発生する可能性がありますが、これはできる限り解決されます。 さらに、同じ優先順位の重複が検出された場合は、これらのスニペットにあるスニペットが優先されます。

If doing rank-preserve-ordering, do it also in clusters

(rank-preserve-ordering-in-clusters)

boolean

このオプションを有効にすると、ランク保存 (rank-preserve-ordering を参照) が各クラスターにも適用されます。

デフォルト: false

Number of annotation labels to generate

(nann)

number

デフォルトでは、Watson Explorer Engine は、1 つの句、または 1 つの単語と 1 つの句を含むラベルが生成されます。 このオプションを 1 に設定すると、1 つのラベルのみを生成できます。

デフォルト: 2

Flatten clusters of size at most this value

(nleaves)

number

クラスターに含まれる文書がこの数より少ない場合、個々の文書のみが含まれるようにクラスターがフラット化されます。

デフォルト: 4

Make word weights binary

(binary)

boolean

デフォルト: false

Kill clusters with all weight in one sibling

(one-branch)

boolean

デフォルト: true

Recluster other topics down to this level

(recluster-other-topics)

number

他のトピックを再クラスター化するレベルを指定します。値 -1 が指定された場合は、常に他のトピックがすべて再クラスター化されます。

デフォルト: -1

Always contrast the largest cluster first

(biggest-cluster-first)

boolean

デフォルト: false

Try to generate negative annotations

(not)

boolean

デフォルト: false

Exclude previously used annotation words

(exclude)

boolean

デフォルト: true

Show extra information in nodes

(info)

boolean

デフォルト: false

Pick number of annotation words automatically

(autoann)

boolean

デフォルト: false

Produce debug tree, not real tree

(debug-tree)

boolean

デフォルト: false

Weight of confidence interval

(alpha)

number

デフォルト: 3.500000

Probability for contrastor CI

(p)

number

デフォルト: 0.780000

Probability for contrastor CI

(p1)

number

デフォルト: 0.780000

Probability for contrastee CI

(p2)

number

デフォルト: 0.900000

Probability for contrastive scores CI

(p3)

number

デフォルト: 0.825000

Never do a cluster that can't beat this des

(bound-des)

number

デフォルト: 0.020000