クラスタリング設定

以下の表は、プロジェクトのクラスタリング設定の詳細を示します。各設定の名前、変数名、変数タイプ、説明、およびデフォルトが定義されています。

注: これらのパラメーターの構成は、ご使用の Watson™ Explorer Engine 検索アプリケーションで必要な場合も不要な場合もあります。ここにリストするパラメーターの説明を読んでも、ご使用の検索アプリケーションでそのパラメーターを使用する必要があるかどうかが明確に判断できない場合は、IBM サポートに連絡して確認してください。

表 1. クラスタリング設定
設定名	タイプ	説明
Number of words to index around a query term (proximity)	number	照会用語の n 個の範囲内にある単語のみを含みます。デフォルト: -1
Stemmers (stem)	string	使用するステミング・アルゴリズムを 1 つ以上指定します。複数のステマーは、間に + を書き込んで結合できます。例えば、dutch+french を指定すると、オランダ語のステマーが適用され、そのステマーによって単語がステムされなかった場合はフランス語のステマーが適用されます。ヘブライ語のステマーは、現在、初期プレリリース・バージョンとして提供されています。使用可能なステマーは以下のとおりです。 porterf danish dutch english finnish french german hebrew italian norwegian norwegian-depluralize porter1 porter2 portuguese russian spanish spanish-depluralize swedish turkish depluralize delanguage case external none デフォルト: delanguage+english+depluralize 字句解析言語ストリームを使用する場合は、`「none」`に設定します。字句解析ストリームを参照してください。
Explicit stream configuration (option stream)	string	XML として指定された、クラスタリング用のストリーム構成。例えば、この構成オプションを使用すると、<content-analytics-stream> を使用してクラスタリングを実行できます。このパラメーターは、ステマー、セグメンター、および知識ベースの各オプションをオーバーライドする場合は使用しないでください。デフォルト: 指定なし字句解析言語ストリームを使用する場合は、字句解析ストリームを参照してください。
Lexical Analysis log4jconfiguration (option stream-log4j-configuration)	string	字句解析ストリームを使用する場合に使用する、XML として指定するロギング (log4j) 構成。値の例については、「インデクサー (Indexer)」 > 「拡張」の下にある、検索コレクションのデフォルトの字句解析ロギング構成を参照してください。デフォルト: 指定なし
Lexical Analysis JVM options (option stream-jvm-options)	string	字句解析ストリームを使用する場合に使用する JVM 引数。値の例については、「インデクサー (Indexer)」 > 「拡張」の下にある、検索コレクションのデフォルトの JVM 引数を参照してください。デフォルト: 指定なし
Segmenter (segmenter)	enum	使用するセグメンターを指定します。セグメンターを使用して、セグメント化されていない言語 (例えば、日本語や中国語) の連続した言葉を個々のコンポーネント (単語) に分割します。 unigram: 個々の文字にセグメント化します。 unigram-of-bigram: 各単語の最初の文字をセグメント化するセグメンター bigram: オーバーラップする単語の対にセグメント化します。 mixed: すべての表意文字をユニグラムにセグメント化します。これは、中国語データおよび混合した CJK データで使用するのに適したセグメンターです。 japanese: 日本語の単語用のセグメンター (表層形の活用形) japanese-base: 日本語の単語用のセグメンター (表層形の基本形) japanese-reading: 日本語の単語用のセグメンター (読み取りの基本形) thai: タイ語の単語用のセグメンターデフォルト: なし
Knowledge bases (stoplist)	string	使用する知識ベース・セット (事前定義またはユーザー定義) を指定します。個々の知識ベースの名前は + で区切ります。すべてのストップワード・ルールがこのリストで左から右への順序で処理され、その後に他のすべてのルールがこのリストで左から右への順序で処理されます。同じ単語が複数の知識ベースに出現する場合、最後にリストされた知識ベースが優先されますが、ストップワード・ルール以外のすべてのルールが、すべてのストップワード・ルールより優先されます。注: このオプションは、「コンポーネント (Components)」タブの「language.main」オプションが「カスタム」に設定されている場合にのみ使用できます。例えば、これが「english+german」に設定されている場合、両方の知識ベースに die に関するルールが含まれます。そのため、それらが同じタイプであれば、ドイツ語の知識ベースが優先されます。ただし、これはストップワード・ルールですが、英語のルールは書き換えルールであるため、英語の知識ベースの書き換えルールが優先され、ストップワード・ルールは除去されます。選択可能なドメイン知識ベースは以下のとおりです。 ads business chemistry computers core drugs email government medicine news patents physics science shopping support web 選択可能な言語知識ベースは以下のとおりです。 catalan danish dutch english english-multi farsi french french-multi german hebrew italian korean polish portuguese spanish swedish デフォルト: core+web+english+custom
Maximum number of words in a phrase (phrase-words)	number	クラスタリング用に選択する句には、最大 n 個の単語 (最大数は 16 個) を含めることができます。 n を 1 以下に設定すると、Watson Explorer Engine は単一の単語のみに基づいてクラスター化を行います。デフォルト: 6
Enable automatic phrase rewriting (auto-rewriting)	boolean	句の自動書き換えシステムを有効にします。これは、同じ概念を表す複数の形式を検出し、それらを統合します。デフォルト: true
Allow indexing interleaved with loading (index-on-the-fly)	boolean	文書を受信したときに索引付けを行うかどうかを制御します。コレクションのクラスター化を行わない場合に処理時間を節約するには、このオプションを無効にします。デフォルト: true
Minimum cluster size (min-cluster-size)	number	この数以上の文書を含むクラスターのみを保持します。これより小さいクラスターは削除され、文書は「Other Topics」ノードに追加されます。「Other Topics」を無効にするには、1 に設定します。デフォルト: 2
Maximum cluster depth (cluster-depth)	number	クラスタリングの上位 n 個のレベルのみを保持します。ルートはレベル 0、生成されるアノテーションの最上位は 1、などとなります。-1 に設定すると、無制限になります。デフォルト: -1
Allow documents to be duplicated (doc-duplication)	boolean	文書がクラスタリング内の複数のノードの下に存在することを許可します。false に設定すると、各文書は単一のクラスター内に配置されます。 true に設定すると、各文書を 1 つ以上のクラスター内に配置できます。デフォルト: true
Near duplicates max distance (near-duplicates)	number	x (内容が異なる部分の割合) よりも相互の類似割合が高い文書は重複と見なされます。重複文書の 1 つのインスタンスのみが出力に表示されます (それぞれの重複の複数の「ソース」リンクが示されます)。このオプションを 1 に設定すると、すべての文書が相互に重複となります。0 に設定すると、まったく同じか、ほぼ同じである索引付きテキストを含む文書のみが重複としてマーク付けされます。このオプションを -1 に設定すると、近似重複の検出が完全に無効になります (相互に近似重複となる文書はなくなります)。デフォルト: 0.100000
Key duplicates elimination (key-duplicates)	boolean	true にすると、同じ「キー」属性を持つ文書は重複と見なされ、スコアが最高の文書のみがクラスター化されます。デフォルト: true
XPath expression for selecting between duplicates (key-duplicates-score-xpath)	string	同じ「キー」属性を持つ文書のスコアを設定する方法を定義する XPath 式を指定します。デフォルトの動作では、各スコアが現在のスコアに追加されます。デフォルト: $current-score + $added-score
Require that clusters be contrasted with their parent (contrast-parent)	boolean	このオプションは、大規模クラスターの大部分がその親クラスターと重複する状態にならないようにします。デフォルト: true
Enable treating phrases as a bag of words (phrase-bag-of-words)	boolean	例えば、このオプションをオンにすると、「document clustering」と「clustering document」は一致となります。デフォルト: true
Maximum size (MB) of internal cache (cluster-cache-size)	number	内部ソリューション・キャッシュとして使用するメモリーの最大量。このデフォルト値は、ほとんどのアプリケーションに適切な値です。メモリー量が限られている場合や要求量が非常に多い場合は、この値を低くすることでメモリーを節約することが適切と考えられます。デフォルト: 50
Exponent for cluster label match score (cluster-label-exponent)	number	文書のクラスター・ラベルへの一致に割り当てられるスコアに適用される指数。デフォルト: 1.000000
Exponent for top-level ranking score (cluster-label-query-exponent)	number	照会語との文書の一致の最上位ランキングに割り当てられるスコアに適用される指数。デフォルト: 0.000000
Cluster weighting rank/score exponent (rank-exp)	number	クラスターの加重に関する文書のランク/スコアに適用される指数。デフォルト: 0.500000
List of sources for which to preserve ranking (rank-preserve-ordering)	string	ソースのスペース区切りリスト。ツリーでは、これらのソースから返された結果の順序付けが保持されます。 1 つのソースのみが指定された場合、そのソースの結果が順序に従って表示されます。複数のソースが指定された場合は、競合が発生する可能性がありますが、これはできる限り解決されます。さらに、同じ優先順位の重複が検出された場合は、これらのスニペットにあるスニペットが優先されます。
If doing rank-preserve-ordering, do it also in clusters (rank-preserve-ordering-in-clusters)	boolean	このオプションを有効にすると、ランク保存 (rank-preserve-ordering を参照) が各クラスターにも適用されます。デフォルト: false
Number of annotation labels to generate (nann)	number	デフォルトでは、Watson Explorer Engine は、1 つの句、または 1 つの単語と 1 つの句を含むラベルが生成されます。このオプションを 1 に設定すると、1 つのラベルのみを生成できます。デフォルト: 2
Flatten clusters of size at most this value (nleaves)	number	クラスターに含まれる文書がこの数より少ない場合、個々の文書のみが含まれるようにクラスターがフラット化されます。デフォルト: 4
Make word weights binary (binary)	boolean	デフォルト: false
Kill clusters with all weight in one sibling (one-branch)	boolean	デフォルト: true
Recluster other topics down to this level (recluster-other-topics)	number	他のトピックを再クラスター化するレベルを指定します。値 -1 が指定された場合は、常に他のトピックがすべて再クラスター化されます。デフォルト: -1
Always contrast the largest cluster first (biggest-cluster-first)	boolean	デフォルト: false
Try to generate negative annotations (not)	boolean	デフォルト: false
Exclude previously used annotation words (exclude)	boolean	デフォルト: true
Show extra information in nodes (info)	boolean	デフォルト: false
Pick number of annotation words automatically (autoann)	boolean	デフォルト: false
Produce debug tree, not real tree (debug-tree)	boolean	デフォルト: false
Weight of confidence interval (alpha)	number	デフォルト: 3.500000
Probability for contrastor CI (p)	number	デフォルト: 0.780000
Probability for contrastor CI (p1)	number	デフォルト: 0.780000
Probability for contrastee CI (p2)	number	デフォルト: 0.900000
Probability for contrastive scores CI (p3)	number	デフォルト: 0.825000
Never do a cluster that can't beat this des (bound-des)	number	デフォルト: 0.020000