クラスタリング設定
以下の表は、プロジェクトのクラスタリング設定の詳細を示します。各設定の名前、変数名、変数タイプ、説明、およびデフォルトが定義されています。
| 設定名 | タイプ | 説明 |
|---|---|---|
|
Number of words to index around a query term (proximity) |
number |
照会用語の n 個の範囲内にある単語のみを含みます。 デフォルト: -1 |
|
Stemmers (stem) |
string |
使用するステミング・アルゴリズムを 1 つ以上指定します。複数のステマーは、間に + を書き込んで結合できます。 例えば、dutch+french を指定すると、オランダ語のステマーが適用され、そのステマーによって単語がステムされなかった場合はフランス語のステマーが適用されます。 ヘブライ語のステマーは、現在、初期プレリリース・バージョンとして提供されています。 使用可能なステマーは以下のとおりです。
デフォルト: delanguage+english+depluralize 字句解析言語ストリームを使用する場合は、「none」に設定します。字句解析ストリームを参照してください。 |
|
Explicit stream configuration (option stream) |
string |
XML として指定された、クラスタリング用のストリーム構成。例えば、この構成オプションを使用すると、<content-analytics-stream> を使用してクラスタリングを実行できます。このパラメーターは、ステマー、セグメンター、および知識ベースの各オプションをオーバーライドする場合は使用しないでください。 デフォルト: 指定なし 字句解析言語ストリームを使用する場合は、字句解析ストリームを参照してください。 |
|
Lexical Analysis log4jconfiguration (option stream-log4j-configuration) |
string |
字句解析ストリームを使用する場合に使用する、XML として指定するロギング (log4j) 構成。 値の例については、の下にある、検索コレクションのデフォルトの字句解析ロギング構成を参照してください。 デフォルト: 指定なし |
|
Lexical Analysis JVM options (option stream-jvm-options) |
string |
字句解析ストリームを使用する場合に使用する JVM 引数。値の例については、の下にある、検索コレクションのデフォルトの JVM 引数を参照してください。 デフォルト: 指定なし |
|
Segmenter (segmenter) |
enum |
使用するセグメンターを指定します。セグメンターを使用して、セグメント化されていない言語 (例えば、日本語や中国語) の連続した言葉を個々のコンポーネント (単語) に分割します。
デフォルト: なし |
|
Knowledge bases (stoplist) |
string |
使用する知識ベース・セット (事前定義またはユーザー定義) を指定します。個々の知識ベースの名前は + で区切ります。 すべてのストップワード・ルールがこのリストで左から右への順序で処理され、その後に他のすべてのルールがこのリストで左から右への順序で処理されます。 同じ単語が複数の知識ベースに出現する場合、最後にリストされた知識ベースが優先されますが、ストップワード・ルール以外のすべてのルールが、すべてのストップワード・ルールより優先されます。注: このオプションは、「コンポーネント (Components)」タブの「language.main」オプションが「カスタム」に設定されている場合にのみ使用できます。例えば、これが「english+german」に設定されている場合、両方の知識ベースに die に関するルールが含まれます。そのため、それらが同じタイプであれば、ドイツ語の知識ベースが優先されます。 ただし、これはストップワード・ルールですが、英語のルールは書き換えルールであるため、英語の知識ベースの書き換えルールが優先され、ストップワード・ルールは除去されます。 選択可能なドメイン知識ベースは以下のとおりです。
選択可能な言語知識ベースは以下のとおりです。
デフォルト: core+web+english+custom |
|
Maximum number of words in a phrase (phrase-words) |
number |
クラスタリング用に選択する句には、最大 n 個の単語 (最大数は 16 個) を含めることができます。 n を 1 以下に設定すると、Watson Explorer Engine は単一の単語のみに基づいてクラスター化を行います。 デフォルト: 6 |
|
Enable automatic phrase rewriting (auto-rewriting) |
boolean |
句の自動書き換えシステムを有効にします。これは、同じ概念を表す複数の形式を検出し、それらを統合します。 デフォルト: true |
|
Allow indexing interleaved with loading (index-on-the-fly) |
boolean |
文書を受信したときに索引付けを行うかどうかを制御します。コレクションのクラスター化を行わない場合に処理時間を節約するには、このオプションを無効にします。 デフォルト: true |
|
Minimum cluster size (min-cluster-size) |
number |
この数以上の文書を含むクラスターのみを保持します。これより小さいクラスターは削除され、文書は「Other Topics」ノードに追加されます。 「Other Topics」を無効にするには、1 に設定します。 デフォルト: 2 |
|
Maximum cluster depth (cluster-depth) |
number |
クラスタリングの上位 n 個のレベルのみを保持します。ルートはレベル 0、生成されるアノテーションの最上位は 1、などとなります。-1 に設定すると、無制限になります。 デフォルト: -1 |
|
Allow documents to be duplicated (doc-duplication) |
boolean |
文書がクラスタリング内の複数のノードの下に存在することを許可します。false に設定すると、各文書は単一のクラスター内に配置されます。 true に設定すると、各文書を 1 つ以上のクラスター内に配置できます。 デフォルト: true |
|
Near duplicates max distance (near-duplicates) |
number |
x (内容が異なる部分の割合) よりも相互の類似割合が高い文書は重複と見なされます。 重複文書の 1 つのインスタンスのみが出力に表示されます (それぞれの重複の複数の「ソース」リンクが示されます)。 このオプションを 1 に設定すると、すべての文書が相互に重複となります。0 に設定すると、まったく同じか、ほぼ同じである索引付きテキストを含む文書のみが重複としてマーク付けされます。このオプションを -1 に設定すると、近似重複の検出が完全に無効になります (相互に近似重複となる文書はなくなります)。 デフォルト: 0.100000 |
|
Key duplicates elimination (key-duplicates) |
boolean |
true にすると、同じ「キー」属性を持つ文書は重複と見なされ、スコアが最高の文書のみがクラスター化されます。 デフォルト: true |
|
XPath expression for selecting between duplicates (key-duplicates-score-xpath) |
string |
同じ「キー」属性を持つ文書のスコアを設定する方法を定義する XPath 式を指定します。 デフォルトの動作では、各スコアが現在のスコアに追加されます。 デフォルト: $current-score + $added-score |
|
Require that clusters be contrasted with their parent (contrast-parent) |
boolean |
このオプションは、大規模クラスターの大部分がその親クラスターと重複する状態にならないようにします。 デフォルト: true |
|
Enable treating phrases as a bag of words (phrase-bag-of-words) |
boolean |
例えば、このオプションをオンにすると、「document clustering」と「clustering document」は一致となります。 デフォルト: true |
|
Maximum size (MB) of internal cache (cluster-cache-size) |
number |
内部ソリューション・キャッシュとして使用するメモリーの最大量。このデフォルト値は、ほとんどのアプリケーションに適切な値です。 メモリー量が限られている場合や要求量が非常に多い場合は、この値を低くすることでメモリーを節約することが適切と考えられます。 デフォルト: 50 |
|
Exponent for cluster label match score (cluster-label-exponent) |
number |
文書のクラスター・ラベルへの一致に割り当てられるスコアに適用される指数。 デフォルト: 1.000000 |
|
Exponent for top-level ranking score (cluster-label-query-exponent) |
number |
照会語との文書の一致の最上位ランキングに割り当てられるスコアに適用される指数。 デフォルト: 0.000000 |
|
Cluster weighting rank/score exponent (rank-exp) |
number |
クラスターの加重に関する文書のランク/スコアに適用される指数。 デフォルト: 0.500000 |
|
List of sources for which to preserve ranking (rank-preserve-ordering) |
string |
ソースのスペース区切りリスト。ツリーでは、これらのソースから返された結果の順序付けが保持されます。 1 つのソースのみが指定された場合、そのソースの結果が順序に従って表示されます。 複数のソースが指定された場合は、競合が発生する可能性がありますが、これはできる限り解決されます。 さらに、同じ優先順位の重複が検出された場合は、これらのスニペットにあるスニペットが優先されます。 |
|
If doing rank-preserve-ordering, do it also in clusters (rank-preserve-ordering-in-clusters) |
boolean |
このオプションを有効にすると、ランク保存 (rank-preserve-ordering を参照) が各クラスターにも適用されます。 デフォルト: false |
|
Number of annotation labels to generate (nann) |
number |
デフォルトでは、Watson Explorer Engine は、1 つの句、または 1 つの単語と 1 つの句を含むラベルが生成されます。 このオプションを 1 に設定すると、1 つのラベルのみを生成できます。 デフォルト: 2 |
|
Flatten clusters of size at most this value (nleaves) |
number |
クラスターに含まれる文書がこの数より少ない場合、個々の文書のみが含まれるようにクラスターがフラット化されます。 デフォルト: 4 |
|
Make word weights binary (binary) |
boolean |
デフォルト: false |
|
Kill clusters with all weight in one sibling (one-branch) |
boolean |
デフォルト: true |
|
Recluster other topics down to this level (recluster-other-topics) |
number |
他のトピックを再クラスター化するレベルを指定します。値 -1 が指定された場合は、常に他のトピックがすべて再クラスター化されます。 デフォルト: -1 |
|
Always contrast the largest cluster first (biggest-cluster-first) |
boolean |
デフォルト: false |
|
Try to generate negative annotations (not) |
boolean |
デフォルト: false |
|
Exclude previously used annotation words (exclude) |
boolean |
デフォルト: true |
|
Show extra information in nodes (info) |
boolean |
デフォルト: false |
|
Pick number of annotation words automatically (autoann) |
boolean |
デフォルト: false |
|
Produce debug tree, not real tree (debug-tree) |
boolean |
デフォルト: false |
|
Weight of confidence interval (alpha) |
number |
デフォルト: 3.500000 |
|
Probability for contrastor CI (p) |
number |
デフォルト: 0.780000 |
|
Probability for contrastor CI (p1) |
number |
デフォルト: 0.780000 |
|
Probability for contrastee CI (p2) |
number |
デフォルト: 0.900000 |
|
Probability for contrastive scores CI (p3) |
number |
デフォルト: 0.825000 |
|
Never do a cluster that can't beat this des (bound-des) |
number |
デフォルト: 0.020000 |