kmeansasnode プロパティー
K-Means は、最も一般的に使用されるクラスタリング アルゴリズムの 1 つです。 このアルゴリズムは、データ ポイントをクラスタリングして、事前定義された数のクラスタを作成します。 SPSS Modeler の K-Means-AS ノードは Spark で実装されています。 k-means アルゴリズムの詳細については、クラスタリング.1 を参照のこと
注意: K-Means-ASノードは、カテゴリー変数に対して自動的にワンホットエンコーディングを行います。
kmeansasnodeプロパティー |
値 | プロパティーの説明 |
|---|---|---|
roleUse |
string | 事前定義された役割を使用する場合はpredefinedを指定し、カスタム・フィールド割り当てを使用する場合はcustomを指定します。 デフォルトはpredefinedです。 |
autoModel |
ブール値 | 新しく生成されるスコアリング・フィールドにデフォルト名 ($S-prediction) を使用する場合はtrueを指定し、カスタム名を使用する場合はfalseを指定します。 デフォルトはtrueです。 |
features |
フィールド | roleUseプロパティーがcustomに設定されている場合の入力用フィールド名のリストです。 |
name |
string | autoModelプロパティーがfalseに設定されている場合の、新しく生成されたスコアリング・フィールドの名前です。 |
clustersNum |
整数 | 作成するクラスターの数。 デフォルトは5です。 |
initMode |
string | 初期化アルゴリズム。 可能な値はk-means||またはrandomです。 デフォルトはk-means||です。 |
initSteps |
整数 | initModeがk-means||に設定されている場合の初期化ステップの数です。 デフォルトは2です。 |
advancedSettings |
ブール値 | 以下の 4 つのプロパティーを使用可能にするには、trueを指定します。 デフォルトはfalseです。 |
maxIteration |
整数 | クラスタリングの最大反復数。 デフォルトは20です。 |
tolerance |
string | 反復を停止する許容度。 可能な設定は、1.0E-1、1.0E-2、...、1.0E-6です。デフォルトは1.0E-4です。 |
setSeed |
ブール値 | カスタム・ランダム・シードを使用するには、trueを指定します。 デフォルトはfalseです。 |
randomSeed |
整数 | setSeedプロパティーがtrueの場合のカスタム・ランダム・シードです。 |
displayGraph |
ブール値 | 出力にグラフを含める場合は、このオプションを選択します。 |
1 "クラスタリング - RDDベースのAPI" Apache Spark. MLlib: Main Guide. 2024年8月