階層クラスタ分析
この手続きでは、選択された特性に基づいて、ケース (または変数) が相対的に等質なグループの識別が試みられます。このとき使用されるアルゴリズムは、個々のクラスターの各ケース (または変数) から始めて、クラスターが 1 つになるまで複数のクラスターを結合します。 未調整の変数を分析するか、さまざまな標準化変換の中から選択することができます。 距離測度または類似度は、「近傍」手続きで生成されます。 統計量が段階ごとに表示されるので、最良の解を選択するのに役立ちます。
例。 同じような視聴者層を持つテレビ番組のグループを識別することはできるでしょうか? 階層クラスター分析では、視聴者の特性に基づいて、テレビ番組 (ケース) を同種のグループにクラスター化できます。 これを利用して、マーケティング用にセグメントを特定できます。 また、比較可能な都市を選択して、さまざまなマーケティング戦略を検定できるように、都市 (ケース) を等質グループにクラスター化することができます。
統計。 クラスター凝集経過工程、距離 (または類似度) 行列、および単一の解または解の範囲の所属クラスター。 プロット: デンドログラムおよびつららプロット。
階層クラスター分析データの考慮事項
データ。 変数には、量的データ、2 値データ、または度数データを使用できます。 スケーリングの違いはクラスター解 (複数可) に影響する場合があるので、変数のスケーリングは重要な問題です。 変数に大きなスケーリングの差がある場合 (ある変数はドルで測定され、別の変数は年で測定されるなど)、変数の標準化を検討する必要があります (「階層クラスター分析」手続きでは、この標準化を自動的に実行できます)。
ケースの順序。 同順位の距離または類似度が入力データ内に存在するか、結合中に更新されたクラスター内で発生する場合は、導き出されるクラスター解は、ファイル内のケースの順序に依存している可能性があります。 得られた解の安定性を確認するために、異なる無作為の順序でソートしたケースを使用して複数の異なる解を取得することをお勧めします。
仮定: 使用する距離測度、または類似度は、分析するデータに適していなければなりません (距離測度と類似度の選択について詳しくは、「近傍」手続きを参照してください)。 また、関連する変数をすべて分析に含める必要があります。 影響を与える変数を除外すると、誤った解が導かれる可能性があります。 階層クラスター分析は予備的な方法なので、結果は独立サンプルで確認するまで仮として扱うべきです。
階層クラスター分析を実行するには
この機能には Statistics Base オプションが必要です。
- メニューから次の項目を選択します。注: 赤で強調表示されている項目は必須です。 すべての必須項目に有効な値を入力すると、 [貼り付け ]ボタンと [OK] ボタンが有効になります。
- ケースをクラスター化する場合は、1 つ以上の数値変数を選択します。 変数をクラスター化する場合は、3 つ以上の数値変数を選択します。
オプションとして、ケースのラベル付けをする識別変数を選択できます。
この手続きは、 CLUSTER コマンド・シンタックスを貼り付けます。