TwoStep クラスター分析

「TwoStep クラスター分析」手続きは、通常は明らかにされることがない、データ・セット内の自然なグループ (またはクラスター) を明らかにすることを目的として設計された探索ツールです。この手続きで使用されるアルゴリズムには、従来のクラスター分析手法とは異なる以下の優れた特徴があります。

カテゴリー変数と連続型変数の処理: 変数が独立していると仮定することにより、カテゴリー変数と連続型変数に対して、多項分布と正規分布を結合したものを配置することができます。
クラスター数の自動選択: 異なるクラスター解の間でモデル選択基準の値を比較することにより、この手続きは、最適なクラスター数を自動的に判定することができます。
スケーラビリティー: レコードを要約するクラスター機能 (CF) ツリーを作成することにより、TwoStep アルゴリズムで大規模なデータ・ファイルを分析することができます。

例: 小売企業と、消費者製品を扱っている企業は、顧客の購買習慣、性別、年齢、収入レベルなどを記述するデータに対して、定期的にクラスタリング手法を適用します。これらの企業は、販売を拡大し、ブランド・ロイヤリティーを構築するために、マーケティング戦略と製品開発戦略を各消費者グループに合わせて調整します。

距離測度: このオプションにより、2 つのクラスター間の類似度を計算する方法を指定します。

対数尤度: この尤度測定により、変数の確率分布を求めます。連続型変数は正規分布しているものと仮定され、カテゴリー変数は多項分布しているものと仮定されます。すべての変数は独立しているものと仮定されます。
ユークリッド: ユークリッド測定は、2 つのクラスター間の「直線」距離です。このオプションは、すべての変数が連続型である場合のみ使用できます。

クラスター数: このオプションにより、クラスター数の判定方法を指定することができます。

自動的に判定: この手続きは、「クラスター化の基準」グループで指定された基準を使用して、「最適な」クラスター数を自動的に判定します。オプションで、手続きで考慮する必要があるクラスター数の最大値を正の整数で入力することができます。
固定値を指定: 解に含まれるクラスター数を固定値にすることができます。正整数を入力してください。

連続変数の数: このグループは、「オプション」ダイアログ・ボックスで指定された連続型変数の標準化仕様の集計を示します。詳しくは、TwoStep クラスター分析のオプションのトピックを参照してください。

クラスター化の基準: この選択項目により、自動クラスタリング・アルゴリズムでクラスター数を判定する方法を決定します。ベイズの情報量基準 (BIC) または赤池情報量基準 (AIC) のどちらかを指定することができます。

TwoStep クラスター分析データの考慮事項

データ: この手続きは、連続型変数とカテゴリー変数の両方で有効です。ケースはクラスター化されるオブジェクトを表し、変数はクラスター化の基準となる属性を表します。

ケースの並び順: クラスター機能ツリーと最終解は、ケースの並び順によって異なる可能性があることに注意してください。並び順の影響を最小限に抑えるには、ケースを無作為に並べます。得られた解の安定性を確認するために、異なる無作為の順序でソートしたケースを使用して複数の異なる解を取得することをお勧めします。ファイル・サイズが非常に大きいためにこの方法を実行するのが難しい場合は、異なる無作為の順序でソートされたケースのサンプルを使用して、何回かに分けて実行してください。

仮定: 尤度距離測度は、クラスター・モデル内の変数が独立しているものと仮定します。さらに、各連続型変数には正規 (ガウス) 分布があると仮定し、各カテゴリー変数には多項分布があると仮定します。経験的内部検定は、この手続きが独立の仮定と分布の仮定の両方の違反に対して堅牢であることを示していますが、これらの仮定がどの程度満たされているかについて注意する必要があります。

2 つの連続型変数の独立性を検定するには、「2 変量の相関分析」手続きを使用します。2 つのカテゴリー変数の独立性を検定するには、「クロス集計表」手続きを使用します。連続型変数とカテゴリー変数との間の独立性を検定するには、「グループの平均」手続きを使用します。連続型変数の正規性を検定するには、「探索的分析」手続きを使用します。指定された多項分布がカテゴリー変数にあるかどうかを検定するには、「カイ 2 乗検定」手続きを使用します。

TwoStep クラスター分析を実行するには

この機能を使用するには、Statistics Base Edition が必要です。

メニューから次の項目を選択します。
「分析」 > 「分類」 > 「TwoStep クラスター...」
1 つ以上のカテゴリー変数または連続型変数を選択します。

オプションとして、以下を行うことができます。

クラスターの作成基準を調整する。
ノイズ処理、メモリー割り当て、変数の標準化、クラスター・モデル入力の設定を選択する。
モデル・ビューアー出力を要求する。
モデルの結果を作業ファイルまたは外部 XML ファイルに保存する。

この手続きは、TWOSTEP CLUSTER コマンド・シンタックスを貼り付けます。