概要 (QUICK CLUSTER コマンド)

必要な数のクラスターが判明すると、 QUICK CLUSTER はケースを効率的にクラスターにグループ化します。 CLUSTERほど柔軟ではありませんが、特にケース数が多い場合は、処理時間とメモリーの使用量がかなり少なくなります。

オプション

アルゴリズムの指定。 CRITERIA サブコマンドを使用して、形成するクラスターの数を指定できます。 また、 CRITERIA を使用して、初期クラスター選択およびクラスタリング・アルゴリズムを反復するための基準を制御することもできます。 METHOD サブコマンドを使用すると、クラスター中心の更新方法を指定することができ、非常に大きなデータ・ファイルを処理する場合にのみ分類を要求することができます。

初期クラスター中心。 デフォルトでは、 QUICK CLUSTER は初期クラスター中心を選択します。 あるいは、 INITIAL サブコマンドで初期中心を指定することもできます。 FILE サブコマンドを使用して、 IBM® SPSS® Statistics データ・ファイルから初期クラスター中心を読み取ることもできます。

オプションの出力。 PRINT サブコマンドを使用すると、各ケースの所属クラスターと、そのクラスター中心からの各ケースの距離を表示できます。 クラスター変数ごとに、最終クラスター中心間の距離とクラスター間の分散の 1 変量分析を表示することもできます。

結果の保存。 OUTFILE サブコマンドを使用して、最終クラスター中心をデータ・ファイルに書き込むことができます。 また、 SAVE サブコマンドを使用して、各ケースの所属クラスターと各ケースからその分類クラスター中心までの距離を新しい変数としてアクティブ・データ・セットに保存できます。

基本仕様

基本仕様は、変数のリストです。 デフォルトでは、 QUICK CLUSTER は 2 つのクラスターを生成します。 クラスター化変数の値に基づいて最も離れている 2 つのケースが初期クラスター中心として選択され、残りのケースが最も近い中心に割り当てられます。 新しいクラスター中心は、各クラスター内のすべてのケースの平均として計算されます。最小変更基準も最大反復基準も満たされない場合、すべてのケースが新しいクラスター中心に再び割り当てられます。 いずれかの基準が満たされると、反復が停止し、最終クラスター中心が更新され、各ケースの距離が計算されます。

サブコマンドの順序

  • 最初に変数リストを指定する必要があります。
  • サブコマンドは任意の順序で指定することができます。

操作

この手順には通常、次の 4 つのステップが含まれます

  • 最初に、要求されたクラスターごとに 1 つのケースを選択するか、指定された値を使用して、初期クラスター中心が選択されます。
  • 次に、各ケースが最も近いクラスター中心に割り当てられ、各クラスターの平均が計算されて新しいクラスター中心が取得されます。
  • 3 番目に、新しいクラスター中心と初期クラスター中心の間の最大変化量が計算されます。 最大変更が最小変更値より小さくなく、最大反復回数に達していない場合は、2 番目のステップが繰り返され、クラスター中心が更新されます。 最小変更基準または最大反復基準のいずれかが満たされると、プロセスは停止します。 結果のクラスタリング・センターは、最後のステップで分類センターとして使用されます。
  • 最後のステップでは、すべてのケースが最も近い分類センターに割り当てられます。 最終クラスター中心が更新され、各ケースの距離が計算されます。

ケースの数が多い場合は、すべてのケースを直接クラスタリングすることは現実的ではない可能性があります。 別の方法として、ケースのサンプルをクラスター化し、そのサンプルのクラスター解を使用してグループ全体を分類することもできます。 これは、以下の 2 つのフェーズで行うことができます。

  • 最初のフェーズでは、サンプルのクラスター解を取得します。 これには、 QUICK CLUSTER アルゴリズムの 4 つのステップがすべて含まれます。 次に、 OUTFILE は、最終クラスター中心をデータ・ファイルに保存します。
  • 2 番目のフェーズでは、データをパススルーする必要があるのは 1 つだけです。 最初に、 FILE サブコマンドは、最初の分析からの最終クラスター中心を含むファイルを指定します。 これらの最終クラスター中心は、2 番目の分析の初期クラスター中心として使用されます。 CLASSIFY は、クラスター化アルゴリズムの 2 番目と 3 番目のステップをスキップするために METHOD サブコマンドで指定され、ケースは初期クラスター中心を使用して分類されます。 すべてのケースが割り当てられると、クラスター中心が更新され、各ケースの距離が計算されます。 このフェーズは、最終クラスター中心が安定するまで繰り返すことができます。