IBM Support

K-Means(大規模ファイルのクラスター分析)

How To


Summary

クラスター分析は似たような傾向のあるケース同士をグループ化してその説明をします。K-MeansクラスタリングはSPSS Modelerではそのまま「K-Means」と呼ばれておりますが、SPSS Statisticsでは「大規模ファイルのクラスタ分析」という名称で呼ばれております。

階層クラスター分析は50ケース未満程度の小さいデータに対してクラスターの成り立ちをひとつずつ説明しておりますが、K-Meansは各変数の値を多次元的にプロットした散布図から、座標上でランダムにピックアップしたケースの座標を「クラスタ中心」として、「距離が近いケース群でひとくくりにしてまとめたクラスタ」になります。変数は距離が計算できる数値変数である必要があり、クラスタ数は自ら指定する必要があります。K-Meansは階層クラスター分析と異なり、億単位、万単位のデータに対応しています。

Steps

1.K-Meansの概要

クラスター分析は似たような傾向のあるケース同士をグループ化してその説明をします。K-MeansクラスタリングはSPSS Modelerではそのまま「K-Means」と呼ばれておりますが、SPSS Statisticsでは「大規模ファイルのクラスタ分析」という名称で呼ばれております。SPSS StatisticsとSPSS Modelerとで仕様の違い(後述)があるので誤差が出る場合がありますが、実際の計算部分は「SPSS ModelerのK-Means」と「SPSS Statisticsの大規模ファイルのクラスタ分析」とは同じです

階層クラスター分析は50ケース未満程度の小さいデータに対してクラスターの成り立ちをひとつずつ説明しておりますが、K-Meansは各変数の値を多次元的にプロットした散布図から、座標上でランダムにピックアップしたケースの座標を「クラスタ中心」として、「距離が近いケース群でひとくくりにしてまとめたクラスタ」になります。変数は距離が計算できる数値変数である必要があり、クラスタ数は自ら指定する必要があります

まず全ケースの距離を算出して似たような位置にあるケースごとに指定した数のクラスターにまとめてしまうクラスター分析となります。初期クラスタ中心から反復計算を繰り返して最終クラスタ中心を算出して大雑把にクラスターを括るので、階層クラスター分析と異なり、億単位、万単位のデータに対応しています。

SPSS StatisticsとSPSS Modelerとで仕様の違いがあり、「Statisticsはデータの標準化をしない、Modelerはデータの標準化をする」「Statisticsはデータの先頭数ケースがクラスタ中心で、Modelerはデータの最初のケースがクラスタ中心で、そこからStatisticsもModelerも反復計算をして修正していく」「Statisticsは初期クラスタ中心を指定出来るが、Modelerは初期クラスタ中心を指定出来ない」「StatisticsとModelerとで欠損値の処理の仕方が少し異なる」「デフォルトの反復計算の回数がStatisticsとModeleで異なる」ということで結果が少しずれる場合がありますが大体同じ結果になりますので、ご了承ください。

2.対応アプリケーション

SPSS Statistics Base
SPSS Modeler

3.K-Meansの実行

サンプルデータセット:
Windows「C:\Program Files\IBM\SPSS\Statistics\26\Samples\Japanese\telco_extra.sav 」
MacOS「/Applications/IBM/SPSS/Statistics/26/Samples/Japanese/telco_extra.sav 」

data

分析内容:電話会社の顧客がどのオプション契約を結んでいるかをクラスターにする

操作手順:
1.SPSS Statisticsを起動し、「 telco_extra.sav 」を開きます。
2.メニューの[分析]→[分類]→[大規模ファイルのクラスタ]をクリックし、[大規模ファイルのクラスタ分析]ダイアログ左の変数リストにて適当な変数を右クリックし、ポップアップの[ファイル順]をクリックして変数の並び替えをします。並び変わった状態の変数リストにて変数「標準化log-長距離電話」から変数「標準化log-ワイヤレス」までと変数「標準化複数ライン」から変数「標準化電子請求」までを[変数]欄に投入します。[クラスタの個数]は「3」と入力してください。
3.引き続き[大規模ファイルのクラスタ分析]ダイアログにて[反復]をクリックし、[反復]ダイアログにて[最大反復回数]を「20」と入力して[続行]をクリックします。[大規模ファイルのクラスタ分析]ダイアログに戻って[オプション]をクリックし、[オプション]ダイアログにて[初期クラスタ中心][分散分析表][ケースに対するクラスタ情報]をチェックして、欠損値の設定を[ペアごとに除外](モデル化に使用されている変数が欠損値でなければ、このケースの他の変数が欠損値であっても分析に使用)を設定して[続行]をクリックします。
4.[大規模ファイルのクラスタ分析]ダイアログにて[OK]ボタンをクリックして実行します。

[所属クラスタ]テーブルで分析元データの各ケースがどのクラスタに入るか確認することができます。

[最終クラスタ中心]テーブルで各クラスタの特徴を把握できます。全変数が標準化されているので値の大小で判断できます。クラスタ1はどのオプションにも料金を支払うクラスター、クラスタ2は通話に対するオプションには料金を払うがネットや電子請求など通話以外は支払わないクラスター、クラスタ3はどのオプションにも料金を支払わないクラスターと判断できます。

 

(他の分析例)コンビニエンスストアの購入履歴を元に「食事組」「コンビニ払い組」などのような同じような購買傾向のあるクラスターにまとめる。
動画配信サービスやケーブルテレビのログをもとに「動物や自然を見る人」「和洋を問わず歴史ドラマを見る人」「アニメとアイドルを見る人」「もう野球しか見ない人」などのような同じような視聴傾向のあるクラスターにまとめる。

Document Location

Worldwide

[{"Business Unit":{"code":"BU059","label":"IBM Software w\/o TPS"},"Product":{"code":"SSLVMB","label":"IBM SPSS Statistics"},"ARM Category":[],"Platform":[{"code":"PF025","label":"Platform Independent"}],"Version":"All Version(s)","Line of Business":{"code":"LOB10","label":"Data and AI"}}]

Document Information

Modified date:
14 July 2020

UID

ibm16246653