K-Means クラスタリングの背景
アルゴリズムは、同じ基本プロセスを複数回反復して行うことにより動作します。
各トレーニング・インスタンスは、インスタンスおよびクラスター中心に適用される、指定された距離関数を基準にして最も近いクラスターに割り当てられます。すべてのクラスター中心は、特定のクラスターに割り当てられたインスタンスの平均属性値のベクトルとして再計算されます。クラスター中心は、k トレーニング・インスタンスをランダムに選別することにより初期化されます。ここで k は必要なクラスターの数です。
クラスターの割り当ての変更がまったくない場合、または変更の数がごくわずかの場合、反復プロセスは停止します。しかし、実際には反復の数を指定すれば十分であり、一般にその数は 3 から 36 の範囲です。
「distance=euclidean」を指定した場合、距離はユークリッド距離によって測定されます。「distance=norm_euclidean」を指定した場合、距離は正規化ユークリッド距離によって測定されます。正規化ユークリッド距離はスケール不変です。つまり、結果は使用される単位に依存しません。単位は、マイルと km、$ と €、°F と °C などです。