选择聚类过程

可以使用二阶、系统或 K 均值聚类分析过程来执行聚类分析。 每个过程使用不同的算法来创建聚类,并且每个过程所具有的选项在其他过程中不可用。

TwoStep 聚类分析。 对很多应用而言,二阶聚类分析过程是首选的方法。 它提供以下独特的功能:

  • 除了用于在聚类模型之间进行选择的测量之外,还可自动选择最佳聚类数目。
  • 能够同时根据分类和连续变量创建聚类模型。
  • 能够将聚类模型保存到外部 XML 文件,然后读取该文件并使用较新的数据来更新聚类模型。

此外,“二阶聚类分析”过程可以分析大数据文件。

分层聚类分析。 系统聚类分析过程只限于较小的数据文件(要聚类的对象只有数百个),但具有以下独特功能:

  • 能够对个案或变量进行聚类。
  • 能够计算可能解的范围,并为其中的每一个解保存聚类成员。
  • 有多种方法可用于聚类形成、变量转换以及度量各聚类之间的非相似性。

只要所有变量的类型相同,“系统聚类分析”过程就可以分析区间(连续)、计数或二值变量。

K 均值聚类分析。 K 均值聚类分析过程只限于连续数据,要求预先指定聚类数目,但它具有以下独特的功能:

  • 能够保存每个对象与聚类中心之间的距离。
  • 能够从外部 IBM® SPSS® Statistics 文件读取初始聚类中心并将最终聚类中心保存到该文件。

此外,K 均值聚类分析过程可以分析大数据文件。