K 平均值聚类分析

此过程使用可以处理大量个案的算法,根据选定的特征尝试对相对均一的个案组进行标识。 不过,该算法要求您指定聚类的个数。 如果知道,您可以指定初始聚类中心。 您可以选择对个案分类的两种方法之一,要么迭代地更新聚类中心,要么只进行分类。 可以保存聚类成员、距离信息和最终聚类中心。 还可以选择指定一个变量,使用该变量的值来标记个案输出。 您还可以请求分析方差 F 统计。 尽管这些统计是机会性的(此过程尝试形成不同的组),但统计的相对大小可提供有关各变量对组分离情况的贡献的信息。

示例。 哪些可识别的电视节目组能够吸引每个组内的相似观众? 通过 K 平均值聚类分析,您可以根据观看者的特征将电视节目(个案)聚类为 K 均一组。 此过程可用于识别市场分类以开展市场营销活动。 您还可以将城市(个案)聚类到均一组中,从而选择可比城市来检验各种市场营销策略。

统计。 完整解:初始聚类中心和 ANOVA 表。 每个个案:聚类信息以及与聚类中心的距离。

K 平均值聚类分析数据注意事项

数据。 变量应在区间或定比级别上是定量的。 如果您的变量是二分类变量或计数变量,那么使用“系统聚类分析”过程。

个案和初始聚类中心顺序。 用于选择初始聚类中心的缺省算法对个案顺序不是保持不变的。 “迭代”对话框中的使用运行平均值选项使结果解与个案顺序潜在相关,而不管初始聚类中心是如何选择的。 如果您使用这些方法种的任一种,那么可能要使用以不同的随机顺序排序的个案获取多个不同的解,以验证给出解的稳定性。 指定初始聚类中心且不使用使用运行平均值选项将避免与个案顺序相关的问题。 然而,如果从个案到聚类中心有固定距离,那么初始聚类中心的排序方式可能会影响解。 要获得给定解的稳定性,可以将分析的结果与初始中心值的不同排列相比较。

假设。 使用简单欧式距离计算距离。 如果想要使用其他距离或相似性测量,请使用“系统聚类分析”过程。 变量定标是一个重要的注意事项。 如果以不同的刻度测量变量(例如一个变量以美元为单位而另一个以年为单位),那么结果可能令人误解。 在此类情况下,应考虑在执行 K 平均值聚类分析之前对变量进行标准化(此任务可在“描述”过程中完成)。 此过程假设您已选择合适数目的聚类,且已包含所有相关变量。 如果您选择的聚类数量不合适或者遗漏了重要的变量,那么结果可能令人误解。

获取 K 平均值聚类分析

此功能需要 Statistics Base 选项。

  1. 从菜单中选择:

    分析 > 分类 > K-Means 聚类 ...

  2. 选择要在聚类分析中使用的变量。
  3. 指定聚类数目。 (聚类数目必须至少为 2,且不能大于数据文件中的个案数。)
  4. 选择迭代与分类或者仅分类
  5. 或者,选择标识变量标注个案。

此过程将粘贴 QUICK CLUSTER 命令语法。