二阶聚类分析

“二阶聚类分析”过程是一个探索工具,用来揭示数据集中的自然分组(或聚类),如果不揭示,这些分组是不明显的。 此过程使用的算法有多个不错的特征使其区分于传统聚类技术:

  • 分类变量和连续变量的处理。 通过假设变量是独立的,可以假设分类变量和连续变量服从联合多项正态分布。
  • 自动选择聚类的数量。 通过跨不同的聚类解比较模型选择准则的值,此过程可以自动确定最优的聚类数。
  • 可伸缩性。 通过构造摘要记录的聚类特征 (CF) 树,二阶算法允许您分析大型数据文件。

示例。 零售和消费品公司定期将聚类技术应用于描述其客户的购买习惯、性别、年龄、收入水平等的数据。 这些公司针对每个消费者群体定制其市场营销和产品开发战略,以提高销售量并建立品牌忠诚度。

距离测量。 此选项确定如何计算两个聚类之间的相似性。

  • 对数似然。 该似然度量假设变量服从某种概率分布。 假设连续变量是正态分布,而假设分类变量是多项分布。 假设所有变量均是独立的。
  • 欧式。 欧几里德距离测量是两个聚类之间的“直线”距离。 它只能用于所有变量连续的情况。

聚类数。 此选项允许您指定如何确定聚类数。

  • 自动确定。 此过程将使用在“聚类准则”组中指定的准则,自动确定“最好”的聚类数。 或者,还可以输入一个正整数指定过程应考虑的最大聚类数。
  • 指定固定。 允许您固定解中的聚类数。 输入正整数。

连续变量计数。 此组提供了在“选项”对话框中指定的连续变量标准化的摘要。 请参阅主题 TwoStep 聚类分析选项 以获取更多信息。

聚类标准。 此选项确定自动聚类算法如何确定聚类数。 可以指定 Bayesian 信息准则 (BIC) 或 Akaike 信息准则 (AIC)。

二阶聚类分析数据注意事项

数据。 此过程既处理连续变量也处理分类变量。 个案代表要聚类的对象,变量代表聚类所基于的属性。

个案顺序。 注意,聚类特征树和最终解可能取决于个案顺序。 要使顺序的影响降至最低程度,可随机个案等级排序的顺序。 您可能想要通过以不同随机顺序排序的案例来得到多个不同的解,以验证给定解的稳定性。 如果由于文件非常大而无法获取多个不同的解,可使用以不同的随机顺序排序的个案样本运行多次。

假设。 似然距离测量假设聚类模型中的变量是独立的。 而且,假设每个连续变量具有正态(高斯)分布,假设每个分类变量具有多项分布。 经验内部检验表明,此过程对于违反独立性假设和分布假设均相当稳健,但您应尝试了解这些假设符合的程度。

使用 双变量相关性 过程来检验两个连续变量的独立性。 使用 交叉表 过程来检验两个分类变量的独立性。 使用 平均值 过程来检验连续变量与分类变量之间的独立性。 使用 探索 过程来检验连续变量的正态性。 使用 卡方检验 过程来检验分类变量是否具有指定的多项分布。

获取二阶聚类分析

此功能需要 Statistics Base 选项。

  1. 从菜单中选择:

    分析 > 分类 > TwoStep 聚类 ...

    注意: 红色标记的字段为必填项。 在所有必填字段中输入有效值后," 粘贴 "和 "确定 "按钮将被启用。
  2. 选择一个或多个分类变量或连续变量。

您可以选择性地执行下列操作:

  • 调整构造聚类的标准。
  • 选择噪声处理、内存分配、变量标准化和聚类模型输入的设置。
  • 请求模型查看器输出。
  • 将模型结果保存到工作文件或外部 XML 文件。

此过程将粘贴 TWOSTEP CLUSTER 命令语法。