“二阶聚类”节点
“二阶聚类”节点提供一种形式的聚类分析。它可以用于在最初不知道有哪些组时,将数据集聚类为不同的组。与 Kohonen 节点和 K-Means 节点一样,“二阶聚类”模型也不使用目标字段。二阶聚类模型试图揭示输入字段集的模式而不是预测结果。对记录进行分组,以使一个组或聚类中的记录彼此相似,而不同组中的记录则互不相同。
二阶聚类是一种分两步进行聚类的方法。第一步,完成简单数据处理,这个过程将原始输入数据压缩为多个易处理的子聚类。第二步,采用分层聚类方法逐渐将这些子聚类合并成越来越大的聚类,不需要再次进行数据处理。分层聚类的优点在于不需要事先选择聚类数。许多分层聚类方法刚开始都将单个记录作为最初的聚类,然后递归合并这些记录以不断生成更大的聚类。虽然此类方法常因数据数量巨大而失败,但二阶聚类的初始预聚类使评分层聚类即使数据集巨大速度也非常快。
注: 得到的模型一定程度上取决于训练数据的顺序。重排数据顺序并重新构建模型有可能得到不同的聚类模型。
需求。要训练“二阶聚类”模型,您需要一个或多个角色设置为输入的字段。角色设置为目标、两者或无的字段将被忽略。二阶聚类算法不处理缺失值。构建模型时将忽略任意输入字段包含空白的记录。
优势。“二阶聚类”可以处理混合字段类型并能有效处理大型数据集。它还能检验多种聚类解决方案并选择其中最有效的一种,因此不必知道开始时应有多少个聚类。可将“二阶聚类”设置为自动排除离群值或能对结果造成损害的极其异常情况。
IBM® SPSS® Modeler 有两个不同版本的“二阶聚类”节点:
- 二阶聚类是在 IBM SPSS Modeler Server 上运行的传统节点。
- 连接到 IBM SPSS Analytic Server 之后,可以运行二阶 AS 聚类。