用于二分类数据的系统聚类分析测量

以下非相似性测量可用于二元数据:

  • 欧几里得距离。 根据四重表计算 SQRT(b+c) 得到,其中 bc 代表对应于在一项上存在但在另一项上不存在的个案的对角线单元格。
  • 平方欧几里得距离。 计算非协调的个案的数目。 它的最小值为 0,没有上限。
  • 大小差。 非对称性指数。 其范围为 0 到 1。
  • 模式差异。 二进制数据的非相似性测量,范围从 0 到 1。 从四倍表计算为 bc/(n**2),其中 bc 表示与一个项上存在但不存在的观测值对应的对角线单元格,而 n 是观测值的总数。
  • 方差。 根据四重表计算 (b+c)/4n 得到,其中 bc 代表对应于在一项上存在但在另一项上不存在的个案的对角线单元格,n 为观测值的总数。 其范围为 0 到 1。
  • 离差。 此相似性指数的范围为 -1 到 1。
  • 形状。 此距离测量的范围为 0 到 1,它对不匹配项的非对称性加以惩罚。
  • 简单匹配。 这是匹配项与值总数的比率。 对匹配项和不匹配项给予相等的权重。
  • Phi 4-点相关。 此指数是 Pearson 相关性系数的二值模拟。 其范围为 -1 到 1。
  • Lambda。 此指数为 Goodman 和 Kruskal 的 lambda。 通过使用一个项来预测另一个项(双向预测),从而与误差降低比例 (PRE) 相对应。 值范围为 0 到 1。
  • Anderberg's D。 类似于 Lambda,此指数通过使用一个项来预测另一个项(双向预测),从而与实际误差降低相对应。 值范围为 0 到 1。
  • 骰子。 在此指数中,不考虑联合不存在项,对匹配项则给予双倍权重。 又称为 CzekanowskiSorensen 度量。
  • Hamann。 此指数为匹配数减去不匹配数,再除以总项数。 其范围为 -1 到 1。
  • Jaccard。 在此指数中,不考虑联合不存在项。 对匹配项和不匹配项给予相等的权重。 又称为相似率
  • Kulczynski 1。 这是联合存在项与所有不匹配项的比率。 此指数有下限 0,无上限。 理论上,没有不匹配项时此指数为不定值;但当其为不定值或大于 9999.999 时,本软件将赋予其任意值 9999.999。
  • Kulczynski 2。 此指数基于特征在一个项中存在的情况下也在另一个项中存在的条件概率。 将充当另一个项的预测值的各个项的各个值进行平均,以计算此值。
  • Lance 和 Williams。 根据四重表计算 (b+c)/(2a+b+c) 得到,其中 a 代表对应于两项上都存在的个案的单元格,bc 代表对应于在一项上存在但在另一项上不存在的个案的对角线单元格。 此度量的范围为 0 到 1。 (又称为 Bray-Curtis 非量度系数。)
  • Ochiai。 此指数是余弦相似性测量的二分类形式。 其范围为 0 到 1。
  • 罗杰斯和塔尼本 在此指数中,对不匹配项给予双倍权重。
  • Russel 和 Rao。 这是内(点)积的二分类版本。 对匹配项和不匹配项给予相等的权重。 这是二分类相似性数据的缺省度量。
  • Sokal 和 Sneath 1。 在此指数中,对匹配项给予双倍权重。
  • Sokal 和 Sneath 2。 在此指数中,对不匹配项给予双倍权重,并且不考虑联合不存在项。
  • Sokal 和 Sneath 3。 这是匹配项与不匹配项的比率。 此指数有下限 0,无上限。 理论上,没有不匹配项时此指数为不定值;但当其为不定值或大于 9999.999 时,本软件将赋予其任意值 9999.999。
  • Sokal 和 Sneath 4。 此指数基于一个项中的特征与另一个项中的值匹配的条件概率。 将充当另一个项的预测值的各个项的各个值进行平均,以计算此值。
  • Sokal 和 Sneath 5。 此指数是正匹配和负匹配的条件概率的几何平均值的平方。 它独立于项目编码。 其范围为 0 到 1。
  • Yule's Y。 此指数是 2 x 2 表的交比函数,独立于边际总计。 其范围为 -1 到 1。 又称为捆绑系数
  • Yule's Q。 此指数为 Goodman 和 Kruskal 的伽玛的特殊情况。 它是一个交比函数,独立于边际总计。 其范围为 -1 到 1。

您也可以更改“存在”和“不存在”字段以指定可指示某个特征存在或不存在的值。 该过程将忽略所有其他值。