二進位資料的測量 (PROXIMITIES 指令)
不同的二進位測量會強調二進位值集之間關係的不同層面。 不過,所有測量都以相同方式指定。 每一個測量都有兩個選用的整數值參數: P (呈現) 及 np (不呈現)。
- 如果同時指定了這兩個參數,則
PROXIMITIES會使用第一個參數的值作為性質存在的指示器,而PROXIMITIES會使用第二個參數的值作為性質不存在的指示器。PROXIMITIES會跳過所有其他值。 - 如果僅指定第一個參數,則
PROXIMITIES會使用該值來表示存在,並使用所有其他值來表示不存在。 - 如果未指定任何參數,
PROXIMITIES會假設 1 表示存在, 0 表示不存在。
使用每個項目 (觀察值或變數) 內是否存在的指標, PROXIMITIES 會為每個項目配對建構 2 × 2 列聯表,並使用此表格來計算配對的近似性測量。
| 存在項目 2 性質 | 專案 2 性質缺席 | |
|---|---|---|
| 存在項目 1 性質 | A | b |
| 已缺席的項目 1 性質 | c | d |
PROXIMITIES 會從 a、 b、 c及 d的值計算所有二進位測量。 這些值會在變數 (當項目是觀察值時) 或觀察值 (當項目是變數時) 之間進行合併。 例如,如果變數 V、 W、 X、 Y、 Z 具有值 0、1、1、0、1 表示觀察值 1 ,且具有值 0、1、1、0、 0 表示觀察值 2 (其中 1 表示存在, 0 表示不存在) ,列聯表如下:
觀察值 1 性質存在。 2
觀察值 2 性質已缺席。 0
列聯表指出兩個觀察值皆適用於兩個變數 (W 和 X) ,兩個觀察值皆不適用於兩個變數 (V 和 Y) ,而觀察值 1 則存在,而觀察值 2 則不適用於一個變數 (Z)。 沒有觀察值 1 不存在且觀察值 2 存在的變數。
可用的二進位測量包括相符係數、條件式機率、可預測性測量及其他測量。
符合係數。 下表顯示 PROXIMITIES 相符係數的分類架構。 在此架構中, 相符項 是聯合存在 (列聯表中的值 a ) 或聯合不存在 (值 d)。 不相符 在數字中等於值 b 加值 c。 相符項和非相符項可以平均加權,也可以不加權。 這三個係數 JACCARD、 DICE和 SS2 與 SM、 SS1和 RT單調相關。 表格中的所有係數都是相似性量數,除了K1 和 SS3 之外的所有係數都是從 0 到 1 的範圍。 K1 和 SS3 的最小值為 0 ,沒有上限。
| 從分子中排除的聯合缺席 | 分子中包含聯合缺席 | |
|---|---|---|
| 分母中包含的所有相符項,相符項與非相符項的加權相等 | RR | SM |
| 分母中包含的所有相符項,相符項的加倍加權 | SS1 | |
| 分母中包含的所有相符項,非相符項的加倍加權 | RT | |
| 從分母中排除的聯合不出現的情況,符合及不符合的加權相等 | jaccard | |
| 從分母中排除聯合不出現的情況,相符項加倍加權 | 骰子 | |
| 聯合不出現的情況,從分母中排除,非相符項加倍加權 | SS2 | |
| 從分母中排除的所有相符項,相符項與非相符項的加權相等 | K1 | SS3 |
RR [(p [, np])]. Russell 及 Rao 相似性量數。 此測量是二進位點積。
SM [(p [, np])]. 簡式配對相似性量數。 此測量是相符項數目與性質總數的比例。
JACCARD [(p [, np])]. Jaccard 相似性測量。 此測量也稱為 相似性比例。
DICE [(p [, np])]. 骰子 (或 Czekanowski 或 Sorenson) 相似性量數。
SS1[(p[, np])]. Sokal 及 Sneath 相似性量數 1。
RT [(p [, np])]. Rogers 和 Tanimoto 相似性量數。
SS2[(p[, np])]. Sokal 及 Sneath 相似性量數 2。
K1[(p[, np])]. Kulczynski 相似性量數 1。 此測量的最小值為 0 ,沒有上限。 當沒有非相符項 (b= 0 及 c= 0) 時,未定義測量。
SS3[(p[, np])]. Sokal 及 Sneath 相似性量數 3。 此測量的最小值為 0 ,沒有上限。 當沒有非相符項 (b= 0 及 c= 0) 時,未定義測量。
條件機率。 下列二元測量會產生可依條件式機率解譯的值。 這三種測量都是相似性測量。
K2[(p[, np])]. Kulczynski 相似性量數 2。 此測量會產生特徵出現在某個項目中的平均條件機率,而該特徵出現在另一個項目中。 此測量是充當預測值之兩個項目的平均值。 測量的範圍為 0 到 1。
SS4[(p[, np])]. Sokal 及 Sneath 相似性量數 4。 此測量會產生一個項目的特性與另一個項目的特性處於相同狀態 (存在或不存在) 的條件機率。 此測量是充當預測值之兩個項目的平均值。 測量的範圍為 0 到 1。
HAMANN [(p [, np])]. Hamann 相似性量數。 此量數提供特徵在兩個項目中具有相同狀態的機率 (在兩個項目中同時存在或在兩個項目中不存在) ,減去特徵在兩個項目中具有不同狀態 (在一個項目中存在且在另一個項目中不存在) 的機率。 HAMANN 的範圍為 -1 至 + 1 ,且與 SM、 SS1及 RT單調相關。
可預測性測量。 下列四個二元測量會評量項目之間的關聯,作為給定另一個項目之一個項目的可預測性。 這四個測量結果都有相似性。
Lambda [(p [, np])]. Goodman 和 Kruskal lambda (相似性)。 此係數會根據另一個項目上的狀態,評量其中一個項目 (存在或不存在) 的性質狀態可預測性。 具體而言,當預測方向具有同等重要性時, LAMBDA 會使用一個項目來預測另一個項目,以測量比例誤差縮減。 LAMBDA 的範圍為 0 到 1。
D [(p [, np])]. Anderberg 's D (相似性)。 此係數會根據另一個項目上的狀態,評量其中一個項目 (存在或不存在) 的性質狀態可預測性。 D 會測量使用一個項目來預測另一個項目時誤差機率的實際縮減。 D 的範圍是 0 到 1。
Y [(p [, np])]. Yule 's Y 綁紮係數 (相似性)。 此量數是 2 × 2 表格的交叉比例函數,且具有 -1 到 + 1 的範圍。
Q [(p [, np])]. Yule 's 問 (相似性)。 此量數為 Goodman 及 Kruskal 序數量數的 2 × 2 版本 gamma。 與 Yule Y類似, Q 是 2 × 2 表格的交叉比函數,其範圍為 − 1 到 + 1。
其他二進位測量。 PROXIMITIES 中可用的其餘二元測量是連續變數之關聯測量的二元對等項目測量,或項目之間關係之特殊內容的測量。
OCHIAI [(p [, np])]. Ochiai 相似性量數。 此量數是餘弦的二進位形式,範圍為 0 到 1。
SS5[(p[, np])]. Sokal 及 Sneath 相似性量數 5。 範圍是 0 到 1。
PHI [(p [, np])]. 四重點相關性 (相似性)。 此量數是皮爾遜積矩相關係數的二元形式。
BEUCLID [(p [, np])]. 二元歐幾里得距離。 此測量是距離測量。 它的最小值為 0,但無最大值上限。
BSEUCLID [(p [, np])]. 二元歐基里得直線距離平方。 此測量是距離測量。 它的最小值為 0,但無最大值上限。
SIZE [(p [, np])]. 大小差異。 此量數是一種相異性量數,其最小值為 0 ,沒有上限。
PATTERN [(p [, np])]. 型樣差異。 此量數是相異性量數。 範圍是 0 到 1。
BShape [(p [, np])]. 二進位形狀差異。 此相異性量數沒有上限或下限。
DISPER [(p [, np])]. 離散相似性量數。 範圍是 -1 到 + 1。
VARIANCE [(p [, np])]. 變異相異性量數。 此測量的最小值為 0 ,沒有上限。
BLWMN [(p [, np])]. 二進位 Lance-and-Williams 非度量相異性量數。 此測量也稱為 Bray-Curtis 非度量係數。 範圍是 0 到 1。
範例
PROXIMITIES A B C
/MEASURE=RR(1,2).
MEASURE會從資料中計算 Russell 和 Rao 係數,其中 1 表示存在特性, 2 表示不存在。 會忽略其他值。
範例
PROXIMITIES A B C
/MEASURE=SM(2).
MEASURE會從資料中計算簡式相符係數,其中 2 表示存在,而所有其他值表示不存在。