距離の類似度の測定方法 (2 値データ)

2 値 データには以下の類似度測定方法を使用できます。

  • ルッセルとラオ これは、内 (点乗) 積の 2 値形式です。 マッチとノンマッチに同じ重み付けが与えられます。 2 値の類似データではこれがデフォルトです。
  • 単純マッチング。 これは、マッチの値の総数に対する比率です。 マッチとノンマッチに同じ重み付けが与えられます。
  • Jaccard。 これは、結合不在データを分析から除外するインデックスです。 マッチとノンマッチに同じ重み付けが与えられます。 類似度とも呼ばれます。
  • ダイス このインデックスでは、結合不在データを分析から除外し、マッチに 2 倍の重みが付けられます。 Czekanowski または Sorensen インデックスとも呼ばれます。
  • ロジャーズとタニコト このインデックスではノンマッチに 2 倍の重みが付けられます。
  • Sokal と Sneath 1 このインデックスではマッチに 2 倍の重みが付けられます。
  • Sokal と Sneath 2. このインデックスではノンマッチに 2 倍の重みが付けられ、結合不在データは分析から除外されます。
  • Sokal と Sneath 3 これは、ノンマッチに対するマッチ比率です。 このインデックスは下限値が 0 で、上限はありません。 理論上ノンマッチがない場合は不定ですが、この値が不定または 9999.999 を超過する場合、9999.999 という任意の値が割り当てられます。
  • Kulczynski 1 これは、すべてのノンマッチに対する結合存在データの比率です。 このインデックスは下限値が 0 で、上限はありません。 理論上ノンマッチがない場合は不定ですが、この値が不定または 9999.999 を超過する場合、9999.999 という任意の値が割り当てられます。
  • Kulczynski 2 このインデックスは、その特性が一方の項目に存在し、もう一方の項目にも存在するという条件付き確率に基づいています。 各項目で、もう片方の項目の予測値として作用する値を平均してこの値を計算します。
  • Sokal と Sneath 4 このインデックスは、一方の項目の特性がもう一方の項目の値に一致する条件付き確率に基づいています。 各項目で、もう片方の項目の予測値として作用する値を平均してこの値を計算します。
  • ハーマン このインデックスは、マッチの数からノンマッチの数を引き、項目の総数で割ったものです。 値の範囲は -1 から 1 です。
  • ラムダ。 このインデックスは Goodman と Kruskal のラムダです。 1 つの項目を使用してもう片方の項目を予測する (両方向の予測) 誤差減少率 (PRE) に対応しています。 値の範囲は 0 から 1 です。
  • Anderberg の D このインデックスはラムダと同じように、1 つの項目を使用してもう片方の項目を予測する (両方向の予測) 実際の誤差の縮小に対応しています。 値の範囲は 0 から 1 です。
  • Yule の Y このインデックスは 2 x 2 テーブルの交差率の関数で、周辺合計からは独立しています。 この範囲は −1 から 1 です。 連結関数としても知られています。
  • Yule の Q このインデックスは Goodman と Kruskal のガンマの特殊なケースです。 交差率の関数で、周辺合計からは独立しています。 この範囲は −1 から 1 です。
  • 落合。 このインデックスは、コサイン類似度の測定方法の 2 値形式です。 この範囲は 0 から 1 です。
  • Sokal と Sneath 5 このインデックスは、正のマッチと負のマッチの条件付き確率の 2 乗の幾何学平均値です。 項目コード化からは独立しています。 この範囲は 0 から 1 です。
  • ファイ 4 点相関。 このインデックスは、Pearson 相関係数の 2 値バージョンです。 この範囲は −1 から 1 です。
  • 散らばり。 このインデックスの範囲は -1 から 1 です

オプションとして、「存在する」と「存在しない」のフィールドを変更し、特性が存在するか存在しないかを示す値を指定できます。 このプロシージャーでは、その他の値はすべて無視されます。