Hierarchische Clusteranalyse: Maße für binäre Daten

Die folgenden Unähnlichkeitsmaße sind für binäre Daten verfügbar:

  • Euklidische Distanz. Berechnet aus einer Vier-Felder-Tabelle als SQRT(b+c). Dabei stehen b und c für die den Fällen entsprechenden Zellen in der Diagonalen, die in einem Element vorhanden sind, im anderen jedoch fehlen.
  • Quadrierte euklidische Distanz. Berechnet als die Anzahl unharmonischer Fälle. Der Minimalwert beträgt 0, es besteht keine Obergrenze.
  • Größendifferenz. Ein Index für Asymmetrie. Der Bereich liegt zwischen 0 und 1, jeweils einschließlich.
  • Musterdifferenz. Unähnlichkeitsmaß für binäre Daten im Bereich von 0 bis 1. Berechnet aus einer vierfachen Tabelle als bc/ (n** 2), wobei b und c die diagonalen Zellen darstellen, die den Fällen entsprechen, die auf einem Element vorhanden sind, auf dem anderen jedoch nicht vorhanden sind, und n ist die Gesamtzahl der Beobachtungen.
  • die Varianz erklärt wird. Berechnet aus einer Vier-Felder-Tabelle als (b+c)/4n. Dabei stehen b und c für die den Fällen entsprechenden Zellen in der Diagonalen, die in einem Element vorhanden sind, aber im anderen fehlen. n ist die Gesamtzahl der Beobachtungen. Der Bereich liegt zwischen 0 und 1, jeweils einschließlich.
  • Dispersion. Dieser Ähnlichkeitsindex weist einen Bereich von -1 bis 1, jeweils einschließlich, auf.
  • Form. Dieses Distanzmaß weist einen Bereich von 0 bis 1, jeweils einschließlich, auf und bestraft die Asymmetrie der Nichtübereinstimmungen.
  • Einfache Übereinstimmung. Dies ist das Verhältnis der Übereinstimmungen zur Gesamtzahl der Werte. Übereinstimmungen und Nichtübereinstimmungen werden gleich gewichtet.
  • Phi-4-Punkt-Korrelation. Dieser Index ist die binäre Entsprechung zum Korrelationskoeffizienten nach Pearson. Er weist einen Bereich von -1 bis 1, jeweils einschließlich, auf.
  • Lambda. Dieser Index ist das Lambda nach Goodman und Kruskal. Entspricht der proportionalen Fehlerreduktion, wobei ein Element zur Vorhersage des anderen verwendet wird (Vorhersage in beide Richtungen). Die Werte liegen im Bereich von 0 bis 1, jeweils einschließlich.
  • Anderbergs D. Ähnlich wie bei Lambda entspricht dieser Index der eigentlichen Fehlerreduktion, wobei ein Element zur Vorhersage des anderen verwendet wird (Vorhersage in beide Richtungen). Die Werte liegen im Bereich von 0 bis 1, jeweils einschließlich.
  • Würfel. Dies ist ein Index, in dem gemeinsam fehlende Größen aus der Betrachtung ausgeschlossen werden. Übereinstimmungen werden doppelt gewichtet. Auch als Ähnlichkeitsmaß nach Czekanowski oder Sörensen bekannt.
  • Hamann. Dieser Index stellt die Anzahl der Übereinstimmungen abzüglich der Anzahl der Nichtübereinstimmungen, geteilt durch die Gesamtanzahl der Einträge dar. Der Bereich erstreckt sich von -1 bis 1.
  • Jaccard. Dies ist ein Index, in dem gemeinsam fehlende Größen aus der Betrachtung ausgeschlossen werden. Übereinstimmungen und Nichtübereinstimmungen werden gleich gewichtet. Auch als Ähnlichkeitsquotient bekannt.
  • Kulczynski 1. Dieser Index stellt das Verhältnis der gemeinsamen Vorkommen zu allen Nichtübereinstimmungen dar. Dieser Index weist eine Untergrenze von 0 auf und ist nach oben unbegrenzt. Diese Größe ist theoretisch undefiniert, wenn keine Nichtübereinstimmungen vorliegen. Die Software ordnet jedoch einen willkürlichen Wert von 9999,999 zu, wenn der Wert undefiniert oder größer als dieser willkürliche Wert ist.
  • Kulczynski 2. Dieser Index wird auf der Grundlage der konditionalen Wahrscheinlichkeit gebildet. Dabei wird von der Annahme ausgegangen, dass ein Merkmal bei einem Element nur dann auftritt, wenn dieses auch bei einem anderen Element auftritt. Die separaten Werte jedes Elements, die als Vorhersagegröße des anderen Elements dienen, werden zur Berechnung dieses Werts gemittelt.
  • Distanzmaß nach Lance und Williams. Berechnet aus einer Vier-Felder-Tabelle als (b+c)/(2a+b+c), wobei a die den Fällen entsprechende Zelle darstellt, die in beiden Elementen vorhanden sind. b und c stellen die den Fällen entsprechenden Zellen in der Diagonalen dar, die in einem Element vorhanden sind, aber im anderen fehlen. Diese Größe hat einen Bereich von 0 bis 1. (wird auch als nicht metrischer Koeffizient nach Bray-Curtis bezeichnet.)
  • Ochiai: Dieser Index ist die binäre Form des Kosinusähnlichkeitsmaßes. Der Wertebereich erstreckt sich von 0 bis 1.
  • Ähnlichkeitsmaß nach Rogers und Tanimoto. In diesem Index werden Nichtübereinstimmungen doppelt gewichtet.
  • Russel und Rao. Dies ist die binäre Version des inneren (skalaren) Produkts. Übereinstimmungen und Nichtübereinstimmungen werden gleich gewichtet. Dies ist die Standardeinstellung für binäre Ähnlichkeitsdaten.
  • Sokal und Sneath 1. In diesem Index werden Übereinstimmungen doppelt gewichtet.
  • Sokal und Sneath 2. In diesem Index werden Nichtübereinstimmungen doppelt gewichtet. Gemeinsam fehlende Größen sind von der Betrachtung ausgeschlossen.
  • Sokal und Sneath 3. In diesem Index wird das Verhältnis zwischen Übereinstimmungen und Nichtübereinstimmungen dargestellt. Dieser Index weist eine Untergrenze von 0 auf und ist nach oben unbegrenzt. Diese Größe ist theoretisch undefiniert, wenn keine Nichtübereinstimmungen vorliegen. Die Software ordnet jedoch einen willkürlichen Wert von 9999,999 zu, wenn der Wert undefiniert oder größer als dieser willkürliche Wert ist.
  • Sokal und Sneath 4. Dieser Index wird auf der Grundlage der konditionalen Wahrscheinlichkeit gebildet. Dabei wird davon ausgegangen, dass das Merkmal eines Elements mit dem Wert eines anderen Elements übereinstimmt. Die separaten Werte jedes Elements, die als Vorhersagegröße des anderen Elements dienen, werden zur Berechnung dieses Werts gemittelt.
  • Sokal und Sneath 5. In diesem Index wird das Quadrat des geometrischen Mittelwerts für die konditionale Wahrscheinlichkeit von positiven und negativen Übereinstimmungen dargestellt. Er ist unabhängig von der Elementcodierung. Der Wertebereich erstreckt sich von 0 bis 1.
  • Yule's Y. Dieser Index stellt die Funktion des Kreuzverhältnisses für eine 2 x 2-Tabelle dar und besteht unabhängig von den Randsummen. Er weist einen Bereich von -1 bis 1, jeweils einschließlich, auf. Auch als Kolligationskoeffizient bekannt.
  • Yule's Q. Dieser Index stellt einen Spezialfall des Goodman-Kruskal-Gamma dar. Er ist eine Funktion des Kreuzverhältnisses und ist unabhängig von den Randsummen. Er weist einen Bereich von -1 bis 1, jeweils einschließlich, auf.

Sie können die Felder "Vorhanden" und "Nicht vorhanden" ändern, um die Werte festzulegen, die eine Eigenschaft als "vorhanden" oder "nicht vorhanden" kennzeichnen. Alle anderen Werte werden von der Prozedur ignoriert.