Odległości: Miary niepodobieństwa dla danych binarnych
Dla danych binarnych dostępne są następujące miary niepodobieństwa:
- Odległość euklidesowa. Wyliczana z tablicy czteropolowej jako pierwiastek kwadratowy z (b+c), gdzie b i c reprezentują komórki po przekątnej, odpowiadające obserwacjom obecnym na jednej pozycji, lecz nieobecnym na drugiej.
- Kwadrat odległości euklidesowej. Wyliczany jako liczba obserwacji niezgodnych. Jego minimalna wartość wynosi 0 i nie ma on górnej granicy.
- Różnica wielkości. Wskaźnik asymetrii. Przybiera wartości z zakresu od 0 do 1.
- Różnica wzoru. Miara niepodobieństwa dla danych binarnych, która waha się od 0 do 1. Wyliczane z tabeli czteropolowej jako bc/(n**2), gdzie b i c reprezentują przekątne komórki odpowiadające przypadkom występującym w jednym elemencie, ale nieobecne w drugim, n jest całkowitą liczbą obserwacji.
- Wariancja. Wyliczana z tablicy czteropolowej jako (b+c)/4n, gdzie b i c reprezentują komórki po przekątnej, odpowiadające obserwacjom obecnym na jednej pozycji, lecz nieobecnym na drugiej, a n jest całkowitą liczbą obserwacji. Przybiera wartości z zakresu od 0 do 1.
- Kształt. Ta miara odległości waha się od 0 do 1 i ustala karę za asymetrię niedopasowań.
- Miara Lance'a i Williamsa. Wyliczana z tablicy czteropolowej jako (b+c)/(2a+b+c), gdzie a reprezentuje komórki odpowiadające obserwacjom obecnym na obu pozycjach, a b i c reprezentują komórki po przekątnej, odpowiadające obserwacjom obecnym na jednej pozycji, lecz nieobecnym na drugiej. Ta miara ma wartość z zakresu od 0 do 1. (Znana również pod nazwą niemetryczny współczynnik Bray-Curtisa).
Możliwa jest opcjonalna zmiana pól Występuje i Nie występuje w celu określenia wartości wskazujących na obecność lub nieobecność charakterystyki. W procedurze zostaną zignorowane wszystkie pozostałe wartości.