Dwustopniowa analiza skupień

Procedura Dwustopniowe grupowanie jest narzędziem eksploracyjnym, mającym na celu ujawnienie występowania w zbiorze danych naturalnych zgrupowań (lub skupień), które nie są widoczne w inny sposób. Algorytm zastosowany w tej procedurze posiada kilka wyjątkowych cech, które odróżniają go od tradycyjnych metod grupowania:

Obsługa zmiennych jakościowych i ilościowych. Przy założeniu niezależności zmiennych, do zmiennych jakościowych i ilościowych można zastosować połączony rozkład wielomianowo-normalny.
Automatyczny wybór liczby skupień. Przez porównanie wartości kryterium wyboru modelu dla różnych rozwiązań grupowania procedura może automatycznie określić optymalną liczbę skupień.
Skalowalność. Przez utworzenie drzewa cech skupień (CF) podsumowującego rekordy algorytm TwoStep umożliwia analizę dużych plików danych.

Przykład. Przedsiębiorstwa handlu detalicznego i produktów konsumpcyjnych regularnie stosują techniki grupowania do danych, które opisują zwyczaje nabywcze swoich klientów, płeć, wiek, dochody itp. Przedsiębiorstwa te dostosowują swoje strategie marketingowe i produktowe do każdej grupy konsumentów celem zwiększenia sprzedaży i pozyskiwania lojalności klientów wobec danej marki produktów.

Miara odległości. Wybrana tutaj opcja określa sposób wyliczenia podobieństwa dwóch skupień.

Logarytm wiarygodności. Miara wiarygodności stosuje do zmiennych rozkład prawdopodobieństwa. Zakłada się, że zmienne ilościowe mają rozkład normalny, natomiast kategorialne rozkład wielomianowy. Zakłada się, że wszystkie zmienne są niezależne.
Euclidean. Odległość euklidesowa jest odległością „w linii prostej” pomiędzy dwoma skupieniami. Można jej użyć tylko wówczas, gdy wszystkie zmienne są zmiennymi ilościowymi.

Liczba skupień. Wybór tej opcji pozwala na określenie sposobu ustalenia liczby skupień.

Dobierz automatycznie. Procedura automatycznie dobierze „optymalną” liczbę skupień przy zastosowaniu kryterium określonego w grupie opcji Kryterium grupowania. Opcjonalnie można wprowadzić dodatnią liczbę całkowitą, określającą maksymalną liczbę skupień, które procedura weźmie pod uwagę.
Ustalona liczba skupień. Umożliwia uwzględnienie w rozwiązaniu stałej liczby skupień. Wprowadź dodatnią liczbę całkowitą.

Zlicz zmienne ilościowe. Ta grupa zawiera podsumowanie specyfikacji standaryzacyjnych zmiennych ilościowych, określonych w oknie dialogowym Opcje. Więcej informacji można znaleźć w temacie TwoStep Opcje analizy skupień .

Kryterium grupowania. Wybrana tutaj opcja określa sposób ustalenia liczby skupień przez algorytm automatycznego grupowania. Dostępne opcje to Bayesowskie Kryterium Informacyjne (BIC) i Kryterium informacyjne Akaike (AIC).

Wymagania dotyczące danych dla dwustopniowego grupowania

Dane. Procedura znajduje zastosowanie zarówno w przypadku zmiennych ilościowych, jak i zmiennych kategorialnych. Obserwacje reprezentują obiekty do pogrupowania, natomiast zmienne reprezentują atrybuty, na podstawie których odbywa się grupowanie.

Kolejność obserwacji. Warto zauważyć, że drzewa cech skupień i ostateczne rozwiązanie mogą zależeć od kolejności obserwacji. Aby zminimalizować wpływ kolejności, należy losowo ustawić obserwacje. Aby zweryfikować stabilność danego rozwiązania może wystąpić konieczność uzyskania kilku różnych rozwiązań przy sortowaniu przy różnej, przypadkowej kolejności obserwacji. W sytuacjach, kiedy jest to trudne z uwagi na niezwykle duże rozmiary plików, wiele uruchomień za pomocą obserwacji sortowanych w porządku losowym może zostać zastąpione.

Założenia. Miara odległości wiarygodności zakłada, że zmienne w modelu skupień są niezależne. Ponadto zakłada się, że każda zmienna ilościowa posiada rozkład normalny (Gaussa), a każda zmienna kategorialna rozkład wielomianowy. Chociaż empiryczne testy wewnętrzne wykazały dosyć dużą odporność procedury na niespełnienie założeń odnośnie niezależności i rozkładu, warto wiedzieć, w jakim stopniu założenia takie zostały spełnione.

Aby przetestować niezależność dwóch zmiennych ciągłych, należy użyć procedury Korelacje bivariate . Użyj procedury Tabele krzyżowe , aby przetestować niezależność dwóch zmiennych kategorialnych. Użyj procedury Średnie , aby przetestować niezależność między zmienną ilościową i zmienną jakościową. Procedura Eksploracja służy do testowania normalności zmiennej ciągłej. Użyj procedury Test chi-kwadrat , aby sprawdzić, czy zmienna kategorialna ma określony rozkład wielomianowy.

Wykonywanie dwustopniowego grupowania

Ta zmienna wymaga opcji Statistics Base.

Z menu wybierz:
Analiza > Klasyfikuj > TwoStep Klaster ...
Wybierz co najmniej jedną zmienną jakościową lub ilościową.

Opcjonalnie można wykonać następujące czynności:

Skorygować kryteria tworzenia skupień.
Wybrać ustawienia obsługi szumu, alokacji pamięci, standaryzacji zmiennych i danych do modelu skupień.
Zażądaj wyników przeglądarki modelu.
Zapisać wyniki działania modelu w pliku roboczym lub w zewnętrznym pliku XML.

Ta procedura służy do wkleiania składni komendy TWOSTEP CLUSTER .