Analiza skupień metodą k-średnich

Ta procedura umożliwia podjęcie próby identyfikacji względnie jednorodnych grup obserwacji w oparciu o wybraną charakterystykę i z wykorzystaniem algorytmu umożliwiającego obsługę dużej liczby obserwacji. Zastosowanie algorytmu wymaga jednak od użytkownika określenia liczby skupień. Jeśli użytkownik zna wstępne centra skupień, to może je określić. Można wybrać jedną lub dwie metody klasyfikacji obserwacji, które iteracyjnie aktualizują centra skupień lub tylko je klasyfikują. Można zapisać przynależność do skupień, informacje o odległości i ostateczne centra skupień. Opcjonalnie można określić zmienną, której wartości są wykorzystywane do nadawania etykiety wynikowi obserwacji. Można również przeprowadzić analizę statystyki F wariancji. Chociaż te statystyki są oportunistyczne (podjęta zostaje próba uformowania różniących się znacznie między sobą grup), to względny rozmiar statystyk dostarcza informacji na temat udziału każdej zmiennej w podziale grup.

Przykład. Czy istnieją możliwe do zidentyfikowania grupy programów telewizyjnych, które mają podobną widownię? Za pomocą analizy skupień metodą k-średnich można skupić programy telewizyjne (obserwacje) w k jednolitych grup w oparciu o charakterystyki widzów. Można to następnie wykorzystać do identyfikacji segmentów rynku w celach marketingowych. Można też skupić miasta (obserwacje) w jednorodnych grupach, tak aby możliwe było wybranie porównywalnych miast w celu przetestowania różnych strategii marketingowych.

Statystyki. Kompletne rozwiązanie: wstępne centra skupień, tabela ANOVA. Każda obserwacja: Informacje o skupieniach, odległość od centrum skupienia.

Wymagania dotyczące danych do analizy skupień metodą k-średnich

Dane. Zmienne powinny być ilościowe na poziomie interwałowym lub ilorazowym. Jeśli zmienne są liczebnościami lub mają charakter binarny, to należy użyć procedury hierarchicznej analizy skupień.

Kolejność obserwacji i wstępnych centrów skupień. Domyślny algorytm do wybierania wstępnych centrów skupień nie nie jest niezmienniczy wobec kolejności obserwacji. Opcja Użyj średnich ruchomych w oknie dialogowym Iteracja pozwala na potencjalne uzależnienie wynikającego rozwiązania od kolejności obserwacji, bez względu na to, jak wybrano wstępne centra skupień. Jeśli używana jest jedna z tych metod, może wystąpić konieczność uzyskania kilku różnych rozwiązań przy sortowaniu przy różnej, przypadkowej kolejności obserwacji w celu sprawdzenia stabilności danego rozwiązania. Określenie wstępnych centrów skupień i nie korzystanie z opcji Użyj średnich ruchomych pozwoli uniknąć kwestii związanych z kolejnością obserwacji. Ustawianie kolejności wstępnych centrów skupień może jednak mieć wpływ na rozwiązanie, jeśli istnieją wiązane odległości między obserwacjami a centrami skupień. Aby ocenić stabilność danego rozwiązania, można porównać wyniki z analizy z innymi permutacjami wstępnych wartości środka.

Założenia. Odległości są obliczane z wykorzystaniem prostej odległości euklidesowej. Jeśli ma być wykorzystana inna miara odległości lub podobieństwa, to należy użyć procedury hierarchicznej analizy skupień. Ważnym zagadnieniem jest skalowanie zmiennych. Jeśli zmienne użytkownika są mierzone według odmiennych skal (na przykład jedna zmienna wyrażana jest w dolarach, a inna w latach), to wyniki mogą być błędne. W takich przypadkach przed wykonaniem analizy skupień metodą k-średnich należy rozważyć standaryzację zmiennych (można tego dokonać w procedurze Statystyki opisowe). Procedura opiera się na założeniu, że została wybrana odpowiednia liczba skupień i zostały uwzględnione wszystkie istotne zmienne. Jeśli wybrano nieodpowiednią liczbę skupień lub pominięto ważne zmienne, to otrzymane wyniki mogą być błędne.

Wykonanie analizy skupień metodą k-średnich

Ta zmienna wymaga opcji Statistics Base.

Z menu wybierz:
Analiza > Klasyfikuj > Klastra K-średnie ...
Wybierz zmienne, które mają być użyte w analizie skupień.
Określ liczbę skupień (liczba skupień musi wynosić co najmniej 2 i nie może przekraczać liczby obserwacji w pliku danych).
Wybierz metodę Iteracja i klasyfikacja lub metodę Tylko klasyfikacja.
Opcjonalnie wybierz zmienną identyfikacyjną do opisu obserwacji.

Ta procedura służy do wkleiania składni komendy QUICK CLUSTER .