Przegląd (komenda QUICK CLUSTER)

Gdy znana jest pożądana liczba skupień, QUICK CLUSTER grupuje obserwacje w klastry. Nie jest on tak elastyczny, jak produkt CLUSTER, ale wykorzystuje znacznie mniej czasu przetwarzania i pamięci, zwłaszcza gdy liczba obserwacji jest duża.

Opcje

Specyfikacje Algorytmów. Za pomocą podkomendy CRITERIA można określić liczbę skupień do utworzenia. Można również użyć programu CRITERIA do kontrolowania początkowego wyboru klastra oraz kryteriów iterowania algorytmu grupowania. Za pomocą podkomendy METHOD można określić sposób aktualizowania centrów skupień, a klasyfikację można żądać tylko w przypadku pracy z bardzo dużymi plikami danych.

Początkowe centra skupień. Domyślnie produkt QUICK CLUSTER wybiera początkowe centra skupień. Alternatywnie można udostępnić centra początkowe w podkomendzie INITIAL . Początkowe centra skupień można również odczytywać z plików danych programu IBM® SPSS® Statistics za pomocą podkomendy FILE .

Wyjście opcjonalne. Za pomocą podkomendy PRINT można wyświetlić przynależność do klastra dla każdego przypadku oraz odległość każdej obserwacji od jej centrum skupienia. Można również wyświetlić odległości między końcami centrów skupień a jednozmienną analizą wariancji między klastrami dla każdej zmiennej łączenia w klastry.

Zapisywanie wyników. Końcowe centra skupień można zapisać do pliku danych za pomocą podkomendy OUTFILE . Dodatkowo można zapisać przynależność do klastra dla każdej obserwacji oraz odległość od każdej obserwacji do jej centrum grupowania jako nowe zmienne w aktywnym zbiorze danych za pomocą podkomendy SAVE .

Specyfikacja podstawowa

Specyfikacja podstawowa to lista zmiennych. Domyślnie produkt QUICK CLUSTER tworzy dwa klastry. Dwa przypadki, które są najdalej od siebie zależne od wartości zmiennych klastrowych, są wybierane jako początkowe centra skupień, a pozostałe obserwacje są przypisane do centrum bliższego. Nowe centra skupień są obliczane jako średnie dla wszystkich obserwacji w każdym skupie, a jeśli nie zostaną spełnione ani minimalne zmiany, ani kryterium maksymalnej iteracji, wszystkie obserwacje zostaną przypisane do nowych centrów skupień. Gdy jedno z kryteriów jest spełnione, iteracje są zatrzymywane, końcowe centra skupień są aktualizowane, a odległość każdej obserwacji jest obliczana.

Kolejność opcji

Lista zmiennych musi być określona jako pierwsza.
Podkomendy mogą być nazwane w dowolnej kolejności.

Operacje

Procedura obejmuje zwykle cztery kroki:

Najpierw wybierane są początkowe centra skupień, wybierając jedną obserwację dla każdego klastra lub używając podanych wartości.
Po drugie, każda obserwacja jest przypisywany do najbliższego centrum skupienia, a średnia z każdego skupienia jest obliczana w celu uzyskania nowych centrów skupień.
Po trzecie, obliczono maksymalną zmianę między nowymi centrami skupień i początkownymi centrami skupień. Jeśli maksymalna zmiana jest nie mniejsza niż minimalna wartość zmiany, a maksymalny numer iteracji nie zostanie osiągnięty, drugi krok zostanie powtórzony, a centra skupień zostaną zaktualizowane. Proces zatrzymuje się, gdy spełnione jest kryterium minimalnej zmiany lub maksymalnej iteracji. Wynikowe centra grupowania są używane jako centra klasyfikacji w ostatnim kroku.
W ostatnim kroku wszystkie obserwacje są przypisane do najbliższego centrum klasyfikacji. Końcowe centra skupień są aktualizowane, a odległość dla każdej obserwacji jest obliczana.

Gdy liczba obserwacji jest duża, bezpośrednie grupowanie wszystkich obserwacji może być niepraktyczne. Jako alternatywę można utworzyć klaster z próbką przypadków, a następnie użyć rozwiązania dla przykładu, aby sklasyfikować całą grupę. Można to zrobić w dwóch fazach:

W pierwszej fazie uzyskuje się rozwiązanie klastrowe dla próbki. Obejmuje to wszystkie cztery kroki algorytmu QUICK CLUSTER . Następnie OUTFILE zapisuje końcowe centra skupień do pliku danych.
Druga faza wymaga tylko jednego przejścia przez dane. Po pierwsze, podkomenda FILE określa plik zawierający końcowe centra skupień od pierwszej analizy. Te końcowe centra skupień są używane jako początkowe centra skupień dla drugiej analizy. Opcja CLASSIFY jest określona w opcji METHOD , aby pominąć drugi i trzeci krok algorytmu grupowania, a obserwacje są klasyfikowane przy użyciu początkowych centrów skupień. Gdy wszystkie obserwacje są przypisane, centra skupień są aktualizowane, a odległość każdej obserwacji jest obliczana. Tę fazę można powtórzyć do momentu, gdy ostateczne centra skupień będą stabilne.