Przegląd (komenda QUICK CLUSTER)
Gdy znana jest pożądana liczba skupień, QUICK CLUSTER
grupuje obserwacje w klastry. Nie jest on tak elastyczny, jak produkt CLUSTER
, ale wykorzystuje znacznie mniej czasu przetwarzania i pamięci, zwłaszcza gdy liczba obserwacji jest duża.
Opcje
Specyfikacje Algorytmów. Za pomocą podkomendy CRITERIA
można określić liczbę skupień do utworzenia. Można również użyć programu CRITERIA
do kontrolowania początkowego wyboru klastra oraz kryteriów iterowania algorytmu grupowania. Za pomocą podkomendy METHOD
można określić sposób aktualizowania centrów skupień, a klasyfikację można żądać tylko w przypadku pracy z bardzo dużymi plikami danych.
Początkowe centra skupień. Domyślnie produkt QUICK CLUSTER
wybiera początkowe centra skupień. Alternatywnie można udostępnić centra początkowe w podkomendzie INITIAL
. Początkowe centra skupień można również odczytywać z plików danych programu IBM® SPSS® Statistics za pomocą podkomendy FILE
.
Wyjście opcjonalne. Za pomocą podkomendy PRINT
można wyświetlić przynależność do klastra dla każdego przypadku oraz odległość każdej obserwacji od jej centrum skupienia. Można również wyświetlić odległości między końcami centrów skupień a jednozmienną analizą wariancji między klastrami dla każdej zmiennej łączenia w klastry.
Zapisywanie wyników. Końcowe centra skupień można zapisać do pliku danych za pomocą podkomendy OUTFILE
. Dodatkowo można zapisać przynależność do klastra dla każdej obserwacji oraz odległość od każdej obserwacji do jej centrum grupowania jako nowe zmienne w aktywnym zbiorze danych za pomocą podkomendy SAVE
.
Specyfikacja podstawowa
Specyfikacja podstawowa to lista zmiennych. Domyślnie produkt QUICK CLUSTER
tworzy dwa klastry. Dwa przypadki, które są najdalej od siebie zależne od wartości zmiennych klastrowych, są wybierane jako początkowe centra skupień, a pozostałe obserwacje są przypisane do centrum bliższego. Nowe centra skupień są obliczane jako średnie dla wszystkich obserwacji w każdym skupie, a jeśli nie zostaną spełnione ani minimalne zmiany, ani kryterium maksymalnej iteracji, wszystkie obserwacje zostaną przypisane do nowych centrów skupień. Gdy jedno z kryteriów jest spełnione, iteracje są zatrzymywane, końcowe centra skupień są aktualizowane, a odległość każdej obserwacji jest obliczana.
Kolejność opcji
- Lista zmiennych musi być określona jako pierwsza.
- Podkomendy mogą być nazwane w dowolnej kolejności.
Operacje
Procedura obejmuje zwykle cztery kroki:
- Najpierw wybierane są początkowe centra skupień, wybierając jedną obserwację dla każdego klastra lub używając podanych wartości.
- Po drugie, każda obserwacja jest przypisywany do najbliższego centrum skupienia, a średnia z każdego skupienia jest obliczana w celu uzyskania nowych centrów skupień.
- Po trzecie, obliczono maksymalną zmianę między nowymi centrami skupień i początkownymi centrami skupień. Jeśli maksymalna zmiana jest nie mniejsza niż minimalna wartość zmiany, a maksymalny numer iteracji nie zostanie osiągnięty, drugi krok zostanie powtórzony, a centra skupień zostaną zaktualizowane. Proces zatrzymuje się, gdy spełnione jest kryterium minimalnej zmiany lub maksymalnej iteracji. Wynikowe centra grupowania są używane jako centra klasyfikacji w ostatnim kroku.
- W ostatnim kroku wszystkie obserwacje są przypisane do najbliższego centrum klasyfikacji. Końcowe centra skupień są aktualizowane, a odległość dla każdej obserwacji jest obliczana.
Gdy liczba obserwacji jest duża, bezpośrednie grupowanie wszystkich obserwacji może być niepraktyczne. Jako alternatywę można utworzyć klaster z próbką przypadków, a następnie użyć rozwiązania dla przykładu, aby sklasyfikować całą grupę. Można to zrobić w dwóch fazach:
- W pierwszej fazie uzyskuje się rozwiązanie klastrowe dla próbki. Obejmuje to wszystkie cztery kroki algorytmu
QUICK CLUSTER
. NastępnieOUTFILE
zapisuje końcowe centra skupień do pliku danych. - Druga faza wymaga tylko jednego przejścia przez dane. Po pierwsze, podkomenda
FILE
określa plik zawierający końcowe centra skupień od pierwszej analizy. Te końcowe centra skupień są używane jako początkowe centra skupień dla drugiej analizy. OpcjaCLASSIFY
jest określona w opcjiMETHOD
, aby pominąć drugi i trzeci krok algorytmu grupowania, a obserwacje są klasyfikowane przy użyciu początkowych centrów skupień. Gdy wszystkie obserwacje są przypisane, centra skupień są aktualizowane, a odległość każdej obserwacji jest obliczana. Tę fazę można powtórzyć do momentu, gdy ostateczne centra skupień będą stabilne.