Węzeł Metoda k-średnich

Węzeł Metoda k-średnich oferuje metodę analizy skupień. Może ona posłużyć do skupiania zbioru danych w osobne grupy, jeśli nie wiemy z góry, co to są za grupy. W przeciwieństwie do większości metod uczenia w produkcie IBM® SPSS Modeler w modelach K-średnich nie są stosowane zmienne przewidywane. Sposób uczenia bez zmiennej przewidywanej jest nazywany uczeniem nienadzorowanym. Zamiast prób przewidzenia danych wynikowych K-średnie próbują ujawnić wzorce w zestawie zmiennych wejściowych. Rekordy są grupowane w taki sposób, aby rekordy w ramach grupy lub skupienia były do siebie podobne, zaś rekordy z różnych grup były do siebie niepodobne.

Metoda K-średnich polega na definiowaniu zestawu początkowych centrów skupień wyliczanych na podstawie danych. Następnie każdy rekord jest przypisywany do skupienia, do którego jest on najbardziej podobny, w oparciu o wartości zmiennych wejściowych rekordu. Po przypisaniu wszystkich obserwacji centra skupień są aktualizowane tak, aby odzwierciedlały nowy zestaw rekordów przypisanych do każdego skupienia. Rekordy są następnie sprawdzane ponownie pod kątem tego, czy powinny one zostać przypisane do innego skupienia. Proces przypisywania rekordów/iteracji skupień jest kontynuowany aż do osiągnięcia maksymalnej liczby iteracji lub do chwili, gdy zmiana między daną a następną iteracją będzie mniejsza od zadanego progu.

Uwaga: Model wynikowy zależy do pewnego stopnia od kolejności danych uczących. Zmiana kolejności danych i ponowna budowa modelu może prowadzić do utworzenia innego końcowego modelu skupień.

Wymagania. Do uczenia modelu K-średnich wymagana jest jedna lub więcej zmiennych z rolą ustawioną na Dane wejściowe. Zmienne z rolą ustawioną na wartość Wynik, Łącznie lub Brak są ignorowane.

Mocne strony. Do zbudowania modelu K-średnich nie są wymagane dane o przynależności do grupy. Model K-średnich jest często najszybszą metodą skupiania w przypadku dużych zbiorów danych.