analiza najbliższego sąsiedztwa

Analiza najbliższego sąsiedztwa jest metodą klasyfikacji obserwacji na podstawie ich podobieństwa do innych obserwacji. Zostało to opracowane w nauczaniu maszynowym jako sposób rozpoznawania wzorców danych bez konieczności zapewnienia dokładnej zgodności z jakimikolwiek zapamiętanymi wzorcami lub obserwacjami. Podobne obserwacje znajdują się blisko siebie, a niepodobne – daleko. Zatem odległość między dwoma obserwacjami stanowi miarę ich niepodobieństwa.

Obserwacje znajdujące się blisko siebie nazywają się „sąsiedztwem”. Podczas prezentacji nowej (wstrzymanej) obserwacji, obliczana jest odległość od każdej obserwacji modelu. Zostaje określona klasyfikacja najbardziej podobnych obserwacji najbliższego sąsiedztwa, a nowa obserwacja zostaje umieszczona w kategorii, która zawiera największą liczbę obserwacji najbliższego sąsiedztwa.

Można określić liczbę najbliższych elementów sąsiednich do analizowania; ta wartość to k.

Analiza najbliższego sąsiedztwa może być również użyta do obliczania docelowych wartości ilościowych. W tej sytuacji do uzyskania przewidywanej wartości dla nowej obserwacji stosowana jest docelowa wartość średniej lub mediany najbliższych sąsiadów.

Wymagania dotyczące danych do analizy najbliższego sąsiedztwa

Cel i opcje. Wartości docelowe i funkcje mogą być:

Nominalna. Zmienna może być traktowana jako nominalna, gdy jej wartości reprezentują kategorie bez wewnętrznego rangowania; na przykład wydział, na którym są zatrudnieni pracownicy. Przykładami zmiennych nominalnych są: region, kod pocztowy lub wyznanie.
Porządkowy. Zmienna może być traktowana jako porządkowa, gdy jej wartości reprezentują kategorię z wewnętrznym rangowaniem, na przykład poziomy zadowolenia z usługi od bardzo niezadowolonego do bardzo zadowolonego). Przykładami zmiennych porządkowych mogą być oceny opinii reprezentujące stopień satysfakcji lub przekonania oraz oceny preferencji.
Skala. Zmienna może być traktowana jako zmienna (ilościowa), gdy jej wartości reprezentują uporządkowane kategorie ze znaczącą metryką, która umożliwia porównywanie odległości między wartościami. Przykładami zmiennych ilościowych mogą być: wiek w latach lub przychód w tysiącach złotych.
Zmienne nominalne i porządkowe są traktowane tak samo w analizie najbliższego sąsiedztwa. W procedurze przyjmuje się, że odpowiedni poziom pomiaru został przypisany do wszystkich zmiennych, można jednak tymczasowo zmienić poziom pomiaru dla zmiennej, klikając prawym przyciskiem myszy zmienną na liście zmiennych źródłowych i wybierając poziom pomiaru z menu kontekstowego. Aby trwale zmienić poziom pomiaru dla zmiennej, patrz Poziom pomiaru zmiennej.

Ikona obok każdej zmiennej na liście zmiennych określa poziom pomiaru oraz typ danych:

Tabela 1. Ikony poziomu pomiaru
	Liczbowy	Łańcuch	Data	Czas
Zmienna (ilościowa)		n/a
Porządkowy
Nominalny

Kodowanie zmiennych jakościowych. Procedura tymczasowo przekodowuje predyktory jakościowe i zmienne zależne, używając jednego z c kodowań na czas trwania procedury. Jeśli istnieje c kategorii zmiennej, to zmienna jest przechowywana jako c wektorów, z pierwszą kategorią oznaczoną (1,0, ..., 0), następną kategorią (0,1,0, ..., 0), ..., i kategorii końcowej (0,0, ..., 0, 1).

Taki schemat kodowania zwiększa wymiarowość przestrzeni właściwości. Całkowita liczba wymiarów jest liczbą predyktorów ilościowych plus liczbą kategorii we wszystkich predyktorach jakościowych. Taki schemat kodowania może spowodować wolniejszą naukę. Jeżeli szkolenie najbliższego sąsiedztwa przebiega bardzo wolno, przed uruchomieniem procedury można próbować ograniczyć liczbę kategorii predyktorów jakościowych przez połączenie podobnych kategorii lub rezygnację z obserwacji, które posiadają wyjątkowo rzadkie kategorie.

Wszystkie kody jednego typuc są oparte na danych uczących, nawet jeśli została zdefiniowana próbka holdout (patrz sekcja Partycje (analiza najbliższego sąsiedztwa)). Dlatego jeśli próba wstrzymana zawiera obserwacje z kategoriami predyktorów, które nie są obecne w danych szkoleniowych, obserwacje te nie są oceniane. Jeżeli próba wstrzymana zawiera obserwacje z kategoriami zmiennych zależnych, które nie są obecne w danych szkoleniowych, obserwacje te są oceniane.

Reskaling. Funkcje skali są domyślnie znormalizowane. Wszystkie reskalowanie jest wykonywane na podstawie danych uczących, nawet jeśli została zdefiniowana próbka holdout (patrz sekcja Partycje (analiza najbliższego sąsiedztwa)). Jeżeli zostanie określona zmienna definiująca podziały, ważne jest, aby funkcja miała podobną dystrybucję w próbie szkoleniowej i próbie wstrzymanej. Można na przykład użyć procedury Eksploracja w celu sprawdzenia rozkładów między partycjami.

Wagi liczebności. Wagi częstotliwości są ignorowane przez tę procedurę.

Replikacja wyników. Procedura używa generatora liczb losowych przy losowym przydziale podziałów i walidacji krzyżowej. Jeśli wyniki mają być replikowane dokładnie, oprócz stosowania tych samych ustawień procedury, należy ustawić wartość początkową generatora Mersenne Twister (patrz sekcja Partycje (analiza najbliższego sąsiedztwa)) lub użyj zmiennych do zdefiniowania partycji i krotności walidacji krzyżowej.

W celu uzyskania analizy najbliższego sąsiedztwa

Ta zmienna wymaga opcji Statistics Base.

Z menu wybierz:

Analiza > Klasyfikowanie > Najbliższy Sąsiad ...

Określ jedną lub kilka funkcji, które mogą być traktowane jako zmienne niezależne lub predyktory, jeśli istnieje wartość docelowa.
Wartość docelowa (opcjonalnie). Jeżeli nie określono wartości docelowej (zmiennej zależnej lub odpowiedzi), procedura znajduje k obserwacji w najbliższym sąsiedztwie i nie jest przeprowadzana klasyfikacja ani predykcja.

Normalizuj zmienne ilościowe. Znormalizowane funkcje mają ten sam zakres wartości, co może poprawić wydajność algorytmu estymacji. Używana jest normalizacja skorygowana [2*(x−min)/(max−min)]−1. Skorygowane wartości znormalizowane zawierają się w zakresie od -1 do 1.

Identyfikator obserwacji kluczowych (opcjonalnie). Umożliwia to oznaczenie obserwacji o szczególnym znaczeniu. Przykładowo: prowadzący badanie chce określić, czy wyniki testów w szkołach z jednego regionu (obserwacja kluczowa) są porównywalne z wynikami w podobnych regionach. Analiza najbliższego sąsiedztwa jest wykorzystywana do znalezienia regionów, które są najbardziej podobne pod względem podanych funkcji. Następnie prowadzący badanie porównuje wyniki testów z regionu centralnego z tymi z najbliższego sąsiedztwa.

Obserwacje kluczowe mogą być również używane w badaniach klinicznych, aby wybrać obserwacje kontrolne, podobne do obserwacji klinicznych. Obserwacje kluczowe są wyświetlane w tabeli k obserwacji najbliższego sąsiedztwa i odległości, na wykresie przestrzeni właściwości, wykresie elementów równorzędnych oraz mapie kwadratowej. Informacje dotyczące obserwacji kluczowych są zapisywane w plikach określonych na karcie Wynik.

Obserwacje z wartością dodatnią określonej zmiennej są traktowane jako obserwacje kluczowe. Nieprawidłowe jest określenie zmiennej bez wartości dodatnich.

Etykieta obserwacji (opcjonalnie). Obserwacje są opisywane za pomocą wartości na wykresie przestrzeni właściwości, wykresie elementów równorzędnych oraz mapie kwadratowej.

Zmienne z nieznanym poziomem pomiaru

Alert poziomu pomiaru wyświetla się, gdy poziom pomiaru dla jednej lub większej ilości zmiennych w zbiorze danych jest nieznany. Ponieważ poziom pomiaru wpływa na wyliczenie wyników dla tej procedury, wszystkie zmienne muszą mieć zdefiniowany poziom pomiaru.

Skanowanie danych. Odczytuje dane w aktywnym zbiorze danych i przypisuje domyślny poziom pomiaru do wszystkich zmiennych, które mają aktualnie nieznany poziom pomiaru. Jeśli zbiór danych jest duży, może to zająć trochę czasu.

Przypisz ręcznie. Otwiera okno dialogowe, które zestawia wszystkie zmienne z nieznanym poziomem pomiaru. Można użyć tego okna dialogowego do przypisania poziomu pomiaru do tych zmiennych. Można również przypisać poziom pomiaru w Widoku zmiennych Edytora danych.

Ponieważ poziom pomiaru jest ważny dla tej procedury, nie można wejść do tego okna dialogowego w celu uruchomienia tej procedury, dopóki wszystkie zmienne nie będą miały zdefiniowanego poziomu pomiaru.

Ta procedura służy do wkleiania składni komendy KNN .