Węzeł logistyczny

Regresja logistyczna, znana również pod nazwą regresji nominalnej, to technika statystyczna umożliwiająca klasyfikację rekordów na podstawie wartości zmiennych wejściowych. Jest ona analogiczna do regresji liniowej, lecz bazuje na przewidywanej zmiennej jakościowej zamiast na liczbowej. Obsługiwane są zarówno modele dwumianowe (w przypadku zmiennych przewidywanych z dwiema kategoriami dyskretnymi), jak i wielomianowe (w przypadku zmiennych przewidywanych z więcej niż dwiema kategoriami).

Regresja logistyczna działa w oparciu o tworzony zestaw wyrażeń odnoszących wartości zmiennych wejściowych do prawdopodobieństw powiązanych z każdą z kategorii zmiennych wyjściowych. Po wygenerowaniu modelu może być on używany do oceny prawdopodobieństw dla nowych danych. Dla każdego rekordu dla każdej możliwej kategorii wyjściowej obliczane jest prawdopodobieństwo członkostwa. Jako predykowana wartość wyjściowa dla tego rekordu przypisywana jest kategoria zmiennej przewidywanej o najwyższym prawdopodobieństwie.

Przykład modelu dwumianowego. Operator telekomunikacyjny jest zaniepokojony liczbą klientów odchodzących do konkurencji. Korzystając z danych wykorzystania usług, można tworzyć modele dwumianowe umożliwiające predykcję list klientów, którzy z największym prawdopodobieństwem mogą przenieść się do innego operatora, a następnie przedstawiać tym klientom bardziej zindywidualizowaną ofertę w celu zatrzymania możliwie największej ich liczby. Model dwumianowy jest używany, ponieważ zmienna przewidywana ma dwie odrębne kategorie (klienci najprawdopodobniej zamierzający odejść oraz najprawdopodobniej niezamierzający odejść).

Uwaga: W przypadku modeli dwumianowych zmienne łańcuchowe mają maksymalnie osiem znaków. W razie potrzeby dłuższe łańcuchy mogą zostać zrekodowane za pomocą węzła Rekodowanie lub węzła anonimizacji.

Przykład wielomianowy. Operator telekomunikacyjny pogrupował bazę klientów wg wzorców korzystania z usług, tworząc cztery kategorie. Korzystając z danych demograficznych do predykcji członkostwa grupy, można utworzyć model wielomianowy umożliwiający klasyfikację przyszłych klientów na grupy, a następnie indywidualizować oferty dla poszczególnych klientów.

Wymagania. Jedna lub więcej zmiennych wejściowych oraz dokładnie jedna przewidywana zmienna jakościowa z dwiema lub większą liczbą kategorii. W przypadku modelu dwumianowego zmienna przewidywana musi mieć poziom pomiaru Flaga. W przypadku modelu wielomianowego zmienna przewidywana może mieć poziom pomiaru Flaga lub Nominalny, z dwiema lub większą liczbą kategorii. Zmienne o roli Łącznie lub Żadna są ignorowane. Typy zmiennych używanych w modelu muszą być w pełni zrealizowane jako instancje.

Mocne strony. Modele regresji logistycznej są często w miarę dokładne. Pozwalają one obsługiwać symboliczne i numeryczne zmienne wejściowe. Oferują one przewidywane prawdopodobieństwa dla wszystkich kategorii zmiennych przewidywanych, tak że z łatwością można zidentyfikować drugą w kolejności prawdopodobną pozycję. Modele logistyczne są najefektywniejsze, kiedy przynależność do grupy jest zmienną prawdziwie jakościową; jeśli przynależność do grupy opiera się na wartościach przedziału ilościowego (na przykład wysoki a niski iloraz inteligencji), należy rozważyć możliwość wykorzystania regresji liniowej, tak aby skorzystać z bogatszych informacji oferowanych przez pełny zakres wartości. Modele logistyczne umożliwiają także automatyczny wybór zmiennych. Inne metody, takie jak modele drzew decyzyjnych czy Wybór predyktora, są jednak znacznie szybsze w przypadku dużych zbiorów danych. W końcu, ponieważ modele logistyczne są zrozumiałe dla wielu analityków i specjalistów eksploracji danych, mogą być one przez nich używane jako baza porównawcza dla innych technik modelowania.

Przetwarzając duże zbiory danych, można w zauważalny sposób poprawić wydajność, wyłączając test ilorazu wiarygodności i zaawansowaną opcję generowania wyników. Więcej informacji można znaleźć w temacie Zaawansowane wyniki regresji logistycznej.

Ważne: Jeśli na dysku brakuje tymczasowej przestrzeni, budowa modelu przy użyciu dwumianowej regresji logistycznej może się nie powieść i może zostać wyświetlony błąd. W przypadku dużych zestawów danych (10 GB lub więcej) wymagana jest taka sama ilość wolnej przestrzeni na dysku. Do ustawienia lokalizacji katalogu tymczasowego można wykorzystać zmienną środowiskową SPSSTMPDIR.