Regresja logistyczna

Regresja logistyczna jest przydatna w sytuacjach, w których wymagane jest przewidywanie obecności lub braku cechy bądź wyniku na podstawie wartości zestawu predyktorów. Jest podobna do modelu regresji liniowej, ale nadaje się dla modeli, w których zmienna zależna jest dychotomiczna. Współczynniki regresji logistycznej mogą być używane do oszacowania ilorazów szans dla każdej zmiennej niezależnej w modelu. Regresja logistyczna ma zastosowanie do szerszego zakresu sytuacji badawczych niż analiza dyskryminacyjna.

Przykład. Jakie cechy stylu życia są czynnikami ryzyka dla choroby wieńcowej serca? Na podstawie próby pacjentów przebadanych pod względem palenia tytoniu, diety, aktywności fizycznej, spożycia alkoholu i statusu choroby wieńcowej można zbudować model wykorzystujący cztery zmienne stylu życia, aby przewidywać obecność lub brak choroby wieńcowej w próbie pacjentów. Model może być następnie używany do szacowania ilorazów szans dla każdego czynnika w celu określenia, na przykład, o ile bardziej prawdopodobne jest, że choroba wieńcowa rozwinie się u osób palących niż u niepalących.

Statystyki. Dla każdej analizy: łączna liczba obserwacji, wybrane obserwacje, ważne obserwacje. Dla każdej zmiennej jakościowej: kodowanie parametrów. Dla każdego kroku: zmienne wprowadzone lub usunięte, historia iteracji, –2 logarytm wiarygodności, dobroć dopasowania, statystyka dobroci dopasowania Hosmera-Lemeshowa, chi-kwadrat modelu, chi-kwadrat poprawy, tabela klasyfikacji, korelacja między zoiennymi, tabela zaobserwowanych grup i przewidzianych prawdopodobieństw, reszta chi-kwadrat. Dla każdej zmiennej w równaniu: współczynnik (B), błąd standardowy B, statystyka Walda, szacowany iloraz szans (exp(B)), przedział ufności dla exp(B), logarytm wiarygodności w wypadku usunięcia składnika z modelu. Dla każdej zmiennej, która nie występuje w równaniu: statystyka oceny. Dla każdej obserwacji: zaobserwowana grupa, przewidywane prawdopodobieństwo, przewidywana grupa, reszta, reszta standaryzowana.

Metody. Modele można szacować, wprowadzając zmienne blokowo lub korzystając z dowolnej z następujących metod krokowych: warunkowej postępującej, postępującej LR, Walda postępującej, warunkowej wstecznej, wstecznej LR lub wstecznej Walda.

Wymagania dotyczące danych dla regresji logistycznej

Dane. Zmienna zależna powinna być dychotomiczna. Zmienne niezależne mogą być przedziałowe lub jakościowe; w przypadku zmiennych jakościowych wymagane jest kodowanie przy użyciu wartości sztucznych lub wskaźników (w procedurze dostępna jest opcja automatycznego przekodowywania zmiennych jakościowych).

Założenia. Regresja logistyczna nie opiera się na założeniach co do rozkładu w tym samym sensie, jak analiza dyskryminacyjna. Jednak rozwiązanie może być bardziej stabilne, jeśli predyktory charakteryzują się wielowymiarowymi rozkładami normalnymi. Ponadto, podobnie jak w przypadku innych form regresji, wielowspółliniowość między predyktorami może prowadzić do obciążonych oszacowań i zawyżonych błędów standardowych. Procedura jest najefektywniejsza, kiedy przynależność do grupy jest zmienną prawdziwie kategorialną. Jeśli przynależność do grupy opiera się na wartościach zmiennej ciągłej (na przykład wysoki a niski iloraz inteligencji), należy rozważyć możliwość wykorzystania regresji liniowej, tak aby skorzystać z bogatszych informacji oferowanych przez samą zmienną ilościową.

Procedury pokrewne. Procedura Wykres rozrzutu służy do monitorowania danych pod kątem wielowspółliniowości. Jeśli spełnione są założenia dotyczące wielowymiarowego rozkładu normalnego oraz równości macierzy wariancji-kowariancji, możliwe jest szybsze uzyskanie rozwiązania za pomocą procedury Analiza dyskryminacyjna. Jeśli wszystkie predyktory są zmiennymi jakościowymi, można również użyć procedury log-liniowej. Jeśli zmienna zależna jest zmienną ciągłą, należy użyć regresji liniowej. W celu sporządzenia wykresu prawdopodobieństw zapisanych za pomocą procedury regresji logistycznej możliwe jest wykorzystanie procedury krzywej ROC.

Uzyskiwanie analizy metodą regresji logistycznej

Ta funkcja wymaga oprogramowania SPSS Statistics Standard Edition lub opcji Regression Option.

Z menu wybierz:
Analiza > Regresja > Dwumianowa regresja logistyczna...
Wybierz jedną dychotomiczną zmienną zależną. Ta zmienna może być numeryczna lub łańcuchowa.
Wybierz co najmniej jedną współzmienną. Aby uwzględnić składniki interakcji, zaznacz wszystkie zmienne uczestniczące w interakcji i wybierz pozycję >a*b>.

Aby wprowadzić zmienne w grupach (blokach), wybierz współzmienne dla bloku, a następnie kliknij przycisk Dalej, aby określić nowy blok. Powtarzaj te czynności do czasu, aż zostaną określone wszystkie bloki.

Opcjonalnie można wybrać obserwacje do analizy. Wybierz zmienną filtrującą i wprowadź kryteria reguły.

Ta procedura powoduje wklejenie składni komendy LOGISTIC REGRESSION.