Czym jest regresja liniowa?

Analiza regresji liniowej pozwala przewidzieć wartość zmiennej na podstawie wartości innej zmiennej. Zmienna, której wartość ma zostać oszacowana, jest nazywana zmienną zależną. Zmienna, która służy do obliczenia wartości innej zmiennej, jest nazywana zmienną niezależną.

Ta metoda analityczna wskazuje takie współczynniki równania liniowego z co najmniej jedną zmienną niezależną, które pozwalają najlepiej przewidzieć wartość zmiennej zależnej. Regresja liniowa dopasowuje linię prostą lub powierzchnię, która minimalizuje rozbieżności między wartościami przewidywanymi a rzeczywistymi wynikami. Dostępne są proste kalkulatory regresji liniowej, które za pomocą metody „najmniejszych kwadratów” wyznaczają linię najlepszego dopasowania dla danego zestawu sparowanych danych. Następnie na podstawie wartości Y (zmienna niezależna) szacowana jest wartość X (zmienna zależna).

Przykładowy wykres rozrzutu regresji liniowej

Prostsze generowanie prognoz

Regresję liniową można obliczyć w programie Microsoft Excel lub przy użyciu pakietów oprogramowania statystycznego, takich jak IBM SPSS® Statistics, które znacząco upraszczają korzystanie z równań, modeli i wzoru regresji liniowej. SPSS Statistics pozwala na korzystanie z takich technik, jak prosta regresja liniowa i wieloraka regresja liniowa.

Z metody regresji liniowej można korzystać w różnych programach i środowiskach, np.:

  • R
  • MATLAB
  • Sklearn
  • Python
  • Excel

Dlaczego regresja liniowa jest ważna

Modele regresji liniowej są stosunkowo proste i wyznaczają łatwy do interpretacji wzór matematyczny, który pozwala generować prognozy. Regresja liniowa ma wiele różnych zastosowań zarówno w biznesie, jak i w nauce.

Jest stosowana praktycznie wszędzie — od biologii przez behawioryzm i ekologię po nauki społeczne i biznes. Modele regresji liniowej okazały się sprawdzonym narzędziem do naukowego i skutecznego przewidywania przyszłości. Ponieważ regresja liniowa jest metodą statystyczną stosowaną od wielu lat, właściwości modeli regresji liniowej są dobrze znane, a trenowanie takich modeli trwa krótko.

Sprawdzone narzędzie do naukowego i skutecznego przewidywania przyszłości

Dzięki wykorzystaniu różnych metod regresji liniowej liderzy firm i organizacji mogą podejmować lepsze decyzje. Organizacje gromadzą ogromne ilości danych, a wykorzystując regresję liniową, mogą sprawniej używać tych informacji do lepszego zarządzania realnym środowiskiem zamiast zdawać się tylko na doświadczenie i intuicję. Użytkownik może na przykład wziąć dużą ilość surowych danych i przekształcić je w wartościowe informacje.

Regresja liniowa pozwala również na pogłębioną analizę i odkrywa nowe wzorce i relacje, które Twoi współpracownicy mogli już zauważyć i przyjąć za oczywiste. Możesz na przykład przeanalizować dane zakupowe i sprzedażowe, by zidentyfikować konkretne wzorce zakupowe dla poszczególnych dni lub momentów. Spostrzeżenia pozyskane w drodze analizy regresji pozwolą liderom biznesowym przewidywać okres, w którym popyt na ich produkt będzie wysoki.

→ Dowiedz się więcej o regresji liniowej w Centrum Wiedzy IBM

Podstawowe założenia skutecznego zastosowania regresji liniowej

Założenia, o których należy pamiętać, by z powodzeniem przeprowadzić analizę regresji liniowej:

  • Dla każdej zmiennej: należy określić liczbę ważnych obserwacji, średnią i odchylenie standardowe. 
  • Dla każdego modelu: należy określić współczynniki regresji, macierz korelacji, korelacje semicząstkowe i cząstkowe, wielokrotne R, R2, skorygowane R2, zmianę w R2, standardowy błąd oszacowania, tabelę analizy wariancji, wartości przewidywane oraz reszty. Ponadto należy wskazać przedziały ufności 95% dla każdego współczynnika regresji, macierz wariancji i kowariancji, czynnik nadmiaru wariancji, tolerancję, wykonać test Durbina-Watsona, wskazać miary odległości (Mahalanobisa, Cooka oraz wartości wpływu), obliczyć miary DfBeta i DfFit, wskazać przedziały predykcji oraz uwzględnić informacje diagnostyczne obserwacji. 
  • Wykresy: należy przeanalizować wykresy rozrzutu, wykresy cząstkowe, histogramy i normalne wykresy prawdopodobieństwa.
  • Dane: zmienne zależne i niezależne powinny być zmiennymi ilościowymi. Zmienne kategorialne, jak na przykład wyznanie, główny przedmiot studiów lub miejsce zamieszkania, muszą być zakodowane w zmiennych binarnych (sztucznych) lub innych zmiennych kontrastowych.  
  • Pozostałe założenia: dla każdej wartości zmiennej niezależnej rozkład zmiennej zależnej musi być normalny. Wariancja rozkładu zmiennej zależnej powinna być stała dla wszystkich wartości zmiennej niezależnej. Relacja między zmienną zależną a każdą zmienną niezależną powinna być liniowa, a wszystkie obserwacje powinny być niezależne.

Zgodność danych z założeniami regresji liniowej

Zanim zastosujesz regresję liniową, musisz upewnić się, że Twoje dane można przeanalizować za pomocą tej metody. Takie dane muszą spełniać określone założenia.

Oto warunki, które muszą być spełnione:

  1. Zmienne powinny mieć charakter ciągły. Przykładowe zmienne ciągłe to na przykład czas, sprzedaż, masa i wyniki testu. 
  2. Użyj wykresu rozrzutu, by szybko sprawdzić, czy między takimi dwiema zmiennymi zachodzi relacja liniowa.
  3. Obserwacje powinny być od siebie niezależne (tzn. nie mogą występować żadne zależności).
  4. W danych nie powinny występować żadne istotne elementy odstające. 
  5. Sprawdź homoskedastyczność — to pojęcie statystyczne odnoszące się do sytuacji, w której wariancje wzdłuż linii najlepszego dopasowania regresji liniowej są podobne na całej jej długości.
  6. Reszty (błędy) linii najlepszego dopasowania powinny mieć rozkład normalny.

→ Ten praktyczny kurs pozwoli Ci dowiedzieć się więcej o założeniach dotyczących danych w kontekście regresji liniowej (odsyłacz prowadzi poza serwis IBM)

Przykłady skutecznego wykorzystania regresji liniowej

Ocena trendów i szacowanie sprzedaży

Analiza regresji liniowej pozwala również na oszacowanie rocznego wyniku sprzedawcy (zmienna zależna) na podstawie zmiennych niezależnych, takich jak wiek, wykształcenie i lata doświadczenia.

Analiza elastyczności cen

Zmiany cen często wpływają na zachowania klientów, a regresja liniowa może ułatwić analizę tych reakcji. Jeśli na przykład cena konkretnego produktu ciągle się zmienia, możesz użyć analizy regresji, by sprawdzić, czy wraz ze wzrostem ceny sprzedaż danego produktu spada. Dlaczego wzrost cen może nie skutkować istotnym spadkiem sprzedaży? Jaka cena skutecznie zniechęci klientów do zakupu produktu? Takie informacje mogą być bardzo pomocne dla menedżerów sklepów detalicznych.

Ocena ryzyka w firmie ubezpieczeniowej

Metody regresji liniowej można wykorzystać do analizy ryzyka. Przykładowo, firma ubezpieczeniowa, która ma ograniczone zasoby, by analizować roszczenia z tytułu ubezpieczenia mieszkania, może za pomocą regresji liniowej opracować model do szacowania kosztów takich roszczeń. Taka analiza ułatwi kierownictwu firmy podejmowanie ważnych decyzji biznesowych o tym, jakie ryzyko można podjąć.

Analiza w sporcie

Regresja liniowa ma zastosowanie nie tylko w biznesie. Odgrywa ważną rolę także w sporcie. Możesz na przykład się zastanawiać, czy liczba wygranych przez drużynę koszykówki meczów jest powiązana ze średnią liczbą punktów zdobytych przez dany zespół w czasie jednego spotkania. Wykres rozrzutu pokazuje, czy te zmienne są ze sobą powiązane liniowo. Liczba wygranych meczów i średnia liczba punktów zdobytych przez przeciwnika również są powiązane liniowo. Te zmienne mają ujemną relację. Wraz z kolejnymi wygranymi meczami średnia liczba zdobytych przez przeciwnika punktów maleje. Regresja liniowa pozwala utworzyć model relacji między tymi zmiennymi. Dobry model może pozwolić przewidzieć liczbę meczów wygranych przez zespół.

Produkty w dziedzinie regresji liniowej

Oprogramowanie IBM SPSS Statistics

Szybkie, wszechstronne rozwiązanie, które przyspiesza prace badawcze i analityczne.

IBM SPSS Statistics GradPack i Faculty Pack

Ekonomiczny dostęp do oprogramowania predykcyjno-analitycznego dla uczniów, studentów, wykładowców i badaczy.

IBM Cognos® Statistics

Sprawdzone, samoobsługowe rozwiązanie analityczne, które ułatwia łączenie i dopasowywanie danych oraz tworzenie interesujących wizualizacji.