Czym jest regresja liniowa?

Analiza regresji liniowej pozwala przewidzieć wartość zmiennej na podstawie wartości innej zmiennej. Zmienna, której wartość ma zostać oszacowana, jest nazywana zmienną zależną. Zmienna, która służy do obliczenia wartości innej zmiennej, jest nazywana zmienną niezależną.

Ta metoda analityczna wskazuje takie współczynniki równania liniowego z co najmniej jedną zmienną niezależną, które pozwalają najlepiej przewidzieć wartość zmiennej zależnej. Regresja liniowa dopasowuje linię prostą lub powierzchnię, która minimalizuje rozbieżności między wartościami przewidywanymi a rzeczywistymi wynikami. Dostępne są proste kalkulatory regresji liniowej, które za pomocą metody „najmniejszych kwadratów” wyznaczają linię najlepszego dopasowania dla danego zestawu sparowanych danych. Następnie na podstawie wartości Y (zmienna niezależna) szacowana jest wartość X (zmienna zależna).

Przykładowy wykres rozrzutu regresji liniowej

Prostsze generowanie prognoz

Regresję liniową można obliczyć w programie Microsoft Excel lub przy użyciu pakietów oprogramowania statystycznego, takich jak IBM SPSS® Statistics, które znacząco upraszczają korzystanie z równań, modeli i wzoru regresji liniowej. SPSS Statistics pozwala na korzystanie z takich technik, jak prosta regresja liniowa i wieloraka regresja liniowa.

Z metody regresji liniowej można korzystać w różnych programach i środowiskach, np.:

  • R
  • MATLAB
  • Sklearn
  • Python
  • Excel

Dlaczego regresja liniowa jest ważna

Modele regresji liniowej są stosunkowo proste i wyznaczają łatwy do interpretacji wzór matematyczny, który pozwala generować prognozy. Regresja liniowa ma wiele różnych zastosowań zarówno w biznesie, jak i w nauce.

Jest stosowana praktycznie wszędzie — od biologii przez behawioryzm i ekologię po nauki społeczne i biznes. Modele regresji liniowej okazały się sprawdzonym narzędziem do naukowego i skutecznego przewidywania przyszłości. Ponieważ regresja liniowa jest metodą statystyczną stosowaną od wielu lat, właściwości modeli regresji liniowej są dobrze znane, a trenowanie takich modeli trwa krótko.

Sprawdzone narzędzie do naukowego i skutecznego przewidywania przyszłości

Dzięki wykorzystaniu różnych metod regresji liniowej liderzy firm i organizacji mogą podejmować lepsze decyzje. Organizacje gromadzą ogromne ilości danych, a wykorzystując regresję liniową, mogą sprawniej używać tych informacji do lepszego zarządzania realnym środowiskiem zamiast zdawać się tylko na doświadczenie i intuicję. Użytkownik może na przykład wziąć dużą ilość surowych danych i przekształcić je w wartościowe informacje.

Regresja liniowa pozwala również na pogłębioną analizę i odkrywa nowe wzorce i relacje, które Twoi współpracownicy mogli już zauważyć i przyjąć za oczywiste. Możesz na przykład przeanalizować dane zakupowe i sprzedażowe, by zidentyfikować konkretne wzorce zakupowe dla poszczególnych dni lub momentów. Spostrzeżenia pozyskane w drodze analizy regresji pozwolą liderom biznesowym przewidywać okres, w którym popyt na ich produkt będzie wysoki.

Podstawowe założenia skutecznego zastosowania regresji liniowej

Założenia, o których należy pamiętać, by z powodzeniem przeprowadzić analizę regresji liniowej:

  • Dla każdej zmiennej: należy określić liczbę ważnych obserwacji, średnią i odchylenie standardowe. 
  • Dla każdego modelu: należy określić współczynniki regresji, macierz korelacji, korelacje semicząstkowe i cząstkowe, wielokrotne R, R2, skorygowane R2, zmianę w R2, standardowy błąd oszacowania, tabelę analizy wariancji, wartości przewidywane oraz reszty. Ponadto należy wskazać przedziały ufności 95% dla każdego współczynnika regresji, macierz wariancji i kowariancji, czynnik nadmiaru wariancji, tolerancję, wykonać test Durbina-Watsona, wskazać miary odległości (Mahalanobisa, Cooka oraz wartości wpływu), obliczyć miary DfBeta i DfFit, wskazać przedziały predykcji oraz uwzględnić informacje diagnostyczne obserwacji. 
  • Wykresy: należy przeanalizować wykresy rozrzutu, wykresy cząstkowe, histogramy i normalne wykresy prawdopodobieństwa.
  • Dane: zmienne zależne i niezależne powinny być zmiennymi ilościowymi. Zmienne kategorialne, jak na przykład religia, główny przedmiot studiów lub miejsce zamieszkania, muszą być zakodowane w zmiennych binarnych (sztucznych) lub innych zmiennych kontrastowych.  
  • Pozostałe założenia: dla każdej wartości zmiennej niezależnej rozkład zmiennej zależnej musi być normalny. Wariancja rozkładu zmiennej zależnej powinna być stała dla wszystkich wartości zmiennej niezależnej. Relacja między zmienną zależną a każdą zmienną niezależną powinna być liniowa, a wszystkie obserwacje powinny być niezależne.

Zgodność danych z założeniami regresji liniowej

Zanim zastosujesz regresję liniową, musisz upewnić się, że Twoje dane można przeanalizować za pomocą tej metody. Takie dane muszą spełniać określone założenia.

Oto warunki, które muszą być spełnione:

  1. Zmienne powinny mieć charakter ciągły. Przykładowe zmienne ciągłe to na przykład czas, sprzedaż, masa i wyniki testu. 
  2. Użyj wykresu rozrzutu, by szybko sprawdzić, czy między takimi dwiema zmiennymi zachodzi relacja liniowa.
  3. Obserwacje powinny być od siebie niezależne (tzn. nie mogą występować żadne zależności).
  4. W danych nie powinny występować żadne istotne elementy odstające. 
  5. Sprawdź homoskedastyczność — to pojęcie statystyczne odnoszące się do sytuacji, w której wariancje wzdłuż linii najlepszego dopasowania regresji liniowej są podobne na całej jej długości.
  6. Reszty (błędy) linii najlepszego dopasowania powinny mieć rozkład normalny.

Ocena trendów i szacowanie sprzedaży

Analiza regresji liniowej pozwala również na oszacowanie rocznego wyniku sprzedawcy (zmienna zależna) na podstawie zmiennych niezależnych, takich jak wiek, wykształcenie i lata doświadczenia.

Analiza elastyczności cen

Zmiany cen często wpływają na zachowania klientów, a regresja liniowa może ułatwić analizę tych reakcji. Jeśli na przykład cena konkretnego produktu ciągle się zmienia, możesz użyć analizy regresji, by sprawdzić, czy wraz ze wzrostem ceny sprzedaż danego produktu spada. Co oznacza brak znaczącego spadku w sprzedaży mimo podwyżki cen? Przy jakiej cenie konsumenci przestają kupować produkt? Takie informacje mogą być bardzo pomocne dla menedżerów sklepów detalicznych.

Ocena ryzyka w firmie ubezpieczeniowej

Metody regresji liniowej można wykorzystać do analizy ryzyka. Przykładowo, firma ubezpieczeniowa, która ma ograniczone zasoby, by analizować roszczenia z tytułu ubezpieczenia mieszkania, może za pomocą regresji liniowej opracować model do szacowania kosztów takich roszczeń. Taka analiza ułatwi kierownictwu firmy podejmowanie ważnych decyzji biznesowych o tym, jakie ryzyko można podjąć.

Analiza w sporcie

Regresja liniowa ma nie tylko zastosowanie w biznesie. Odgrywa ważną rolę także w sporcie. Możesz na przykład się zastanawiać, czy liczba wygranych przez drużynę koszykówki meczów jest powiązana ze średnią liczbą punktów zdobytych przez dany zespół w czasie jednego spotkania. Wykres rozrzutu pokazuje, czy te zmienne są ze sobą powiązane liniowo. Liczba wygranych meczów i średnia liczba punktów zdobytych przez przeciwnika również są powiązane liniowo. Te zmienne mają ujemną relację. Wraz z kolejnymi wygranymi meczami średnia liczba zdobytych przez przeciwnika punktów maleje. Regresja liniowa pozwala utworzyć model relacji między tymi zmiennymi. Dobry model może pozwolić przewidzieć liczbę meczów wygranych przez zespół.

Produkty do regresji liniowej

Oprogramowanie IBM SPSS Statistics

Szybkie, wszechstronne rozwiązanie, które przyspiesza prace badawcze i analityczne.

IBM SPSS Statistics GradPack i Faculty Pack

Ekonomiczny dostęp do oprogramowania predykcyjno-analitycznego dla uczniów, studentów, wykładowców i badaczy.

IBM Cognos Statistics

Sprawdzone, samoobsługowe rozwiązanie analityczne, które ułatwia łączenie i dopasowywanie danych oraz tworzenie interesujących wizualizacji.