Was ist lineare Regression?

Lineare Regressionsanalyse wird verwendet, um den Wert einer Variablen basierend auf dem Wert einer anderen Variablen vorherzusagen. Die Variable, die Sie vorhersagen möchten, wird als abhängige Variable bezeichnet. Die Variable, die Sie verwenden, um den Wert der anderen Variablen vorherzusagen, wird als unabhängige Variable bezeichnet.

Diese Form der Analyse schätzt die Koeffizienten der linearen Gleichung mit einer oder mehreren unabhängigen Variablen, die den Wert der abhängigen Variablen am besten vorhersagen. Lineare Regression bietet eine gerade Linie oder Fläche, die die Abweichungen zwischen vorhergesagten und tatsächlichen Ausgabewerten minimiert. Es gibt einfache lineare Regressionsrechner, die eine Methode „der kleinsten Quadrate“ verwenden, um die am besten passende Linie für eine Gruppe gepaarter Daten zu ermitteln. Sie schätzen dann den Wert X (abhängige Variable) von Y (unabhängige Variable).

An example of linear regression scatterplot graph

Vorhersagen einfacher generieren

Sie können lineare Regression in Microsoft Excel ausführen oder statistische Softwarepakete wie IBM SPSS® Statistics verwenden, die den Prozess der Verwendung linearer Regressionsgleichungen, linearer Regressionsmodelle und linearer Regressionsformeln erheblich vereinfachen. SPSS Statistics kann in Verfahren wie einfacher linearer Regression und mehrfacher linearer Regression genutzt werden.

Sie können die lineare Regressionsmethode in den verschiedensten Programmen und Umgebungen ausführen, einschließlich:

  • Lineare Regression, R
  • Lineare Regression, MATLAB
  • Lineare Regression, Sklearn
  • Lineare Regression, Python
  • Lineare Regression, Excel

Warum lineare Regression wichtig ist

Lineare Regressionsmodelle sind relativ einfach und stellen eine einfach zu interpretierende mathematische Formel zur Verfügung, die Vorhersagen generieren kann. Lineare Regression kann auf verschiedene Bereiche in Wirtschafts- und anderen Studiengängen angewendet werden.

Sie werden feststellen, dass lineare Regression in allen Bereichen von Bio-, Verhaltens-, Umwelt- und Sozialwissenschaften bis zu Wirtschaftswissenschaften verwendet wird. Lineare Regressionsmodelle sind ein bewährtes Mittel, um die Zukunft wissenschaftlich und zuverlässig vorherzusagen. Da lineare Regression eine seit langem etablierte statistische Prozedur ist, sind die Eigenschaften linearer Regressionsmodelle sehr gut bekannt und können sehr schnell vermittelt werden.

Ein bewährtes Mittel, um die Zukunft wissenschaftlich und zuverlässig vorherzusagen

Führungskräfte können unter Verwendung linearer Regressionsverfahren fundiertere Entscheidungen treffen. Unternehmen erfassen riesige Datenmengen und die lineare Regression unterstützt sie dabei, diese Daten zu nutzen, um die Realität besser im Griff zu haben – statt sich nur auf Erfahrung und Intuition zu verlassen. Sie können große Mengen an Rohdaten aufnehmen und sie in verlässliche Informationen umwandeln.

Sie können lineare Regression auch nutzen, um fundiertere Erkenntnisse zu erhalten, indem Sie Muster und Beziehungen erkennen, die Ihre Kollegen möglicherweise bereits gesehen haben und von denen sie dachten, sie hätten sie bereits verstanden. Wenn Sie beispielsweise eine Analyse von Umsatz- und Kaufdaten durchführen, können Sie bestimmte Kaufgewohnheiten an bestimmten Tagen oder zu bestimmten Zeiten erkennen. Die aus der Regressionsanalyse gewonnenen Erkenntnisse können Führungskräfte dabei unterstützen, Zeiten zu antizipieren, in denen die Nachfrage für Produkte ihres Unternehmens besonders hoch ist.

→ Erfahren Sie mehr über lineare Regression im IBM Knowledge Center

Wichtige Voraussetzung für eine effektive lineare Regression

Voraussetzungen, die für den Erfolg mit linearer Regressionsanalyse zu berücksichtigen sind:

  • Für jede Variable: Berücksichtigen Sie die Anzahl gültiger Fälle, die durchschnittliche und die Standardabweichung.  
  • Für jedes Modell: Berücksichtigen Sie Regressionskoeffizienten, Korrelationsmatrix, Teil- und partielle Korrelationen, mehrfache R, R2, angepasste R2, Änderungen in R2, Standardfehler der Schätzung, Varianzanalysetabelle, vorhergesagte Werte und Residuen. Beachten Sie außerdem Konfidenzintervalle von 95 Prozent für jeden Regressionskoeffizienten, Varianz-Kovarianzmatrix, Varianzinflationsfaktor, Toleranz, Durbin-Watson-Test, Distanzmaße (Mahalanobis, Cook und Hebelwerte), DfBeta, DfFit, Vorhersageintervalle und fallweise Diagnoseinformationen.  
  • Diagramme: Berücksichtigen Sie Streudiagramme, partielle Diagramme, Histogramme und Normalverteilungsdiagramme.
  • Daten: Abhängige und unabhängige Variablen sollten quantitativ sein. Kategorische Variablen, wie z. B. Religion, Hauptstudienfach oder Region des Wohnsitzes, müssen in binäre (Dummy-) Variablen oder andere Arten von Kontrastvariablen umcodiert werden.  
  • Andere Voraussetzungen: Für jeden Wert der unabhängigen Variablen muss die Verteilung der abhängigen Variablen normal sein. Die Abweichung der Verteilung der abhängigen Variablen sollte für alle Werte der unabhängigen Variablen konstant sein. Die Beziehung zwischen der abhängigen Variablen und jeder unabhängigen Variablen sollte linear und alle Beobachtungen sollten unabhängig voneinander sein.

Stellen Sie sicher, dass Ihre Daten linearen Regressions-voraussetzungen entsprechen

Bevor Sie versuchen, eine lineare Regression durchzuführen, müssen Sie sicherstellen, dass Ihre Daten mit dieser Prozedur analysiert werden können. Ihre Daten müssen bestimmte erforderliche Voraussetzungen erfüllen.

Hier erfahren Sie, wie Sie diese Voraussetzungen überprüfen können:

  1. Die Variablen sollten kontinuierlich gemessen werden. Beispiele für kontinuierliche Variablen sind Zeit, Umsatz, Gewicht und Testscores.  
  2. Verwenden Sie ein Streudiagramm, um schnell herauszufinden, ob es eine lineare Beziehung zwischen diesen beiden Variablen gibt.
  3. Die Beobachtungen sollten unabhängig voneinander sein (d. h., es sollte keine Abhängigkeit vorhanden sein).
  4. Ihre Daten sollten keine signifikanten Ausreißer aufweisen.  
  5. Prüfen Sie auf Homoskedastizität – ein statistisches Konzept, bei dem die Abweichungen entlang der passendsten linearen Regressionslinie insgesamt gleich bleiben.
  6. Die Residuen (Fehler) der passendsten Regressionslinie folgen der Normalverteilung.

→ Mit diesem Lernprogramm erfahren Sie mehr über die Datenvoraussetzungen für die lineare Regression (Link führt zu Seite außerhalb von IBM)

Beispiele für erfolgreiche lineare Regression

Auswertung von Trends und Umsatzschätzungen

Sie können auch lineare Regressionsanalyse verwenden, um den Jahresumsatz eines Verkäufers (die abhängige Variable) anhand von unabhängigen Variablen wie Alter, Bildung und Jahre der Erfahrung vorherzusagen.

Analyse der Preiselastizität

Änderungen in der Preisgestaltung beeinflussen häufig das Verbraucherverhalten – und lineare Regression kann Sie dabei unterstützen zu analysieren, wie. Wenn sich beispielsweise der Preis eines bestimmten Produkts ständig ändert, können Sie Regressionsanalyse verwenden, um festzustellen, ob der Verbrauch sinkt, wenn der Preis steigt. Was wäre, wenn der Verbrauch nicht signifikant sinkt, wenn sich der Preis erhöht? Ab welchem Preispunkt stoppen Einkäufer den Kauf des Produkts? Diese Informationen wären für Führungskräfte in einem Einzelhandelsunternehmen sehr hilfreich.

Risikobewertung in einer Versicherungs-gesellschaft

Lineare Regressionsverfahren können verwendet werden, um Risiken zu analysieren. Beispiel: Eine Versicherungsgesellschaft verfügt über begrenzte Ressourcen zur Untersuchung der Schadensmeldungen von Hauseigentümern. Mit linearer Regression kann das zuständige Team ein Modell für die Schätzung der Schadenshöhe erstellen. Die Analyse könnte Führungskräften helfen, wichtige Geschäftsentscheidungen zu treffen, welche Risiken eingegangen werden.

Sportanalyse

Lineare Regression gibt es nicht nur in der Wirtschaft. Sie ist auch im Sport wichtig. Vielleicht fragen Sie sich, ob die Anzahl Spiele, die ein Basketballteam in einer Saison gewonnen hat, mit der durchschnittlichen Punktzahl der Mannschaft pro Spiel zusammenhängt. Ein Streudiagramm zeigt, dass diese Variablen linear in Beziehung zueinander stehen. Die Anzahl der gewonnenen Spiele und die durchschnittliche Punktzahl, die der Gegner erzielt hat, sind ebenfalls linear miteinander verbunden. Diese Variablen haben eine negative Beziehung. Da die Anzahl der gewonnenen Spiele zunimmt, sinkt die durchschnittliche Punktzahl, die der Gegner erzielt hat. Mit linearer Regression können Sie die Beziehung dieser Variablen modellieren. Ein gutes Modell kann verwendet werden, um vorherzusagen, wie viele Spiele Teams gewinnen werden.

Produkte für lineare Regression

IBM SPSS Statistics-Software

Fördern Sie Forschung und Analyse mit dieser schnellen, leistungsstarken Lösung.

IBM SPSS Statistics Grad Pack und Faculty Packs

Studenten, Lehrer und Forscher erhalten bezahlbaren Zugang zu Software für die Vorhersageanalyse.

IBM Cognos® Statistics

Diese bewährte Self-Service-Analyselösung hilft Ihnen, Ihre Daten beliebig zu kombinieren und überzeugende Visualisierungen zu erstellen.