Mein IBM Anmelden Abonnieren

Was ist Multikollinearität?

21. November 2023

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Was ist Multikollinearität?

Multikollinearität bedeutet, dass unabhängige Variablen in einer linearen Regressionsgleichung korreliert sind. Multikollineare Variablen können sich negativ auf Modellvorhersagen zu unbekannten Daten auswirken. Mehrere Regularisierungstechniken können Multikollinearität erkennen und beheben.

Multikollinearität oder Kollinearität?

Von Kollinearität spricht man, wenn zwei unabhängige Variablen in einer Regressionsanalyse selbst korreliert sind. Multikollinearität bedeutet, dass mehr als zwei unabhängige Variablen korreliert sind.1 Das Gegenteil ist die Orthogonalität, die angibt, dass unabhängige Variablen nicht korreliert sind. Multikollinearität verhindert, dass Vorhersagemodelle genaue Vorhersagen treffen, indem sie die Modellkomplexität erhöhen und eine Überanpassung bewirken.

Kontext: Regressionsanalyse 

Eine standardmäßige multivariate lineare Regressionsgleichung lautet:

Y ist die vorhergesagte Ausgabe (abhängige Variable) und X ist ein beliebiger Prädiktor (unabhängige oder erklärende Variable). B ist der Regressionskoeffizient und misst die Änderung von Y für jede Änderungseinheit des zugehörigen Prädiktors (Xn) unter der Annahme, dass alle anderen Prädiktoren konstant bleiben. X0 ist der Wert der Antwortvariablen (Y), wenn die unabhängige Variable gleich Null ist. Dieser Endwert wird auch Y-Achsenabschnitt genannt.2

Natürlich zielt diese Polynomgleichung darauf ab, die Korrelation zwischen Y und Xn zu messen und abzubilden. In einem idealen Vorhersagemodell ist keine der unabhängigen Variablen (Xn) selbst korreliert. Dennoch kann dies in Modellen mit realen Daten häufig vorkommen, insbesondere wenn die Modelle mit vielen unabhängigen Variablen entworfen wurden.

Auswirkungen der Multikollinearität

Bei der Erstellung eines Vorhersagemodells müssen wir Koeffizienten berechnen, da diese selten im Voraus bekannt sind. Zur Schätzung der Regressionskoeffizienten verwenden wir einen gewöhnlichen Matrix-Koeffizientenschätzer der kleinsten Quadrate (OLS):

Um die Funktion dieser Formel zu verstehen, ist die Vertrautheit mit der Matrixnotation erforderlich. Aktuell ist es allerdings nur wichtig, zu verstehen, dass die Größe und der Inhalt der X-Matrix durch die unabhängigen Variablen bestimmt werden, die als Parameter des Modells ausgewählt wurden. Darüber hinaus wird der Grad der Korrelation zwischen Prädiktorvariablen, die als Korrelationskoeffizienten bezeichnet und so dargestellt werden, bei der Berechnung von Regressionskoeffizienten zwischen X und Y verwendet werden.3

Wenn unabhängige Variablen in das Modell aufgenommen oder daraus ausgeschlossen werden, können sich die geschätzten Koeffizienten für einen beliebigen Prädiktor drastisch ändern, wodurch Koeffizientenschätzungen unzuverlässig und ungenau werden. Die Korrelation zwischen zwei oder mehr Prädiktoren erschwert die Bestimmung des individuellen Einflusses einer Variablen auf das Modellergebnis. Denken Sie daran, dass ein Regressionskoeffizient die Auswirkung einer gegebenen Prädiktorvariablen auf die Ausgabe misst, wobei angenommen wird, dass andere Prädiktoren konstant bleiben. Wenn Prädiktoren jedoch korrelieren, ist es möglicherweise nicht möglich, diese zu isolieren. Daher spiegeln die geschätzten Regressionskoeffizienten für multikollineare Variablen nicht den Effekt eines einzelnen Prädiktors auf die Ausgabe wider, sondern vielmehr den partiellen Effekt des Prädiktors, je nachdem, welche Kovariaten im Modell enthalten sind.4

Zusätzlich können unterschiedliche Datenproben oder sogar kleine Änderungen in den Daten mit denselben multikollinearen Variablen zu stark unterschiedlichen Regressionskoeffizienten führen. Dies ist vielleicht das bekannteste Problem der Multikollinearität: Überanpassung. Überanpassung bezeichnet Modelle mit niedrigem Trainingsfehler und hohem Generalisierungsfehler. Wie bereits erwähnt, bleibt die statistische Signifikanz einer multikollinearen Variablen aufgrund ihrer Beziehung zu den anderen Variablen unklar. Dies verhindert eine genaue Berechnung der statistischen Signifikanz einer Variablen für die Ausgabe des Modells, was die Koeffizientenschätzung weitgehend anzeigt. Da Multikollinearität die Berechnung präziser Koeffizientenschätzungen verhindert, können multikollineare Modelle nicht auf unbekannte Daten generalisiert werden. Somit weisen geschätzte Koeffizienten für multikollineare Variablen eine große Variabilität auf, die auch als großer Standardfehler bezeichnet wird.5

Arten der Multikollinearität

Grade der Multikollinearität

In Statistiklehrbüchern und -artikeln wird manchmal zwischen extremer und perfekter Multikollinearität unterschieden. Eine perfekte Multikollinearität liegt vor, wenn eine unabhängige Variable eine perfekte lineare Korrelation mit einer oder mehreren unabhängigen Variablen aufweist. Von extremer Multikollinearität spricht man, wenn ein Prädiktor stark mit einer oder mehreren zusätzlichen unabhängigen Variablen korreliert.6 Dies sind die beiden Hauptgrade der Multikollinearität.

Ursachen der Multikollinearität

Es gibt nicht so sehr verschiedene Formen der Multikollinearität, sondern vielmehr verschiedene mögliche Ursachen. Diese Ursachen können von der Art der betrachteten Daten bis hin zu schlecht konzipierten Experimenten reichen. Einige häufige Ursachen sind:

Datenerfassung Diese datenbasierte Multikollinearität kann entstehen, wenn ein nicht repräsentativer Teilraum der betreffenden Daten untersucht wird. Zum Beispiel liefern Montgomery et al. das Beispiel eines Lieferketten-Lieferdatensatzes, in dem Bestellabstand und -größe unabhängige Variablen eines Vorhersagemodells darstellen. Aus den von ihnen bereitgestellten Daten geht hervor, dass die Größe des Bestellbestands mit der Lieferentfernung zuzunehmen scheint. Die Lösung für diesen Zusammenhang ist einfach: Erfassen und berücksichtigen Sie Datenbeispiele für Lieferungen über kurze Strecken mit großen Lagerbeständen oder umgekehrt.7

- Modellbeschränkungen Dies ähnelt der Datenerfassung, ist jedoch nicht damit identisch. Multikollinearität kann aufgrund der Art der Daten und der betreffenden Vorhersagemodellvariablen entstehen. Stellen Sie sich vor, wir erstellen ein Vorhersagemodell zur Messung der Mitarbeiterzufriedenheit am Arbeitsplatz, wobei die geleisteten Arbeitsstunden pro Woche und der gemeldete Stress zwei von mehreren Prädiktoren sind. Aufgrund der Art der Daten kann es sehr wohl eine Korrelation zwischen diesen Prädiktoren geben, d. h. Menschen, die mehr arbeiten, berichten wahrscheinlich über mehr Stress. Eine ähnliche Situation kann eintreten, wenn Bildung und Gehalt als Prädiktoren dienen – Mitarbeiter mit höherem Bildungsgrad verdienen wahrscheinlich mehr. In diesem Fall kann das Problem nicht durch das Erfassen weiterer Daten gelöst werden, da die Daten selbst multikollinear sind.

- Überdefiniertes Modell Multikollinearität kann auftreten, wenn es mehr Modellprädiktoren als Datenbeobachtungspunkte gibt. Dieses Problem kommt insbesondere in der Biostatistik oder anderen biologischen Studien vor. Um überdefinierte Modelle zu lösen, müssen ausgewählte Prädiktoren vollständig aus dem Modell entfernt werden. Aber wie lässt sich bestimmen, welche Modelle entfernt werden sollen? Man kann mehrere Vorstudien mit Teilmengen von Regressoren (d. h. Prädiktoren) durchführen oder die Hauptkomponentenanalyse (PCA) verwenden, um multikollineare Variablen zu kombinieren.8

Datenbasierte und strukturelle Multikollinearität

Ausgewählte Datentypen können insbesondere zu Multikollinearität führen. Zeitreihendaten stehen dabei an erster Stelle. Wachstums- und Trendfaktoren, insbesondere in der Wirtschaft, bewegen sich im Laufe der Zeit oft in die gleiche Richtung, was leicht zu Multikollinearität führt. Darüber hinaus sind Beobachtungsstudien in den Sozialwissenschaften leicht anfällig auf Multikollinearität, da viele sozioökonomische Variablen (z. B. Einkommen, Bildung, politische Zugehörigkeit usw.) oft miteinander verknüpft sind und von den Forschern nicht kontrolliert werden.9

Multikollinearität kann auch durch die Manipulation von Prädiktorvariablen entstehen. In einigen Fällen können die quadrierten oder verzögerten Werte unabhängiger Variablen als neue Modellprädiktoren verwendet werden. Natürlich weisen diese neuen Prädiktoren eine hohe Korrelation mit den unabhängigen Variablen auf, aus denen sie abgeleitet wurden.10 Dies ist eine strukturelle Multikollinearität.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

So erkennen Sie Multikollinearität

Große geschätzte Koeffizienten können an sich schon auf Multikollinearität hinweisen, ebenso wie massive Veränderungen der geschätzten Koeffizienten, wenn ein einzelner Prädiktor (oder sogar ein Datenpunkt) zum Modell hinzugefügt oder daraus entfernt wird. Koeffizienten mit großen Konfidenzintervallen weisen ebenfalls auf Multikollinearität hin. Gelegentlich können Koeffizienten, bei denen Vorzeichen oder Größenordnungen von den Erwartungen aus der vorläufigen Datenanalyse abweichen, auf Multikollinearität hinweisen. Natürlich bestätigt keine dieser Methoden definitiv Multikollinearität und liefert auch keine quantitativen Messungen der Multikollinearität.11 Mehrere Diagnosemethoden helfen jedoch dabei.

Zwei relativ einfache Hilfsmittel zur Messung von Multikollinearität sind ein Streudiagramm und eine Korrelationsmatrix unabhängiger Variablen. Bei einem Streudiagramm werden die Werte der unabhängigen Variablen für jeden Datenpunkt gegeneinander aufgetragen. Wenn das Streudiagramm eine lineare Korrelation zwischen den ausgewählten Variablen aufzeigt, kann ein gewisses Maß an Multikollinearität vorliegen. Diese Abbildung veranschaulicht multikollineare Daten in einem Streudiagramm anhand des Lieferdatensatzbeispiels von Montgomery et al.

Eine weitere Diagnosemethode ist die Berechnung einer Korrelationsmatrix für alle unabhängigen Variablen. Die Elemente der Matrix sind die Korrelationskoeffizienten zwischen den einzelnen Prädiktoren in einem Modell. Der Korrelationskoeffizient ist ein Wert zwischen -1 und 1, der den Grad der Korrelation zwischen zwei Prädiktoren misst. Beachten Sie, dass die Matrix eine Diagonale aus Einsen zeigt, da jede Variable eine perfekte Korrelation mit sich selbst aufweist. Je höher ein bestimmtes Matrixelement ist, desto größer ist der Grad der Korrelation zwischen ihnen.12

Varianzinflationsfaktor

Der Varianzinflationsfaktor (VIF) ist die gängigste Methode zur Bestimmung des Multikollinearitätsgrads in linearen Regressionsmodellen. Jeder Modellprädiktor hat einen VIF-Wert, der angibt, wie stark die Varianz dieses Prädiktors durch die anderen Prädiktoren des Modells aufgebläht wird.

Der VIF-Algorithmus umfasst mehrere Schritte. Eine vollständige Erläuterung dieses Algorithmus würde jedoch den Rahmen dieses Artikels sprengen. Es genügt zu sagen, dass VIF den Anteil einer ausgewählten Variablen an der Varianz so misst, wie er durch die anderen unabhängigen Variablen des Modells bestimmt wird. Die Formel zur Bestimmung des VIF lautet:

R-Quadrat (R2) bezeichnet den Mehrfachdeterminationskoeffizienten, der sich durch Regression einer unabhängigen Variablen gegen alle anderen ergibt.13 Der unterste Term der VIF-Gleichung ist die Toleranz, ein Konzept, das sich von den Toleranzintervallen unterscheidet. Die Toleranz ist der Kehrwert von VIF. Obwohl es in der Literatur weit weniger diskutiert wird, ist es dennoch ein weiteres brauchbares Mittel zur Berechnung der Multikollinearität.14

Je höher der VIF-Wert, desto größer ist der Grad der Multikollinearität.Es gibt keinen VIF-Grenzwert, der ein Modell als „gut“ oder „schlecht“ einstuft. Dennoch gilt als Faustregel, dass ein VIF-Wert von größer oder gleich zehn auf eine starke Multikollinearität hindeutet.15

Beachten Sie, dass R und Python Funktionen zur Berechnung des VIF enthalten. Die vif()-Funktion im car-Paket von R und die variance_inflation_factor()-Funktion im statsmodels.stats-Modul von Python können VIF für ein bestimmtes Modell berechnen.16

So beheben Sie die Multikollinearität

Wie bereits erwähnt, reichen einfache Fixes für Multikollinearität von der Diversifizierung oder Vergrößerung der Stichprobengröße von Trainingsdaten bis hin zum vollständigen Entfernen von Parametern. Verschiedene Regularisierungstechniken helfen auch, das Problem der Multikollinearität zu beheben. Die Ridge-Regression ist eine weithin empfohlene Methode, bei der hochwertige Koeffizienten bestraft werden, wodurch der Einfluss multikollinearer Prädiktoren auf die Ausgabe des Modells verringert wird. Bei der Lasso-Regression werden in ähnlicher Weise hohe Koeffizienten bestraft. Der Hauptunterschied zwischen diesen beiden besteht darin, dass Ridge lediglich die Koeffizientenwerte auf nahezu Null reduziert, während Lasso die Koeffizienten auf Null reduzieren kann, wodurch unabhängige Variablen effektiv vollständig aus dem Modell entfernt werden.

Beispielanwendungsfälle

Finanzen

Da die Wirtschafts- und Finanzforschung keine kontrollierten Experimente durchführen kann und größtenteils mit Zeitreihendaten arbeitet, ist Multikollinearität ein ständiges Problem. Aktuelle Forschungsergebnisse stellen Methoden zur Eliminierung von Prädiktoren (z. B. PCA) zur Lösung von Kollinearität in Frage, da dadurch möglicherweise wichtige Prädiktoren entfernt werden.17 An anderer Stelle wenden Forscher die Ridge-Regression und daraus abgeleitete neuartige Schrumpfungsmethoden an, um Multikollinearität bei der Analyse von Anlageentscheidungen zu korrigieren.18

Strafverfolgung

Wie viele andere Teilgebiete der Sozialwissenschaften stützen sich Kriminologie und Strafjustiz auf Beobachtungsstudien, in denen häufig Multikollinearität auftritt. Forscher können Variablenkombinationen (z. B. PCA)19 sowie Variablen-Drop-Methoden verwenden, um Multikollinearität aufzulösen.20 Beachten Sie, dass in der letztgenannten Studie ein VIF größer als drei auf eine zu hohe Multikollinearität hinweist, was zeigt, dass nicht alle Forschungsarbeiten der VIF>10-Regel folgen. Die Forschung erkundet auch andere Diagnose- und Auflösungsmethoden für Multikollinearität, wie z. B. die Dominanzanalyse, die Prädiktoren nach ihrem Beitrag zur Varianz zum Modell einstuft.21

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Weiterführende Lösungen

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen
Fußnoten

1 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani und Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://doi.org/10.1007/978-3-031-38747-0

Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter und William Li, Applied Statistical Linear Models, 5. Auflage, McGraw-Hill, 2005.

4 Michael Kutner, Christopher Nachtsheim, John Neter und William Li, Applied Statistical Linear Models, 5. Auflage, McGraw-Hill, 2005.

5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael H. Kutner, Christopher J. Nachtsheim, John Neter und William Li, Applied Statistical Linear Models, 5. Auflage, McGraw-Hill, 2005.

6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.

7 Douglas Montgomery, Elizabeth Peck und G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

8 R.F. Gunst und J.T. Webster, „Regression analysis and problems of multicollinearity,“ Communications in Statistics, Vol. 4, No. 3, 1975, pp. 277-292, https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist und Paula Stephan, Understanding Regression Analysis: An Introductory Guide, 2. Auflage, SAGE, 2017.

10 R.F. Gunst und J.T. Webster, „Regression analysis and problems of multicollinearity,“ Communications in Statistics, Vol. 4, No. 3, 1975, pp. 277-292, https://doi.org/10.1080/03610927308827246

11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter und William Li, Applied Statistical Linear Models, 5. Auflage, McGraw-Hill, 2005.

12 Michael Kutner, Christopher Nachtsheim, John Neter und William Li, Applied Statistical Linear Models, 5. Auflage, McGraw-Hill, 2005.

13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986. Paul Allison, Multiple Regression: A Primer, Pine Forge Press, 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson und Ronald Tatham, Multivariate Data Analysis, 6. Auflage, Pearson, 2006.

14 Richard Darlington und Andrew Hayes, Regression Analysis and Linear Models: Concepts, Applications, and Implementation, Guilford Press, 2017.

15 Michael Kutner, Christopher Nachtsheim, John Neter und William Li, Applied Statistical Linear Models, 5. Auflage, McGraw-Hill, 2005.

16 Chantal Larose und Daniel Larose, Data Science Using Python and R, Wiley, 2019.

17 Thomas Lindner, Jonas Puck und Alain Verbeke, „Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies,“ Journal of International Business Studies, Vol. 51, 2020, pp. 283-298, https://doi.org/10.1057/s41267-019-00257-1

18 Aquiles E.G. Kalatzis, Camila F. Bassetto und Carlos R. Azzoni, „Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression,“ Journal of Applied Statistics, Vol. 38, No. 2, 2011, pp. 287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras und Cristhian Mellado, „Regression, multicollinearity and Markowitz,“ Finance Research Letters, Vol. 58, 2023, https://doi.org/10.1016/j.frl.2023.104550

19 Kiseong Kuen, David Weisburd, Clair White und Joshua Hinkle, „Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots,“ Journal of Criminal Justice, Vol. 82, 2022, https://doi.org/10.1016/j.jcrimjus.2022.101984

20 Howard Henderson, Sven Smith, Christopher Ferguson und Carley Fockler, „Ecological and social correlates of violent crime,“ SN Social Sciences, Vol. 3, 2023, https://doi.org/10.1007/s43545-023-00786-5 

21 Robert Peacock „Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption,“ Police Practice and Research, Vol. 22, No. 1, 2021, pp. 589-605, https://doi.org/10.1080/15614263.2020.1851229