Che cos'è la multicollinearità?

21 novembre 2023

Autori

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Che cos'è la multicollinearità?

La multicollinearità indica quando le variabili indipendenti in un'equazione di regressione lineare sono correlate. Le variabili multicollineari possono influire negativamente sulle previsioni del modello su dati non visibili. Diverse tecniche di regolarizzazione possono rilevare e risolvere la multicollinearità.

Multicollinearità o collinearità?

La collinearità indica quando due variabili indipendenti in un'analisi di regressione sono esse stesse correlate; la multicollinearità significa quando più di due variabili indipendenti sono correlate.1 Il loro opposto è l'ortogonalità, che indica quando le variabili indipendenti non sono correlate. La multicollinearità impedisce ai modelli predittivi di produrre previsioni accurate aumentando la complessità del modello e l'overfitting.

Contesto: analisi di regressione 

Un'equazione di regressione lineare multivariata standard è:

Y è l'output previsto (variabile dipendente) e X è qualsiasi predittore (variabile indipendente o esplicativa). B è il coefficiente di regressione associato e misura la variazione in Y per ogni unità di variazione nel predittore di accompagnamento (Xn) assumendo che tutti gli altri predittori rimangano costanti. X0 è il valore della variabile di risposta (Y) quando la variabile indipendente è uguale a zero. Questo valore finale è anche chiamato intercetta y.2

Naturalmente, questa equazione polinomiale ha lo scopo di misurare e mappare la correlazione tra Y e Xn. In un modello predittivo ideale, nessuna delle variabili indipendenti (Xn) è di per sé correlata. Tuttavia, questo accade spesso nei modelli che usano dati del mondo reale, in particolare quando sono progettati con numerose variabili indipendenti.

Effetti della multicollinearità

Quando si crea un modello predittivo, è necessario calcolare i coefficienti, poiché raramente sono noti a priori. Per stimare i coefficienti di regressione, utilizziamo uno stimatore di coefficienti di matrice dei minimi quadrati ordinari (OLS) standard:

Per capire le operazioni di questa formula è necessario avere familiarità con la notazione matriciale. Al momento, tuttavia, tutto quello che dobbiamo capire è che la dimensione e il contenuto della matrice X sono determinati dalle variabili indipendenti scelte come parametri del modello. Inoltre, il grado di correlazione tra le variabili predittive, note come coefficienti di correlazione e rappresentate da —, viene usato nel calcolo dei coefficienti di regressione tra X e Y.3

Quando variabili indipendenti vengono incluse o escluse dal modello, i coefficienti stimati per qualsiasi predittore possono cambiare drasticamente, rendendo le stime dei coefficienti inaffidabili e imprecise. La correlazione tra due o più predittori crea difficoltà nel determinare l'impatto individuale di una qualsiasi variabile sull'output del modello. Ricorda che un coefficiente di regressione misura l'effetto di una data variabile predittiva sull'output supponendo che gli altri predittori rimangano costanti. Tuttavia, se i predittori sono correlati, potrebbe non essere possibile isolarli. Pertanto, i coefficienti di regressione stimati per le variabili multicollineari non riflettono l'effetto di alcun predittore sull'output, ma piuttosto l'effetto parziale del predittore, a seconda delle covariate presenti nel modello.4

Inoltre, diversi campioni di dati, o anche piccoli cambiamenti nei dati, con le stesse variabili multicollineari possono produrre coefficienti di regressione molto diversi. Questo è forse il problema di multicollinearità più conosciuto: l'overfitting. L'overfitting indica modelli con basso errore di addestramento ed elevato errore di generalizzazione. Come accennato, la significatività statistica di una qualsiasi variabile multicollineare rimane poco chiara a causa del rumore relazionale con le altre. Questo impedisce di calcolare con precisione la significatività statistica di ogni singola variabile sull'output del modello, che è ciò che la stima del coefficiente indica in gran parte. Dal momento che la multicollinearità impedisce il calcolo di stime precise dei coefficienti, i modelli multicollineari non riescono a generalizzare su dati non visibili. Di conseguenza, i coefficienti stimati per le variabili multicollineari possiedono una grande variabilità, nota anche come grande errore standard.5

Tipi di multicollinearità

Gradi di multicollinearità

I libri di testo e gli articoli di statistica a volte si dividono tra multicollinearità estrema e perfetta. La multicollinearità perfetta indica quando una variabile indipendente presenta una correlazione lineare perfetta con una o più variabili indipendenti. La multicollinearità estrema si verifica quando un predittore è altamente correlato con una o più variabili indipendenti aggiuntive.6 Questi sono i due principali livelli di multicollinearità.

Cause della multicollinearità

Non esistono tanto forme discrete di multicollinearità quanto diverse potenziali cause. Queste cause possono variare dalla natura dei dati presi in considerazione a esperimenti mal progettati. Alcune cause comuni sono le seguenti:

Raccolta dati Questa multicollinearità basata sui dati si può verificare se si campiona un sottospazio non rappresentativo dei dati in questione. Ad esempio, Montgomery et al. fanno l'esempio di un set di dati di consegna della supply chain in cui distanza e dimensione dell'ordine sono variabili indipendenti di un modello predittivo. Nei dati forniti, le dimensioni dell'inventario degli ordini sembrano aumentare con la distanza di consegna. La soluzione a questa correlazione è semplice: raccogliere e includere campioni di dati per consegne a breve distanza con inventari di grandi dimensioni o viceversa.7

- Vincoli del modello È simile alla causa della raccolta dei dati, anche se non è la stessa cosa. La multicollinearità può derivare dalla natura dei dati e dalle variabili del modello predittivo in questione. Immagina di creare un modello predittivo per misurare la soddisfazione dei dipendenti sul posto di lavoro, in cui le ore lavorate a settimana e lo stress sono due dei numerosi fattori predittivi. Tra questi predittori potrebbe esserci una correlazione a causa della natura dei dati: le persone che lavorano di più probabilmente riferiranno di essere più stressate. Una situazione simile può verificarsi se anche formazione e stipendio sono fattori predittivi modello: i dipendenti con una formazione migliore probabilmente guadagneranno di più. In questo caso, la raccolta di più dati potrebbe non risolvere il problema, poiché la multicollinearità è intrinseca ai dati stessi.

- Modello sovradefinito La multicollinearità può verificarsi quando vi sono più predittori del modello che punti di osservazione dei dati. Questo problema si verifica in particolare nella biostatistica o in altri studi biologici. La risoluzione di modelli sovradefiniti richiede l'eliminazione completa di alcuni predittori dal modello. Ma come stabilire quali eliminare? Si possono condurre diversi studi preliminari usando sottoinsiemi di regressori (cioè predittori) oppure usare l'analisi delle componenti principali (PCA) per combinare variabili multicollineari.8

Multicollinearità strutturale e basata sui dati

Determinati tipi di dati possono portare alla multicollinearità. I dati delle serie temporali sono i principali tra questi. I fattori di crescita e di tendenza, in particolare in economia, spesso si muovono nella stessa direzione nel tempo, producendo facilmente multicollinearità. Inoltre, gli studi osservazionali nelle scienze sociali favoriscono facilmente la multicollinearità, in quanto numerose variabili socioeconomiche (ad esempio reddito istruzione, affiliazione politica e così via) sono spesso correlate e non controllate dai ricercatori.9

La multicollinearità può anche derivare dalla manipolazione di variabili predittive. In alcuni casi, è possibile usare i valori quadratici o ritardati delle variabili indipendenti come nuovi predittori del modello. Naturalmente, questi nuovi predittori condivideranno un'alta correlazione con le variabili indipendenti da cui sono stati derivati.10 Questo è un esempio di multicollinearità strutturale.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Come rilevare la multicollinearità

Di per sé, coefficienti stimati elevati possono indicare la presenza di multicollinearità, così come grandi cambiamenti nei coefficienti stimati quando un singolo predittore (o anche un punto dati) viene aggiunto o eliminato dal modello. Anche i coefficienti con ampi intervalli di confidenza sono indicativi di multicollinearità. Può capitare che vi siano coefficienti che presentano segni o grandezze contrarie alle aspettative desunte dall'analisi preliminare dei dati possono indicare multicollinearità. Naturalmente, nessuno di questi conferma definitivamente la multicollinearità né fornisce misure quantitative.11 Tuttavia, diversi metodi diagnostici aiutano a farlo.

Due strumenti relativamente semplici per misurare la multicollinearità sono un grafico a dispersione e una matrice di correlazione di variabili indipendenti. Quando si utilizza un grafico a dispersione, si tracciano i valori delle variabili indipendenti per ogni punto dati, uno contro l'altro. Se il grafico a dispersione rivela una correlazione lineare tra le variabili scelte, potrebbe essere presente un certo grado di multicollinearità. Questa figura illustra i dati multicollineari in un grafico a dispersione utilizzando l'esempio del set di dati di consegna di Montgomery et al.

Un altro metodo diagnostico consiste nel calcolare una matrice di correlazione per tutte le variabili indipendenti. Gli elementi della matrice sono i coefficienti di correlazione tra ciascun predittore in un modello. Il coefficiente di correlazione è un valore compreso tra -1 e 1 che misura il grado di correlazione tra due predittori. Tieni presente come la matrice contiene una diagonale di 1 perché ogni variabile ha una perfetta correlazione con se stessa. Quanto più alto è un dato elemento della matrice, tanto maggiore è il grado di correlazione tra di essi.12

Fattore di inflazione della varianza

Il fattore di inflazione della varianza (VIF) è il metodo più comune per determinare il grado di multicollinearità nei modelli di regressione lineare. Ogni predittore del modello ha un valore VIF che misura quanto la sua varianza viene gonfiata dagli altri predittori del modello.

L'algoritmo VIF contiene diversi passaggi, ma la spiegazione completa di questo algoritmo esula dallo scopo di questo articolo. Basti dire che il VIF misura la proporzione della varianza di una variabile scelta determinata dalle altre variabili indipendenti del modello. L'equazione che rappresenta VIF è:

R-quadrato (R2) indica il coefficiente di determinazione multipla ottenuto regredendo una variabile indipendente rispetto a tutte le altre.13 Il termine più basso dell'equazione VIF è la tolleranza, un concetto distinto dagli intervalli di tolleranza. La tolleranza è l'inverso del VIF. Sebbene molto meno discusso in letteratura, è comunque un altro mezzo valido per calcolare la multicollinearità.14

Maggiore è il valore VIF, maggiore è il grado di multicollinearità. Non esiste un valore di cutoff VIF che determini un modello "buono" o "cattivo". Tuttavia, una regola empirica ampiamente ripetuta è che un valore VIF maggiore o uguale a dieci indica una grave multicollinearità.15

Tieni presente che R e Python contengono funzioni per il calcolo del VIF. Rispettivamente, la funzione vif() nel pacchetto car di R e la funzione variance_inflation_factor() nel modulo statsmodels.stats di Python possono calcolare il VIF per un modello designato.16

Come correggere la multicollinearità

Come accennato in precedenza, le semplici correzioni per la multicollinearità vanno dalla diversificazione o dall'ampliamento della dimensione del campione dei dati di addestramento alla rimozione totale dei parametri. Diverse tecniche di regolarizzazione aiutano anche a correggere il problema della multicollinearità. La regressione ridge è un metodo ampiamente raccomandato che, coinvolgendo la penalizzazione dei coefficienti di alto valore, diminuisce l'impatto dei predittori multicollineari sull'output del modello. In modo simile, la regressione lasso penalizza i coefficienti di valore elevato. La differenza principale tra i due è che la regressione ridge riduce semplicemente i valori dei coefficienti quasi a zero, mentre la regressione lasso può ridurre i coefficienti a zero, rimuovendo efficacemente le variabili indipendenti dal modello.

Esempi di casi d'uso

Trasformazione finanziaria

Dal momento che la ricerca aziendale e finanziaria non può condurre esperimenti controllati e lavorare in gran parte con dati di serie temporali, la multicollinearità è un problema costante. Una ricerca recente mette in discussione i metodi di eliminazione dei predittori (ad esempio la PCA) per risolvere la collinearità, sostenendo che così facendo si eliminano potenzialmente predittori importanti.17 Altrove, i ricercatori applicano la regressione ridge e i nuovi metodi di contrazione da essa derivati, per correggere la multicollinearità nell'analisi delle decisioni di gestione degli investimenti.18

Giustizia penale

Come molti altri sottocampi delle scienze sociali, la criminologia e la giustizia penale si basano su studi osservazionali, in cui spesso emerge la multicollinearità. I ricercatori possono utilizzare la combinazione di variabili (ad esempio PCA),19 così come metodi di eliminazione delle variabili per risolvere la multicollinearità.20 Tieni presente come, nell'ultimo studio, un VIF maggiore di tre indica una multicollinearità troppo elevata, a dimostrazione del fatto che non tutte le ricerche seguono la regola VIF>10. La ricerca esplora anche altri metodi diagnostici e di risoluzione per la multicollinearità, come l'analisi della dominanza, che classifica i predittori in base alla porzione di varianza apportata al modello.21

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

1 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani e Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://doi.org/10.1007/978-3-031-38747-0

Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5a edizione, McGraw-Hill, 2005.

4 Michael Kutner, Christopher Nachtsheim, John Neter, e William Li, Applied Statistical Linear Models, 5a edizione, McGraw-Hill, 2005.

5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997. Michael H. Kutner, Christopher J. Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5a edizione, McGraw-Hill, 2005.

6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.

7 Douglas Montgomery, Elizabeth Peck e G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

8 R.F. Gunst e J.T. Webster, "Regression analysis and problems of multicollinearity", Communications in Statistics, Vol. 4, N. 3, 1975, pagg. 277-292, https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist e Paula Stephan, Understanding Regression Analysis: An Introductory Guide, 2a edizione, SAGE, 2017.

10 R.F. Gunst e J.T. Webster, "Regression analysis and problems of multicollinearity", Communications in Statistics, Vol. 4, N. 3, 1975, pagg. 277-292, https://doi.org/10.1080/03610927308827246

11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5a edizione, McGraw-Hill, 2005.

12 Michael Kutner, Christopher Nachtsheim, John Neter, e William Li, Applied Statistical Linear Models, 5a edizione, McGraw-Hill, 2005.

13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986. Paul Allison, Multiple Regression: A Primer, Pine Forge Press, 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson e Ronald Tatham, Multivariate Data Analysis, 6a edizione, Pearson, 2006.

14 Richard Darlington e Andrew Hayes, Regression Analysis and Linear Models: Concepts, Applications, and Implementation, Guilford Press, 2017.

15 Michael Kutner, Christopher Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5a edizione, McGraw-Hill, 2005.

16 Chantal Larose e Daniel Larose, Data Science Using Python and R, Wiley, 2019.

17 Thomas Lindner, Jonas Puck e Alain Verbeke, "Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies", Journal of International Business Studies, Vol. 51, 2020, pagg. 283-298, https://doi.org/10.1057/s41267-019-00257-1

18 Aquiles E.G. Kalatzis, Camila F. Bassetto e Carlos R. Azzoni, "Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression", Journal of Applied Statistics, Vol. 38, N. 2, 2011, pagg. 287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras e Cristhian Mellado, "Regression, multicollinearity and Markowitz", Finance Research Letters, Vol. 58, 2023, https://doi.org/10.1016/j.frl.2023.104550

19 Kiseong Kuen, David Weisburd, Clair White e Joshua Hinkle, "Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots", Journal of Criminal Justice, Vol. 82, 2022, https://doi.org/10.1016/j.jcrimjus.2022.101984

20 Howard Henderson, Sven Smith, Christopher Ferguson e Carley Fockler, "Ecological and social correlates of violent crime", SN Social Sciences, Vol. 3, 2023, https://doi.org/10.1007/s43545-023-00786-5 

21 Robert Peacock "Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption", Police Practice and Research, Vol. 22, N. 1, 2021, pagg. 589-605, https://doi.org/10.1080/15614263.2020.1851229