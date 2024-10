Non esistono tanto forme discrete di multicollinearità quanto diverse potenziali cause. Queste cause possono variare dalla natura dei dati presi in considerazione a esperimenti mal progettati. Alcune cause comuni sono le seguenti:

- Raccolta dati Questa multicollinearità basata sui dati può avvenire se si campiona un sottospazio non rappresentativo dei dati in questione. Ad esempio, Montgomery et al. fanno l'esempio di un set di dati di consegna della supply chain in cui distanza e dimensione dell'ordine sono variabili indipendenti di un modello predittivo. Nei dati forniti, le dimensioni dell'inventario degli ordini sembrano aumentare con la distanza di consegna. La soluzione a questa correlazione è semplice: raccogliere e includere campioni di dati per consegne a breve distanza con inventari di grandi dimensioni o viceversa.7

- Vincoli del modello È simile alla causa della raccolta dei dati, anche se non è la stessa cosa. La multicollinearità può derivare dalla natura dei dati e dalle variabili del modello predittivo in questione. Immagina di creare un modello predittivo per misurare la soddisfazione dei dipendenti sul posto di lavoro, in cui le ore lavorate a settimana e lo stress sono due dei numerosi fattori predittivi. Tra questi predittori potrebbe esserci una correlazione a causa della natura dei dati: le persone che lavorano di più probabilmente riferiranno di essere più stressate. Una situazione simile può verificarsi se anche istruzione e stipendio sono fattori predittivi modello: i dipendenti con un'istruzione più alta probabilmente guadagneranno di più. In questo caso, la raccolta di più dati potrebbe non risolvere il problema, poiché la multicollinearità è intrinseca ai dati stessi.

- Modello sovradefinito La multicollinearità può verificarsi quando ci sono più predittori del modello che punti di osservazione dei dati. Questo problema insorge in particolare nella biostatistica o in altri studi biologici. La risoluzione di modelli sovradefiniti richiede l'eliminazione completa di alcuni predittori dal modello. Ma come determinare quali rimuovere? Si possono condurre diversi studi preliminari utilizzando sottoinsiemi di regressori (ad esempio i predittori) o utilizzare l'analisi delle componenti principali (PCA) per combinare variabili multicollineari.8