Comprender las operaciones de esta fórmula requiere familiaridad con la notación matricial. Pero por el momento, todo lo que necesitamos entender es que el tamaño y el contenido de la matriz X están determinados por las variables independientes elegidas como parámetros del modelo. Además, el grado de correlación entre las variables predictoras, conocido como coeficientes de correlación y representado por , se utiliza para calcular los coeficientes de regresión entre X e Y.3

A medida que se incluyen o excluyen variables independientes del modelo, los coeficientes estimados para cualquier predictor pueden cambiar significativamente, lo que hace que las estimaciones de los coeficientes sean poco fiables e imprecisas. La correlación entre dos o más predictores dificulta la determinación del impacto individual de cada variable en los resultados del modelo. Recuerde que un coeficiente de regresión mide el efecto de una determinada variable predictiva sobre el resultado assuming other predictors remain constant. Pero si los predictores están correlacionados, puede que no sea posible aislarlos. Por lo tanto, los coeficientes de regresión estimados para variables multicolineales no reflejan el efecto de ningún predictor en el resultado, sino el efecto parcial del predictor, según las covariables que estén en el modelo.4

Además, diferentes muestras de datos, o incluso pequeños cambios en los datos, con las mismas variables multicolineales pueden producir coeficientes de regresión muy diferentes. Este es quizá el problema más conocido de la multicolinealidad: el sobreajuste. El sobreajuste denota modelos con un error de entrenamiento bajo y un error de generalización alto. Como ya se ha mencionado, la importancia estadística de cualquier variable multicolineal sigue sin estar clara en medio de su ruido relacional con las demás. Esto impide calcular con precisión la importancia estadística de cualquier variable en el resultado del modelo, que es lo que indica en gran medida la estimación del coeficiente. Dado que la multicolinealidad impide calcular estimaciones precisas de los coeficientes, los modelos multicolineales no consiguen generalizarse a datos no observados. De este modo, los coeficientes estimados para las variables multicolineales poseen una gran variabilidad, también conocida como un gran error estándar.5