A compreensão das operações desta fórmula requer familiaridade com a notação matricial. Mas, no momento, tudo o que precisamos entender é que o tamanho e o conteúdo da matriz X são determinados pelas variáveis independentes escolhidas como parâmetros do modelo. Além disso, o grau de correlação entre as variáveis preditoras — conhecido como coeficientes de correlação e representado por r — é usado no cálculo dos coeficientes de regression entre X e Y.3

À medida que as variáveis independentes são incluídas ou excluídas do modelo, os coeficientes estimados para qualquer preditor podem mudar drasticamente, tornando as estimativas de coeficientes não confiáveis e imprecisas. A correlação entre dois ou mais preditores cria dificuldade em determinar o impacto individual de qualquer variável no resultado do modelo. Lembre-se de que um coeficiente de regression mede o efeito de uma determinada variável do preditor na saída, presumindo que outros preditores permaneçam constantes. Contudo, se os preditores estiverem correlacionados, talvez não seja possível isolar os preditores. Assim, os coeficientes de regression estimados para variáveis multicolineares não refletem o efeito de nenhum preditor sobre a produção, mas sim o efeito parcial do preditor, dependendo de quais covariáveis estão no modelo.4

Além disso, diferentes amostras de dados, ou mesmo pequenas mudanças nos dados, com as mesmas variáveis multicolineares, podem produzir coeficientes de regression amplamente diferentes. Este é talvez o problema mais conhecido da multicolinearidade: overfitting. O overfitting denota modelos com baixo erro de treinamento e alto erro de generalização. Conforme mencionado, a significância estatística de qualquer variável multicolinear permanece incerta em meio a seu ruído relacional com as outras. Isso impede o cálculo preciso da significância estatística de qualquer variável na produção do modelo, que é o que a estimativa do coeficiente indica em grande parte. Como a multicolinearidade impede o cálculo preciso de estimativas de coeficientes, os modelos multicolineares não conseguem generalizar para dados não vistos. Dessa forma, coeficientes estimados para variáveis multicolineares possuem uma grande variabilidade, também conhecida como um grande erro padrão.5