Minha IBM Efetue login Inscreva-se

O que é multicolinearidade?

21 de novembro de 2023

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

O que é multicolinearidade?

A multicolinearidade indica quando variáveis independentes em uma equação de regressão linear estão correlacionadas. Variáveis multicolineares podem afetar negativamente as previsões do modelo em dados não vistos. Várias técnicas de regularização podem detectar e corrigir a multicolinearidade.

Multicolinearidade ou colinearidade?

A colinearidade indica quando duas variáveis independentes em uma análise de regressão estão correlacionadas entre si; multicolinearidade significa quando mais de duas variáveis independentes estão correlacionadas.1 O oposto é a ortogonalidade, que designa quando as variáveis independentes não estão correlacionadas. A multicolinearidade impede que modelos preditivos gerem previsões precisas, aumentando a complexidade do modelo e ocasionando overfitting.

Contexto: análise de regressão 

Uma equação padrão de regressão linear multivariada é: 

Y é a saída prevista (variável dependente), e X é qualquer preditor (variável independente ou explicativa). B é o coeficiente de regressão associado e mede a variação em Y para cada unidade de mudança no preditor correspondente (Xn), assumindo que todos os demais preditores permaneçam constantes. X0 é o valor da variável resposta (Y) quando a variável independente é igual a zero. Este valor final também é chamado de intercepto em Y.2

Claro, esta equação polinomial tem como objetivo medir e mapear a correlação entre Y e Xn. Em um modelo preditivo ideal, nenhuma das variáveis independentes (Xn) é correlacionada entre si. No entanto, isso pode acontecer com frequência em modelos que utilizam dados do mundo real, especialmente quando esses modelos são projetados com muitas variáveis independentes.

Efeitos da multicolinearidade

Ao criar um modelo preditivo, precisamos calcular os coeficientes, já que raramente são conhecidos de antemão. Para estimar os coeficientes de regressão, utilizamos um estimador padrão de coeficientes matriciais de mínimos quadrados ordinários (OLS):

Entender o funcionamento desta fórmula requer familiaridade com notação matricial. Mas, por enquanto, tudo que precisamos compreender é que o tamanho e o conteúdo da matriz X são determinados pelas variáveis independentes escolhidas como parâmetros do modelo. Além disso, o grau de correlação entre as variáveis preditoras, conhecido como coeficiente de correlação e representado por, é utilizado no cálculo dos coeficientes de regressão entre X e Y.3

À medida que variáveis independentes são incluídas ou excluídas do modelo, os coeficientes estimados para qualquer preditor podem mudar drasticamente, tornando essas estimativas imprecisas e pouco confiáveis. A correlação entre dois ou mais preditores dificulta a determinação do impacto individual de qualquer variável na saída do modelo. Lembre-se de que um coeficiente de regressão mede o efeito de uma variável preditora na saída supondo que os outros preditores permaneçam constantes. No entanto, se os preditores estiverem correlacionados, pode não ser possível isolá-los. Assim, os coeficientes estimados de regressão para variáveis multicolineares não refletem o impacto individual de um único preditor na saída, mas sim seu efeito parcial, dependendo das covariáveis presentes no modelo.4

Além disso, diferentes amostras de dados, ou mesmo pequenas alterações nos dados, com as mesmas variáveis multicolineares, podem produzir coeficientes de regressão amplamente diferentes. Esse é, talvez, o problema mais conhecido da multicolinearidade: o overfitting. O overfitting caracteriza modelos com baixo erro de treinamento e alto erro de generalização. Como mencionado, a significância estatística de qualquer variável multicolinear permanece incerta devido ao seu ruído relacional com as demais. Isso impede o cálculo preciso da significância estatística de qualquer variável na saída do modelo, que é essencialmente o que a estimativa do coeficiente indica. Como a multicolinearidade impede o cálculo preciso das estimativas de coeficientes, os modelos multicolineares não conseguem generalizar para dados não vistos. Dessa forma, os coeficientes estimados para variáveis multicolineares possuem grande variabilidade, também conhecida como alto erro padrão.5

Tipos de multicolinearidade

Graus de multicolinearidade

Livros e artigos de estatística às vezes distinguem entre multicolinearidade extrema e perfeita. A multicolinearidade perfeita ocorre quando uma variável independente tem uma correlação linear perfeita com uma ou mais outras variáveis independentes. A multicolinearidade extrema acontece quando um preditor apresenta alta correlação com uma ou mais variáveis independentes adicionais.6 Esses são os dois principais graus de multicolinearidade.

Causas da multicolinearidade

Não existem tantas formas distintas de multicolinearidade quanto causas potenciais diferentes. Essas causas podem variar desde a natureza dos dados em análise até experimentos mal planejados. Algumas causas comuns são:

Coleta de dados Essa multicolinearidade baseada em dados pode ocorrer se alguém amostrar um subespaço não representativo dos dados em questão. Por exemplo, Montgomery et al. fornecem o exemplo de um conjunto de dados de entregas na cadeia de suprimentos, no qual a distância do pedido e o tamanho são variáveis independentes de um modelo preditivo. Nos dados apresentados, o tamanho do inventário do pedido tende a aumentar conforme a distância de entrega. A solução para essa correlação é simples: colete e inclua amostras de dados de entregas de curta distância com grandes estoques, ou vice-versa.7

- Restrições do modelo Isso é semelhante à causa na coleta de dados, embora não seja idêntico. A multicolinearidade pode ocorrer devido à natureza dos dados e das variáveis do modelo preditivo em questão. Imagine que estamos criando um modelo preditivo para medir a satisfação dos funcionários no ambiente de trabalho, considerando as horas trabalhadas por semana e o estresse relatado como dois dos vários preditores. É bastante provável que haja uma correlação entre esses preditores, pois pessoas que trabalham mais tendem a relatar estresse mais elevado. Uma situação semelhante pode ocorrer se educação e salário forem preditores do modelo funcionários com maior escolaridade tendem a ganhar mais. Nesse caso, coletar mais dados pode não resolver o problema, já que a multicolinearidade é inerente aos próprios dados.

- Modelo superdimensionado A multicolinearidade pode ocorrer quando há mais preditores no modelo do que pontos de observação nos dados. Esse problema pode surgir especialmente na bioestatística ou em outros estudos biológicos. Resolver modelos superdimensionados requer eliminar alguns preditores do modelo por completo. Mas como determinar quais remover? Pode-se realizar estudos preliminares utilizando subconjuntos de regressores (ou seja, preditores) ou utilizar a análise de componentes principais (PCA) para combinar variáveis multicolineares.8

Multicolinearidade estrutural e baseada em dados

Determinados tipos de dados podem, especialmente, levar à multicolinearidade. Dados de séries temporais estão entre os principais. Fatores de crescimento e tendências, notadamente na economia, frequentemente se movem na mesma direção ao longo do tempo, o que gera multicolinearidade. Além disso, estudos observacionais nas ciências sociais são propícios à multicolinearidade, já que muitas variáveis socioeconômicas (por exemplo, renda, educação, filiação política, entre outras) costumam ser inter-relacionadas e não controladas pelos pesquisadores.9

A multicolinearidade também pode resultar da manipulação de variáveis preditoras. Em alguns casos, pode-se utilizar os valores elevados ao quadrado ou defasados das variáveis independentes como novos preditores do modelo. Naturalmente, esses novos preditores terão alta correlação com as variáveis independentes de onde foram derivados.10 Esta é a multicolinearidade estrutural.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Como detectar multicolinearidade

Grandes coeficientes estimados podem, por si só, indicar a presença de multicolinearidade, assim como mudanças significativas nos coeficientes estimados quando um único preditor (ou mesmo um único ponto de dados) é adicionado ou removido do modelo. Coeficientes com grandes intervalos de confiança também são indicativos de multicolinearidade. Em alguns casos, coeficientes com sinais ou magnitudes contrários às expectativas derivadas de uma análise preliminar dos dados podem sugerir a presença de multicolinearidade. No entanto, nenhum desses fatores confirma definitivamente a multicolinearidade nem fornece uma medida quantitativa dela.11 Diversos métodos diagnósticos, no entanto, ajudam a quantificá-la.

Duas ferramentas relativamente simples para medir a multicolinearidade são o diagrama de dispersão e a matriz de correlação das variáveis independentes. Ao utilizar um diagrama de dispersão, os valores das variáveis independentes para cada ponto de dados são plotados uns contra os outros. Se o diagrama revelar uma correlação linear entre as variáveis escolhidas, algum grau de multicolinearidade pode estar presente. Esta figura ilustra dados multicolineares em um diagrama de dispersão, utilizando o exemplo do conjunto de dados de entregas de Montgomery et al.

Outro método de diagnóstico é calcular uma matriz de correlação para todas as variáveis independentes. Os elementos da matriz são os coeficientes de correlação entre cada preditor de um modelo. O coeficiente de correlação é um valor entre -1 e 1 que mede o grau de correlação entre dois preditores. Observe que a matriz contém uma diagonal de 1s, pois cada variável possui correlação perfeita consigo mesma. Quanto maior um determinado elemento da matriz, maior é o grau de correlação entre eles.12

Fator de inflação de variância

O fator de inflação da variância (VIF) é o método mais comum para determinar o grau de multicolinearidade em modelos de regressão linear. Cada preditor do modelo possui um valor de VIF, que mede o quanto a variância desse preditor é inflacionada pelos demais preditores do modelo.

O algoritmo do VIF contém várias etapas. Uma explicação completa deste algoritmo está além do escopo deste artigo, contudo. Basta dizer que o VIF mede a proporção da variância de uma variável escolhida, conforme determinada pelas outras variáveis independentes do modelo. A equação que representa o VIF é:

R-quadrado (R2) indica o coeficiente de determinação múltipla obtido ao regredir uma variável independente contra todas as outras.13 O termo inferior da equação do VIF é a tolerância, um conceito distinto dos intervalos de tolerância. A tolerância é o inverso do VIF. Embora seja muito menos discutida na literatura, ela continua sendo um meio viável para calcular a multicolinearidade.14

Quanto maior o valor do VIF, maior o grau de multicolinearidade. Não há um valor de corte do VIF que determine um modelo "ruim" ou "bom". No entanto, uma regra geral amplamente repetida é que um valor do VIF maior ou igual a dez indica multicolinearidade severa.15

Observe que R e Python possuem funções para calcular o VIF. Respectivamente, a função vif() no pacote car do R e a função variance_inflation_factor() no módulo statsmodels.stats do Python podem calcular o VIF para um modelo designado.16

Como corrigir a multicolinearidade

Como mencionado, soluções simples para a multicolinearidade variam desde diversificar ou ampliar o tamanho da amostra de dados de treinamento até remover parâmetros por completo. Diversas técnicas de regularização também ajudam a corrigir o problema da multicolinearidade. A regressão Ridge é um método amplamente recomendado, pois penaliza coeficientes de alto valor, reduzindo assim o impacto de preditores multicolineares na saída do modelo. A regressão Lasso também penaliza coeficientes de alto valor. A principal diferença entre essas duas abordagens é que a regressão Ridge apenas reduz os valores dos coeficientes para valores próximos de zero, enquanto a Lasso pode reduzi-los a zero, efetivamente removendo variáveis independentes do modelo.

Exemplos de casos de uso

Finanças

Como a pesquisa em negócios e finanças não pode realizar experimentos controlados e trabalha majoritariamente com dados de séries temporais, a multicolinearidade é um problema recorrente. Pesquisas recentes contestam os métodos de eliminação de preditores (por exemplo, PCA) para resolver a colinearidade, argumentando que isso pode remover preditores importantes.17 Em outros estudos, pesquisadores aplicam a regressão ridge e métodos inovadores de encolhimento derivados dela para corrigir a multicolinearidade na análise de decisões de gestão de investimentos.18

Justiça criminal

Assim como em muitos outros campos das ciências sociais, a criminologia e a justiça criminal dependem de estudos observacionais, nos quais a multicolinearidade frequentemente surge. Pesquisadores podem usar técnicas de combinação de variáveis (como PCA),19 bem como métodos de eliminação de variáveis para lidar com a multicolinearidade.20 Note que, nesse último estudo, um VIF maior que três indica multicolinearidade excessiva, ilustrando que nem toda pesquisa segue a regra VIF>10. Pesquisas também exploram outros métodos diagnósticos e soluções para a multicolinearidade, como a análise de dominância, que classifica os preditores de acordo com sua contribuição na variância do modelo.21

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Soluções relacionadas

Soluções relacionadas

IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

1 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani e Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://doi.org/10.1007/978-3-031-38747-0

Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5ª edition, McGraw-Hill, 2005.

4 Michael Kutner, Christopher Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5ª edição, McGraw-Hill, 2005.

5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael H. Kutner, Christopher J. Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5ª edição, McGraw-Hill, 2005.

6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.

7 Douglas Montgomery, Elizabeth Peck e G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

8 R.F. Gunst e J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, págs. 277-292, https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist e Paula Stephan, Understanding Regression Analysis: An Introductory Guide, 2ª edição, SAGE, 2017.

10 R.F. Gunst e J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, págs. 277-292, https://doi.org/10.1080/03610927308827246

11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5ª Edition, McGraw-Hill, 2005.

12 Michael Kutner, Christopher Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5ª edição, McGraw-Hill, 2005.

13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986. Paul Allison, Multiple Regression: A Primer, Pine Forge Press, 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson, and Ronald Tatham, Multivariate Data Analysis, 6ª edição, Pearson, 2006.

14 Richard Darlington e Andrew Hayes, Regression Analysis and Linear Models: Concepts, Applications, and Implementation, Guilford Press, 2017.

15 Michael Kutner, Christopher Nachtsheim, John Neter e William Li, Applied Statistical Linear Models, 5ª edição, McGraw-Hill, 2005.

16 Chantal Larose e Daniel Larose, Data Science Using Python and R, Wiley, 2019.

17 Thomas Lindner, Jonas Puck e Alain Verbeke, "Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies," Journal of International Business Studies, Vol. 51, 2020, págs. 283-298, https://doi.org/10.1057/s41267-019-00257-1

18 Aquiles E.G. Kalatzis, Camila F. Bassetto e Carlos R. Azzoni, "Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression," Journal of Applied Statistics, Vol. 38, No. 2, 2011, págs. 287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras e Cristhian Mellado, "Regression, multicollinearity and Markowitz," Finance Research Letters, Vol. 58, 2023, https://doi.org/10.1016/j.frl.2023.104550

19 Kiseong Kuen, David Weisburd, Clair White e Joshua Hinkle, "Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots," Journal of Criminal Justice, Vol. 82, 2022, https://doi.org/10.1016/j.jcrimjus.2022.101984

20 Howard Henderson, Sven Smith, Christopher Ferguson e Carley Fockler, "Ecological and social correlates of violent crime," SN Social Sciences, Vol. 3, 2023, https://doi.org/10.1007/s43545-023-00786-5 

21 Robert Peacock "Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption," Police Practice and Research, Vol. 22, No. 1, 2021, págs. 589-605, https://doi.org/10.1080/15614263.2020.1851229