¿Qué es la multicolinealidad?

Empresaria trabaja en la oficina con un ordenador portátil

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es la multicolinealidad?

La multicolinealidad se produce cuando las variables independientes de una ecuación de regresión lineal están correlacionadas. Las variables multicolineales pueden afectar negativamente a las predicciones del modelo sobre datos no observados. Hay varias técnicas de regularización que pueden detectar y corregir la multicolinealidad.

¿Multicolinealidad o colinealidad?

La colinealidad se produce cuando dos variables independientes en un análisis de regresión están correlacionadas; la multicolinealidad se produce cuando más de dos variables independientes están correlacionadas1. Su opuesto es la ortogonalidad, que indica cuando las variables independientes no están correlacionadas. La multicolinealidad impide que los modelos predictivos produzcan predicciones precisas al aumentar la complejidad y el sobreajuste del modelo.

Contexto: análisis de regresión 

Una ecuación de regresión lineal multivariante estándar es:

Fórmula estándar de regresión lineal multivariante

Y es el resultado previsto (variable dependiente) y X es cualquier predictor (variable independiente o explicativa). B es el coeficiente de regresión y mide el cambio en Y por cada unidad de cambio en el predictor acompañante (Xn) suponiendo que todos los demás predictores permanecen constantes. X0 es el valor de la variable de respuesta (Y) cuando la variable independiente es igual a cero. Este valor final también se denomina y-intercept2.

Por supuesto, esta ecuación polinómica tiene como objetivo medir y representar gráficamente la correlación entre Y y Xn. En un modelo predictivo ideal, ninguna de las variables independientes (Xn) está correlacionada. Sin embargo, esto puede suceder a menudo en modelos que utilizan datos del mundo real, en particular cuando los modelos están diseñados con muchas variables independientes.

Efectos de la multicolinealidad

Al crear un modelo predictivo, necesitamos calcular coeficientes, puesto que rara vez se conocen de antemano. Para estimar los coeficientes de regresión, utilizamos un estimador de coeficientes de matriz de mínimos cuadrados ordinarios estándar:

Ecuación matricial de coeficientes OLS

Comprender las operaciones de esta fórmula requiere familiarizarse con la notación matricial. Pero por el momento, todo lo que necesitamos entender es que el tamaño y el contenido de la matriz X están determinados por las variables independientes elegidas como parámetros del modelo. Además, el grado de correlación entre las variables predictoras, conocido como coeficientes de correlación y representado por , se utiliza para calcular los coeficientes de regresión entre X e Y3.

A medida que se incluyen o excluyen variables independientes del modelo, los coeficientes estimados para cualquier predictor pueden cambiar drásticamente, lo que hace que las estimaciones de los coeficientes sean poco fiables e imprecisas. La correlación entre dos o más predictores crea dificultades para determinar el impacto individual de una variable en la salida del modelo. Recuerde que un coeficiente de regresión mide el efecto de una variable predictora determinada en la salida suponiendo que otros predictores permanezcan constantes. Pero si los predictores están correlacionados, puede que no sea posible aislarlos. Por lo tanto, los coeficientes de regresión estimados para las variables multicolineales no reflejan el efecto de ningún predictor en la salida, sino el efecto parcial del predictor, según las covariables que estén en el modelo4.

Además, diferentes muestras de datos, o incluso pequeños cambios en los datos, con las mismas variables multicolineales pueden producir coeficientes de regresión muy diferentes. Este es quizá el problema más conocido de la multicolinealidad: el sobreajuste. El sobreajuste denota modelos con un error de entrenamiento bajo y un error de generalización alto. Como ya se ha mencionado, la importancia estadística de cualquier variable multicolineal sigue sin estar clara en medio de su ruido relacional con las demás. Esto impide calcular con precisión la importancia estadística de cualquier variable en el resultado del modelo, que es lo que indica en gran medida la estimación del coeficiente. Dado que la multicolinealidad impide calcular estimaciones precisas de los coeficientes, los modelos multicolineales no consiguen generalizarse a datos no observados. De este modo, los coeficientes estimados para las variables multicolineales poseen una gran variabilidad, también conocida como un gran error estándar5.

Tipos de multicolinealidad

Grados de multicolinealidad

Los libros de texto y los artículos de estadística a veces distinguen entre la multicolinealidad extrema y la perfecta. La multicolinealidad perfecta significa cuando una variable independiente tiene una correlación lineal perfecta con una o más variables independientes. La multicolinealidad extrema es cuando un predictor está altamente correlacionado con una o más variables independientes adicionales6. Estos son los dos grados principales de multicolinealidad.

Causas de la multicolinealidad

No existen tanto formas discretas de multicolinealidad como diferentes causas potenciales. Estas causas pueden ir desde la naturaleza de los datos que se están considerando hasta experimentos mal diseñados. Algunas causas comunes son:

Recopilación de datos Esta multicolinealidad basada en los datos puede producirse si se muestrea un subespacio no representativo de los datos en cuestión. Por ejemplo, Montgomery et al. ofrecen el ejemplo de un conjunto de datos de entrega de la cadena de suministro en el que la distancia y el tamaño del pedido son variables independientes de un modelo predictivo. En los datos que proporcionan, el tamaño del inventario de pedidos parece aumentar con la distancia de entrega. La solución a esta correlación es sencilla: recopilar e incluir muestras de datos para entregas a corta distancia con grandes inventarios, o viceversa7.

- Restricciones del modelo Esto es similar a la causa de la recopilación de datos, aunque no idéntico. La multicolinealidad puede deberse a la naturaleza de los datos y las variables del modelo predictivo en cuestión. Imaginemos que estamos creando un modelo predictivo para medir la satisfacción de los empleados en el lugar de trabajo, en el que las horas trabajadas a la semana y el estrés declarado son dos de varios predictores. Es muy posible que exista una correlación entre estos predictores debido a la naturaleza de los datos, es decir, es probable que las personas que trabajan más declaren un mayor estrés. Una situación similar puede ocurrir si la educación y el salario son predictores del modelo: los empleados con más educación probablemente ganarán más. En este caso, recopilar más datos puede no aliviar el problema, ya que la multicolinealidad es inherente a los datos mismos.

- Modelo sobredefinido. La multicolinealidad puede ocurrir cuando hay más predictores del modelo que puntos de observación de datos. Este tema puede surgir particularmente en la bioestadística u otros estudios biológicos. Para resolver el problema de los modelos sobredefinidos es necesario eliminar algunos predictores del modelo. Pero ¿cómo determinar qué modelos eliminar? Se pueden realizar varios estudios preliminares utilizando subconjuntos de regresores (es decir, predictores) o utilizar el análisis de componentes principales (PCA) para combinar variables multicolineales8.

Multicolinealidad estructural y basada en datos

Los tipos de datos seleccionados pueden conducir especialmente a la multicolinealidad. Los datos de series temporales son los principales. Los factores de crecimiento y tendencia, sobre todo en economía, se mueven a menudo en la misma dirección a lo largo del tiempo, lo que produce fácilmente multicolinealidad. Además, los estudios observacionales en ciencias sociales se prestan fácilmente a la multicolinealidad, ya que muchas variables socioeconómicas (por ejemplo, ingresos, educación, afiliación política, etc.) a menudo están interrelacionadas y no están controladas por los investigadores9.

La multicolinealidad también puede deberse a la manipulación de variables predictoras. En algunos casos, se pueden utilizar los valores al cuadrado o retardados de las variables independientes como nuevos predictores del modelo. Por supuesto, estos nuevos predictores compartirán una alta correlación con las variables independientes de las que se derivaron10. Esto es multicolinealidad estructural.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Cómo detectar la multicolinealidad

Unos coeficientes estimados grandes pueden indicar la presencia de multicolinealidad, así como cambios masivos en los coeficientes estimados cuando se añade o elimina un único predictor (o incluso un punto de datos) del modelo. Los coeficientes con intervalos de confianza grandes también son indicativos de multicolinealidad. En ocasiones, los coeficientes que poseen signos o magnitudes contrarios a las expectativas derivadas del análisis preliminar de los datos pueden indicar multicolinealidad. Por supuesto, ninguno de estos confirma definitivamente la multicolinealidad ni proporciona mediciones cuantitativas de la multicolinealidad11. Sin embargo, existen varios métodos de diagnóstico que contribuyen a ello.

Dos herramientas relativamente sencillas para medir la multicolinealidad son un gráfico de dispersión y una matriz de correlación de variables independientes. Cuando se utiliza un diagrama de dispersión, los valores de las variables independientes de cada punto de datos se comparan entre sí. Si el gráfico de dispersión revela una correlación lineal entre las variables elegidas, puede haber cierto grado de multicolinealidad. Esta figura ilustra datos multicolineales en un gráfico de dispersión utilizando el ejemplo del conjunto de datos de entregas de Montgomery et al.

Gráfico de dispersión de los plazos de entrega en función del tamaño del pedido

Otro método de diagnóstico es calcular una matriz de correlación para todas las variables independientes. Los elementos de la matriz son los coeficientes de correlación entre cada predictor en un modelo. El coeficiente de correlación es un valor entre -1 y 1 que mide el grado de correlación entre dos predictores. Observe cómo la matriz contiene una diagonal de 1 s porque cada variable tiene una correlación perfecta consigo misma. Cuanto mayor sea el valor de un elemento de la matriz, mayor será el grado de correlación entre ellos12.

Matriz de correlaciones

Factor de inflación de la varianza

El factor de inflación de la varianza (VIF) es el método más común para determinar el grado de multicolinealidad en los modelos de regresión lineal. Cada predictor del modelo tiene un valor VIF, que mide cuánto se infla la varianza de ese predictor por los otros predictores del modelo.

El algoritmo VIF contiene varios pasos. Sin embargo, una explicación completa de este algoritmo queda fuera del alcance de este artículo. Baste decir que el VIF mide la proporción de la varianza de una variable elegida determinada por las otras variables independientes del modelo. La ecuación que representa VIF es:

Fórmula VIF

R-cuadrado (R2) significa el coeficiente de determinación múltiple obtenido al hacer la regresión de una variable independiente contra todas las demás13. El término inferior de la ecuación VIF es la tolerancia, un concepto distinto de los intervalos de tolerancia. La tolerancia es la inversa del VIF. Aunque mucho menos discutido en la literatura, es otro medio viable para calcular la multicolinealidad14.

Cuanto mayor sea el valor de VIF, mayor será el grado de multicolinealidad. No existe un valor de corte VIF que determine un modelo "malo" o "bueno". Sin embargo, una regla general ampliamente repetida es que un valor de VIF mayor o igual a diez indica una multicolinealidad grave15.

Tenga en cuenta que R y Python contienen funciones para calcular VIF. Respectivamente, la función vif() del paquete car de R y la función variance_inflation_factor() del módulo statsmodels.stats de Python pueden calcular VIF para un modelo designado16.

Cómo arreglar la multicolinealidad

Como ya se ha mencionado, las correcciones sencillas para la multicolinealidad van desde diversificar o ampliar el tamaño de la muestra de los datos de entrenamiento hasta eliminar por completo los parámetros. Varias técnicas de regularización también ayudan a corregir el problema de la multicolinealidad. La regresión es un método ampliamente recomendado, que consiste en penalizar los coeficientes de alto valor, disminuyendo así el impacto de los predictores multicolineales en la salida del modelo. La regresión de Lasso penaliza de forma similar los coeficientes de alto valor. La principal diferencia entre estos dos métodos es que la regresión ridge se limita a reducir los valores de los coeficientes casi a cero, mientras que la regresión de Lasso puede reducir los coeficientes a cero, eliminando de hecho las variables independientes del modelo por completo.

Ejemplos de casos de uso

Finanzas

Dado que la investigación empresarial y financiera no puede realizar experimentos controlados y trabaja en gran medida con datos de series temporales, la multicolinealidad es un problema perenne. Investigaciones recientes desafían los métodos de eliminación de predictores (por ejemplo, PCA) para resolver la colinealidad sobre la base de que hacerlo potencialmente elimina predictores importantes17. Por otra parte, los investigadores aplican la regresión de Ridge y nuevos métodos de contracción derivados de ella, para corregir la multicolinealidad en el análisis de las decisiones de gestión de inversiones18.

Justicia penal

Como muchos otros subcampos de las ciencias sociales, la criminología y la justicia penal se basan en los estudios observacionales, en los que a menudo surge la multicolinealidad. Los investigadores pueden utilizar métodos de combinación de variables (por ejemplo, el PCA)19, y de eliminación de variables para resolver la multicolinealidad20. Observe cómo, en este último estudio, un VIF superior a tres indica una multicolinealidad demasiado alta, lo que demuestra que no todos los estudios siguen la regla del VIF>10. La investigación también explora otros métodos de diagnóstico y resolución de la multicolinealidad, como el análisis de dominancia, que clasifica los predictores según la parte de varianza que aportan al modelo21.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página

1 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani y Jonathan Taylor. An Introduction to Statistical Learning with Applications in Python. Springer. 2023. https://doi.org/10.1007/978-3-031-38747-0.

Michael Patrick Allen. Understanding Regression Analysis. Springer. 1997.  Michael Kutner, Christopher Nachtsheim, John Neter y William Li. Applied Statistical Linear Models. 5a edición. McGraw-Hill. 2005.

4 Michael Kutner, Christopher Nachtsheim, John Neter y William Li. Applied Statistical Linear Models. 5a edición, McGraw-Hill. 2005.

5 Michael Patrick Allen. Understanding regresión Analysis. Springer. 1997. Michael H. Kutner, Christopher J. Nachtsheim, John Neter y William Li. Applied Statistical Linear Models. 5a edición. McGraw-Hill. 2005.

6 Michael Patrick Allen. Understanding Regression Analysis. Springer. 1997.

7 Douglas Montgomery, Elizabeth Peck y G. Geoffrey Vining. Introduction to Linear Regression Analysis. John Wiley & Sons. 2012.

8 R.F. Gunst y J.T. Webster. "Regression analysis and problems of multicollinearity". Communications in Statistics. Vol. 4. N.º 3. 1975. PP. 277-292. https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist, and Paula Stephan. Understanding Regression Analysis: An Introductory Guide. 2a edición. SAGE. 2017.

10 R.F. Gunst y J.T. Webster. "Regression analysis and problems of multicollinearity". Communications in Statistics. Vol. 4. N.º 3. 1975. PP. 277-292. https://doi.org/10.1080/03610927308827246

11 Michael Patrick Allen. Understanding Regression Analysis. Springer. 1997.  Michael Kutner, Christopher Nachtsheim, John Neter y William Li. Applied Statistical Linear Models. 5a edición. McGraw-Hill. 2005.

12 Michael Kutner, Christopher Nachtsheim, John Neter y William Li. Applied Statistical Linear Models. 5a edición. McGraw-Hill. 2005.

13 Raymand Myers. Classical and modern regression with applications. Duxbury Press. 1986. Paul Allison. Multiple Regression: A Primer. Pine Forge Press. 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson, y Ronald Tatham. Multivariate Data Analysis. 6a edición. Pearson. 2006.

14 Richard Darlington y Andrew Hayes. Regression Analysis and Linear Models: Concepts, Applications, and Implementation. Guilford Press. 2017.

15 Michael Kutner, Christopher Nachtsheim, John Neter y William Li. Applied Statistical Linear Models. 5a edición. McGraw-Hill. 2005.

16 Chantal Larose y Daniel Larose. Data Science Using Python and R. Wiley. 2019.

17 Thomas Lindner, Jonas Puck y Alain Verbeke. "Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies". Journal of International Business Studies. Vol. 51. 2020. PP. 283-298. https://doi.org/10.1057/s41267-019-00257-1

18 Aquiles E.G. Kalatzis, Camila F. Bassetto y Carlos R. Azzoni. "Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression". Journal of Applied Statistics. Vol. 38. N.º 2. 2011. PP. 287-299. https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras y Cristhian Mellado. "Regression, multicollinearity and Markowitz". Finance Research Letters. Vol. 58. 2023. https://doi.org/10.1016/j.frl.2023.104550

19 Kiseong Kuen, David Weisburd, Clair White y Joshua Hinkle. "Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots". Journal of Criminal Justice. Vol. 82. 2022. https://doi.org/10.1016/j.jcrimjus.2022.101984

20 Howard Henderson, Sven Smith, Christopher Ferguson y Carley Fockler. "Ecological and social correlates of violent crime". SN Social Sciences. Vol. 3. 2023. https://doi.org/10.1007/s43545-023-00786-5 

21 Robert Peacock. "Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption". Police Practice and Research. Vol. 22. N.º 1, 2021. PP. 589-605. https://doi.org/10.1080/15614263.2020.1851229