La multicolinealidad denota cuando las variables independientes en una ecuación de regresión lineal están correlacionadas. Las variables multicolineales pueden afectar negativamente las predicciones del modelo en datos no vistos. Varias técnicas de regularización pueden detectar y arreglar la multicolinealidad.
La colinealidad denota cuando dos variables independientes en un análisis de regresión están correlacionadas entre sí; la multicolinealidad significa cuando más de dos variables independientes están correlacionadas.1 Su opuesto es la ortogonalidad, que indica cuando las variables independientes no están correlacionadas. La multicolinealidad impide que los modelos predictivos produzcan predicciones precisas al aumentar la complejidad del modelo y el sobreajuste.
Una ecuación de regresión lineal estándar de múltiples variables es:
Y es la salida predicha (variable dependiente) y X es cualquier predictor (variable independiente o explicativa). B es el coeficiente de regresión adjunto y mide el cambio en Y por cada unidad de cambio en el predictor acompañante (Xn), suponiendo que todos los demás predictores permanezcan constantes. X0 es el valor de la variable de respuesta (Y) cuando la variable independiente es igual a cero. Este valor final también se denomina intersección con el eje y.número arábigo
Por supuesto, esta ecuación polinomial tiene como objetivo medir y mapear la correlación entre Y y Xn. En un modelo predictivo ideal, ninguna de las variables independientes (Xn) está correlacionada. Sin embargo, esto puede suceder a menudo en modelos que utilizan datos del mundo real, especialmente cuando los modelos están diseñados con muchas variables independientes.
Al crear un modelo predictivo, necesitamos calcular coeficientes, ya que rara vez se conocen de antemano. Para estimar los coeficientes de regresión, empleamos un estimador de coeficientes de matriz de mínimos cuadrados ordinarios estándar:
Comprender las operaciones de esta fórmula requiere familiaridad con la notación matricial. Pero por el momento, todo lo que necesitamos entender es que el tamaño y el contenido de la matriz X están determinados por las variables independientes elegidas como parámetros del modelo. Además, el grado de correlación entre las variables predictoras, conocido como coeficientes de correlación y representado por , se utiliza para calcular los coeficientes de regresión entre X e Y.3
A medida que se incluyen o excluyen variables independientes del modelo, los coeficientes estimados para cualquier predictor pueden cambiar significativamente, lo que hace que las estimaciones de los coeficientes sean poco fiables e imprecisas. La correlación entre dos o más predictores dificulta la determinación del impacto individual de cada variable en los resultados del modelo. Recuerde que un coeficiente de regresión mide el efecto de una determinada variable predictiva sobre el resultado assuming other predictors remain constant. Pero si los predictores están correlacionados, puede que no sea posible aislarlos. Por lo tanto, los coeficientes de regresión estimados para variables multicolineales no reflejan el efecto de ningún predictor en el resultado, sino el efecto parcial del predictor, según las covariables que estén en el modelo.4
Además, diferentes muestras de datos, o incluso pequeños cambios en los datos, con las mismas variables multicolineales pueden producir coeficientes de regresión muy diferentes. Este es quizá el problema más conocido de la multicolinealidad: el sobreajuste. El sobreajuste denota modelos con un error de entrenamiento bajo y un error de generalización alto. Como ya se ha mencionado, la importancia estadística de cualquier variable multicolineal sigue sin estar clara en medio de su ruido relacional con las demás. Esto impide calcular con precisión la importancia estadística de cualquier variable en el resultado del modelo, que es lo que indica en gran medida la estimación del coeficiente. Dado que la multicolinealidad impide calcular estimaciones precisas de los coeficientes, los modelos multicolineales no consiguen generalizarse a datos no observados. De este modo, los coeficientes estimados para las variables multicolineales poseen una gran variabilidad, también conocida como un gran error estándar.5
Los libros de texto y artículos de estadística a veces dividen entre multicolinealidad extrema y perfecta. La multicolinealidad perfecta significa que una variable independiente tiene una correlación lineal perfecta con una o más variables independientes. La multicolinealidad extrema se produce cuando un predictor está altamente correlacionado con una o más variables independientes adicionales.6 Estos son los dos grados principales de multicolinealidad.
No hay tantas formas discretas de multicolinealidad como diferentes causas potenciales. Estas causas pueden variar desde la naturaleza de los datos en consideración hasta experimentos mal diseñados. Algunas causas comunes son:
- Recopilación de datos Esta multicolinealidad basada en datos puede producirse si se hace el muestreo de un subespacio no representativo de los datos en cuestión. Por ejemplo, Montgomery et al. proporciona el ejemplo de un conjunto de datos de entrega de la cadena de suministro en el que la distancia y el tamaño del pedido son variables independientes de un modelo predictivo. En los datos que proporcionan, el tamaño del inventario de pedidos parece aumentar con la distancia de entrega. La solución a esta correlación es sencilla: recopilar e incluir muestras de datos para entregas de corta distancia con grandes inventarios, o viceversa.7
- Restricciones del modelo Esto es similar a la causa de la recopilación de datos, aunque no idéntica. La multicolinealidad puede producirse debido a la naturaleza de los datos y las variables del modelo predictivo en cuestión. Imaginemos que estamos creando un modelo predictivo para medir la satisfacción de los empleados en el lugar de trabajo, con las horas trabajadas por semana y el estrés informado como dos de varios predictores. Es muy posible que exista una correlación entre estos predictores debido a la naturaleza de los datos, es decir, las personas que trabajan más probablemente reportarán mayor estrés. Puede ocurrir una situación similar si la educación y el salario son predictores del modelo: los empleados con más educación probablemente ganarán más. En este caso, recopilar más datos puede no aliviar el problema, ya que la multicolinealidad es inherente a los datos en sí.
- Modelo sobredefinido La multicolinealidad puede ocurrir cuando hay más predictores de modelo que puntos de observación de datos. Este problema puede surgir particularmente en bioestadística u otros estudios biológicos. Resolver modelos sobredefinidos requiere eliminar por completo los predictores seleccionados del modelo. Pero, ¿cómo determinar qué modelos eliminar? Se pueden realizar varios estudios preliminares empleando subconjuntos de regresores (es decir, predictores) o emplear el análisis de componentes principales (PCA) para combinar variables multicolineales.8
Los tipos de datos seleccionados pueden conducir especialmente a la multicolinealidad. Entre ellos, los más importantes son los datos de series temporales. Los factores de crecimiento y tendencias, especialmente en economía, a menudo se mueven en la misma dirección a lo largo del tiempo, lo que produce fácilmente multicolinealidad. Además, los estudios observacionales en ciencias sociales son fácilmente propicios para la multicolinealidad, ya que muchas variables socioeconómicas (por ejemplo ingresos, educación, afiliación política, etc.) a menudo están interrelacionadas y no están controladas por los investigadores.9
La multicolinealidad también puede derivarse de la manipulación de variables predictoras. En algunos casos, se pueden emplear los valores al cuadrado o rezagados de las variables independientes como nuevos predictores del modelo. Por supuesto, estos nuevos predictores compartirán una alta correlación con las variables independientes de donde se derivaron.10 Esto es multicolinealidad estructural.
Unos coeficientes estimados grandes pueden indicar la presencia de multicolinealidad, así como cambios masivos en los coeficientes estimados cuando se agrega o elimina un único predictor (o incluso un punto de datos) del modelo. Los coeficientes con intervalos de confianza amplios también son indicativos de multicolinealidad. En ocasiones, los coeficientes que poseen signos o magnitudes contrarios a las expectativas derivadas del análisis preliminar de los datos pueden indicar multicolinealidad. Por supuesto, ninguno de estos confirma definitivamente la multicolinealidad ni proporciona mediciones cuantitativas de multicolinealidad.11 Sin embargo, varios métodos de diagnóstico ayudan a hacerlo.
Dos herramientas relativamente sencillas para medir la multicolinealidad son un gráfico de dispersión y una matriz de correlación de variables independientes. Cuando se utiliza un diagrama de dispersión, los valores de las variables independientes de cada punto de datos se comparan entre sí. Si el gráfico de dispersión revela una correlación lineal entre las variables elegidas, puede haber cierto grado de multicolinealidad. Esta figura ilustra datos multicolineales en un gráfico de dispersión utilizando el ejemplo del conjunto de datos de entregas de Montgomery et al.
Otro método de diagnóstico consiste en calcular una matriz de correlación para todas las variables independientes. Los elementos de la matriz son los coeficientes de correlación entre cada predictor de un modelo. El coeficiente de correlación es un valor entre -1 y 1 que mide el grado de correlación entre dos predictores. Observe cómo la matriz contiene una diagonal de 1 porque cada variable tiene una correlación perfecta consigo misma. Cuanto más alto sea un elemento de la matriz, mayor será el grado de correlación entre ellos.12
El factor de inflación de la varianza (VIF) es el método más común para determinar el grado de multicolinealidad en los modelos de regresión lineal. Cada predictor del modelo tiene un valor VIF, que mide en qué medida la varianza de ese predictor está inflada por los demás predictores del modelo.
El algoritmo VIF consta de varios pasos. Sin embargo, una explicación completa de este algoritmo está fuera del alcance de este artículo. Baste decir que el VIF mide la proporción de la varianza de una variable elegida determinada por las otras variables independientes del modelo. La ecuación que representa VIF es:
R-cuadrado (R2) significa el coeficiente de determinación múltiple obtenido al hacer una regresión de una variable independiente con respecto a todas las demás.13 El término inferior de la ecuación VIF es la tolerancia, un concepto distinto de los intervalos de tolerancia. La tolerancia es la inversa de VIF. Aunque se analiza mucho menos en la literatura, es, no obstante, otro medio viable para calcular la multicolinealidad.14
Cuanto mayor sea el valor de VIF, mayor será el grado de multicolinealidad. No hay un valor de corte de VIF que determine un modelo "malo" o "bueno". Sin embargo, una regla general ampliamente repetida es que un valor de VIF mayor o igual a diez indica una multicolinealidad severa.15
Tenga en cuenta que R y Python tienen funciones para calcular VIF. Respectivamente, la función vif () en el paquete car de R y la función variance_inflation_factor () en el módulo statsmodels.stats de Python pueden calcular VIF para un modelo designado.16
Como se mencionó, los arreglos simples para la multicolinealidad varían desde diversificar o ampliar el tamaño de la muestra de datos de entrenamiento hasta eliminar los parámetros por completo.Varias técnicas de regularización también ayudan a corregir el problema de la multicolinealidad. La regresión de Ridge es un método ampliamente recomendado, que implica penalizar los coeficientes de alto valor, disminuyendo así el impacto de los predictores multicolineales en el resultado del modelo.La regresión de Lasso penaliza de manera similar los coeficientes de alto valor.La principal diferencia entre estos dos es que Ridge simplemente reduce los valores de los coeficientes a casi cero, mientras que Lasso puede reducir los coeficientes a cero, eliminando efectivamente las variables independientes del modelo por completo.
Dado que la investigación empresarial y financiera no puede realizar experimentos controlados y trabajar en gran medida con datos de series de tiempo, la multicolinealidad es un problema perenne. Investigaciones recientes cuestionan los métodos de eliminación de predictores (por ejemplo, PCA) para resolver la colinealidad con el argumento de que hacerlo elimina potencialmente predictores importantes.17 En otros lugares, los investigadores aplican la regresión de Ridge y los nuevos métodos de contracción derivados de ella para corregir la multicolinealidad en el análisis de las decisiones de gestión de inversiones.18
Al igual que muchos otros subcampos de las ciencias sociales, la criminología y la justicia penal se basan en estudios observacionales, en los que a menudo surge la multicolinealidad. Los investigadores pueden utilizar la combinación de variables (por ejemplo, PCA),19 así como métodos de eliminación de variables para resolver la multicolinealidad. 20 Tenga en cuenta cómo, en el último estudio, un VIF mayor que tres indica una multicolinealidad demasiado alta, lo que ilustra que no todas las investigaciones siguen la regla VIF>10. La investigación también explora otros métodos de diagnóstico y resolución para la multicolinealidad, como el análisis de dominancia, que clasifica los predictores según su parte de varianza aportada al modelo.21
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://doi.org/10.1007/978-3-031-38747-0
3 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997. Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.
4 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5a. edición, McGraw-Hill, 2005.
5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997. Michael H. Kutner, Christopher J. Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005.
6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.
7 Douglas Montgomery, Elizabeth Peck, and G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.
8 R.F. Gunst and J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, pp. 277-292, https://doi.org/10.1080/03610927308827246
9 Larry Schroeder, David Sjoquist, and Paula Stephan, Understanding Regression Analysis: An Introductory Guide, 2a. edición, SAGE, 2017.
10 R.F. Gunst and J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, pp. 277-292, https://doi.org/10.1080/03610927308827246
11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997. Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5a. edición, McGraw-Hill, 2005.
12 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5a. edición, McGraw-Hill, 2005.
13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986. Paul Allison, Multiple Regression: A Primer, Pine Forge Press, 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson, and Ronald Tatham, Multivariate Data Analysis, 6a. edición, Pearson, 2006.
14 Richard Darlington and Andrew Hayes, Regression Analysis and Linear Models: Concepts, Applications, and Implementation, Guilford Press, 2017.
15 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, 5a. edición, McGraw-Hill, 2005.
16 Chantal Larose and Daniel Larose, Data Science Using Python and R, Wiley, 2019.
17 Thomas Lindner, Jonas Puck, and Alain Verbeke, "Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies," Journal of International Business Studies, Vol. 51, 2020, pp. 283-298, https://doi.org/10.1057/s41267-019-00257-1
18 Aquiles E.G. Kalatzis, Camila F. Bassetto, and Carlos R. Azzoni, "Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression," Journal of Applied Statistics, Vol. 38, No. 2, 2011, pp. 287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras, and Cristhian Mellado, "Regression, multicollinearity and Markowitz," Finance Research Letters, Vol. 58, 2023, https://doi.org/10.1016/j.frl.2023.104550
19 Kiseong Kuen, David Weisburd, Clair White, and Joshua Hinkle, "Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots," Journal of Criminal Justice, Vol. 82, 2022, https://doi.org/10.1016/j.jcrimjus.2022.101984
20 Howard Henderson, Sven Smith, Christopher Ferguson, and Carley Fockler, "Ecological and social correlates of violent crime," SN Social Sciences, Vol. 3, 2023, https://doi.org/10.1007/s43545-023-00786-5
21 Robert Peacock "Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption," Police Practice and Research, Vol. 22, No. 1, 2021, pp. 589-605, https://doi.org/10.1080/15614263.2020.1851229