¿Qué es regression de ridge?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es regression de ridge?

La regresión de cresta es una técnica de regularización estadística. Corrige el sobreajuste de los datos de entrenamiento en los modelos de machine learning.

La regresión de ridge, también conocido como regularización L2, es uno de varios tipos de regularización para modelos de regresión lineal . La regularización es un método estadístico para reducir los errores causados por el sobreajuste en los datos de entrenamiento. La regresión de ridge corrige específicamente la multicolinealidad en el análisis de regresión. Esto es útil cuando se desarrollan modelos de machine learning que tienen una gran cantidad de parámetros, especialmente si esos parámetros también tienen pesos altos. Si bien este artículo se centra en la regularización de modelos de regresión lineal, tenga en cuenta que la regresión de ridge también puede aplicarse en la regresión logística.

El problema: la multicolinealidad

Una ecuación de regression lineal estándar de múltiples variables es:

Fórmula estándar de regression lineal multivariante

Aquí, Y es el valor predicho (variable dependiente), X es cualquier predictor (variable independiente), B es el coeficiente de regression asociado a esa variable independiente y X0 es el valor de la variable dependiente cuando la variable independiente es igual a cero (también llamada intersección y). Observe cómo los coeficientes marcan la relación entre la variable dependiente y una variable independiente dada.

La multicolinealidad denota cuando dos o más predictores tienen una relación casi lineal. Montgomery et al. ofrecen un ejemplo adecuado: imaginemos que analizamos un conjunto de datos de entrega de la cadena de suministro en el que las entregas de larga distancia contienen de manera regular una gran cantidad de artículos, mientras que las entregas de corta distancia siempre contienen inventarios más pequeños. En este caso, la distancia de entrega y la cantidad de artículos están correlacionadas linealmente, como se muestra en la Figura 1. Esto genera problemas cuando se emplean como variables independientes en un único modelo predictivo.

Diagrama de dispersión que muestra la correlación lineal entre variables independientes, distancia de orden y tamaño

Este es sólo un ejemplo de multicolinealidad, y su arreglo es relativamente sencilla: recopilar datos más diversificados (por ejemplo, datos de entregas a corta distancia con grandes inventarios). Sin embargo, recopilar más datos no siempre es una solución viable, como cuando la multicolinealidad es intrínseca a los datos estudiados. Otras opciones para corregir la multicolinealidad incluyen aumentar el tamaño de la muestra, reducir el número de variables independientes o simplemente desplegar un modelo diferente. Sin embargo, estas correcciones no siempre logran eliminar la multicolinealidad, y la regresión de ridge sirve como otro método para regularizar un modelo para abordar la multicolinealidad.1

Cómo funciona el regression de ridge: el algoritmo de regularización

Cuando desarrollamos inicialmente modelos predictivos, a menudo necesitamos calcular coeficientes, ya que estos no se indican explícitamente en los datos de entrenamiento. Para estimar coeficientes, podemos emplear un estimador de coeficientes de matriz de mínimos cuadrados ordinarios (MCO) estándar:

Estimador de coeficientes matriciales de mínimos cuadrados ordinarios

Conocer las operaciones de esta fórmula requiere familiarizarse con la notación de la matriz. Basta con decir que esta fórmula tiene como objetivo encontrar la línea que mejor se ajuste a un conjunto de datos determinado mediante el cálculo de coeficientes para cada variable independiente que colectivamente dan como resultado la suma residual más pequeña de cuadrados (también llamada suma de errores al cuadrado).2

La suma residual de cuadrados (RSS) mide la adecuación de un modelo de regression lineal a los datos de entrenamiento. Se representa mediante la formulación:

Fórmula de la suma de cuadrados de residuos

Esta fórmula mide la precisión de la predicción del modelo para los valores reales en los datos de entrenamiento. Si RSS = 0, el modelo predice perfectamente las variables dependientes. Sin embargo, no siempre es deseable un puntaje de cero, ya que puede indicar un sobreajuste en los datos de entrenamiento, especialmente si el conjunto de datos de entrenamiento es pequeño. La multicolinealidad puede ser una de las causas de esto.

Las estimaciones de coeficientes altos a menudo pueden ser un síntoma del sobreajuste.3 Si dos o más variables comparten una correlación lineal alta, OLS puede devolver coeficientes de valor alto erróneos. Cuando uno o más coeficientes son demasiado altos, la salida del modelo se vuelve sensible a alteraciones menores en los datos de entrada. En otras palabras, el modelo se ha sobreajustado en un conjunto de entrenamiento específico y no puede generalizar con precisión en nuevos conjuntos de prueba. Este modelo se considera inestable.4

La regresión de ridge modifica el OLS mediante el cálculo de coeficientes que tienen en cuenta los predictores potencialmente correlacionados. En concreto, la regresión de ridge corrige los coeficientes de alto valor introduciendo un término de regularización (a menudo denominado término de penalización) en la función RSS. Este término de penalización es la suma de los cuadrados de los coeficientes del modelo.Se representa en la formulación:

Formulación del término de penalización L2

El término de penalización L2 se inserta al final de la función RSS, lo que da como resultado una nueva formulación, el estimador de regression. En él, su efecto en el modelo está controlado por el hiperparámetro lambda (λ):

Fórmula de regression de ridge o fórmula RSS con término de penalización L2

Recuerde que los coeficientes marcan el efecto de un determinado predictor (es decir, la variable independiente) sobre el valor predicho (es decir, la variable dependiente). Una vez agregado a la fórmula RSS, el término de penalización L2 contrarresta coeficientes especialmente altos al reducir todos los valores de coeficientes. En estadística, esto se denomina reducción del coeficiente. El estimador de ridge anterior calcula así nuevos coeficientes de regresión que reducen el RSS de un modelo determinado. Esto minimiza el efecto de cada predictor y reduce el sobreajuste en los datos de entrenamiento.6

Tenga en cuenta que regresión de ridge no reduce todos los coeficientes en el mismo valor. Más bien, los coeficientes se reducen en proporción a su tamaño inicial. A medida que λ aumenta, los coeficientes de valor alto se reducen a un ritmo mayor que los coeficientes de valor bajo.7 Por lo tanto, los coeficientes de alto valor se penalizan más que los coeficientes de bajo valor.

Regresión de ridge frente a regression de lasso

Tenga en cuenta que la penalización L2 reduce los coeficientes a cero, pero nunca hasta el cero absoluto; aunque los pesos de las características del modelo pueden volverse insignificantemente pequeños, nunca son iguales a cero en la regresión. Reducir un coeficiente a cero elimina efectivamente el predictor emparejado del modelo. Esto se denomina selección de características, que es otro medio para corregir la multicolinealidad.8 Debido a que el regresión de ridge no reduce los coeficientes de regresión a cero, no realiza la selección de características.9 Esto a menudo se cita como una desventaja de regresión. Además, otra desventaja citada con frecuencia es la incapacidad de la regresión por mínimos cuadrados penalizada para separar los efectos de los predictores en caso de multicolinealidad severa.10

La regression de Lasso, también llamada regularización L1, es uno de los muchos métodos de regularización de la regression lineal. La regularización L1 funciona reduciendo los coeficientes a cero, eliminando esencialmente esas variables independientes del modelo. Así pues, tanto la regression de lasso como la regression de ridge reducen la complejidad del modelo, aunque por distintos medios. La regression de Lasso reduce el número de variables independientes que afectan al resultado. La regression reduce el peso que tiene cada variable independiente en el resultado.

Otras técnicas de regularización de regression

Elastic net es una forma adicional de regularización. Mientras que la regresión de ridge obtiene su parámetro de regularización de la suma de los errores al cuadrado y lasso obtiene el suyo propio de la suma del valor absoluto de los errores, Elastic net incorpora ambos parámetros de regularización en la función de costo de RSS.11

La regresiónde componentes principales (PCR) también puede actuar como un procedimiento de regularización. Si bien la PCR puede resolver la multicolinealidad, no lo hace aplicando una penalización a la función RSS como en la regresión de ridge y lasso. Más bien, la PCR produce combinaciones lineales de predictores correlacionados a partir de los cuales se crea un nuevo modelo de mínimos cuadrados.12

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Regression de ridge en machine learning

Complejidad del modelo

En machine learning, la regression ayuda a reducir el sobreajuste resultante de la complejidad del modelo. La complejidad del modelo puede deberse a:

  • Un modelo que posee demasiadas características. Las características son los predictores del modelo y también pueden llamarse “parámetros” en el aprendizaje automático. Los tutoriales en línea a menudo recomiendan mantener la cantidad de características por debajo de la cantidad de instancias en los conjuntos de datos de entrenamiento. Aunque esto no siempre es posible.
  • Características que poseen demasiado peso. El peso de la característica se refiere al efecto de un predictor determinado en el resultado del modelo. Un peso de característica alto es equivalente a un coeficiente de valor alto.

Los modelos más simples no funcionan intrínsecamente mejor que los modelos complejos. Sin embargo, un alto grado de complejidad del modelo puede inhibir la capacidad de un modelo para generalizar nuevos datos fuera del conjunto de entrenamiento.

Dado que la regresión de ridge no realiza una selección de características, no puede reducir la complejidad del modelo eliminando características. Pero si una o más características afectan demasiado al resultado de un modelo, la regresión puede reducir las ponderaciones altas de las características (es decir, coeficientes) en todo el modelo según el término de penalización L2. Esto reduce la complejidad del modelo y ayuda a que las predicciones del modelo dependan menos erráticamente de una o varias características.

Compensación entre sesgo y varianza

En términos de machine learning, la regresión de ridge equivale a agregar sesgo a un modelo con el fin de disminuir la varianza de ese modelo. El equilibrio entre sesgos y varianzas es un problema bien conocido en el machine learning. Pero para entender la relación entre sesgo y varianza, es necesario saber primero qué significan “sesgo” y “varianza”, respectivamente, en la investigación sobre machine learning.

En pocas palabras, el sesgo mide la diferencia promedio entre los valores predichos y los valores verdaderos; y la varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo dado. A medida que aumenta el sesgo, un modelo predice con menor precisión en un conjunto de datos de entrenamiento. A medida que aumenta la varianza, un modelo predice con menor precisión otros conjuntos de datos. Por lo tanto, el sesgo y la varianza miden la precisión del modelo en los conjuntos de entrenamiento y prueba respectivamente. Obviamente, los desarrolladores esperan reducir el sesgo y la varianza del modelo. Sin embargo, la reducción simultánea de ambos no siempre es factible, y de ahí la necesidad de emplear técnicas de regularización como la regression.

Como se mencionó, la regularización de regresión de cresta introduce un sesgo adicional en aras de la disminución de la varianza. En otras palabras, los modelos regularizados mediante regresión crean predicciones menos precisas sobre los datos de entrenamiento (mayor sesgo) pero predicciones más precisas sobre los datos de prueba (menor varianza). Este es el equilibrio entre sesgo y varianza. A través de la regresión, los usuarios determinan una pérdida aceptable en la precisión del entrenamiento (mayor sesgo) para aumentar la generalización de un modelo determinado (menor varianza).13 De esta manera, aumentar el sesgo puede ayudar a mejorar el rendimiento general del modelo.

La fuerza de la penalización L2 y, por lo tanto, el equilibrio entre sesgo y varianza del modelo, está determinada por el valor λ en la ecuación de la función de pérdida del estimador de ridge. Si λ es cero, entonces nos queda una función de mínimos cuadrados ordinaria. Esto crea un modelo de regresión lineal estándar sin ninguna regularización. Por el contrario, un valor λ más alto significa mayor regularización. A medida que λ aumenta, el sesgo del modelo aumenta mientras que la varianza disminuye. Por lo tanto, cuando λ es igual a cero, el modelo se ajusta en exceso a los datos de entrenamiento, pero cuando λ es demasiado alto, el modelo se ajusta insuficientemente a todos los datos.14

El error cuadrático medio (MSE) puede ayudar a determinar un valor de λ adecuado. MSE está estrechamente relacionado con RRS y es un medio para medir la diferencia, en promedio, entre los valores predichos y verdaderos. Cuanto menor sea el MSE de un modelo, más precisas serán sus predicciones. Pero el MSE aumenta a medida que aumenta λ. Sin embargo, se argumenta que siempre existe un valor de λ mayor que cero, de modo que el MSE obtenido a través de la regresión es menor que el obtenido a través de OLS.15 Un método para deducir un valor de λ adecuado es encontrar el valor más alto de λ que no aumente el MSE, como se ilustra en la Figura 2. Las técnicas adicionales de validación cruzada pueden ayudar a los usuarios a seleccionar valores de λ óptimos para ajustar su modelo.16

Relación de modelado gráfico entre MSE, vías, varianza y término de penalización lambda

Ejemplos de casos de uso

Los modelos de regresión se emplean mejor cuando se trata de conjuntos de datos que poseen dos o más características correlacionadas. Además, muchos campos emplean la regresión de ridge para tratar modelos con un mayor número de predictores y pequeños conjuntos de datos de entrenamiento.17 Estas situaciones pueden ser bastante comunes cuando se trata de una variedad de datos.

Bioestadística

La biología computacional y los estudios genéticos a menudo tratan con modelos en los que el número de predictores supera ampliamente el tamaño de las muestras de conjuntos de datos, en particular cuando se investiga la expresión genética. El regression de ridge proporciona un medio para abordar dicha complejidad del modelo al reducir el peso total de estas características multitudinarias, comprimiendo el rango predictivo del modelo.

Inmuebles

Son muchos los factores que determinan el precio final de venta de una casa y muchos están correlacionados, como el número de dormitorios y baños. Las características muy correlacionadas dan lugar a coeficientes de regression elevados y a un exceso de ajuste en los datos de entrenamiento. La regression de ridge corrige esta forma de complejidad del modelo reduciendo la ponderación total de las características en el valor de predicción final del modelo.

Estos son sólo dos ejemplos en la disciplina más amplia de la ciencia de datos. Sin embargo, como ilustran estos dos ejemplos, la regression de ridge resulta más eficaz en situaciones en las que se dispone de más características del modelo que muestras de datos o cuando el modelo tiene dos o más características muy correlacionadas.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Investigación reciente

Investigaciones recientes exploran una variante modificada de la regresión de ridge con el fin de realizar la selección de características.18 Esta forma modificada de regresión de ridge emplea diferentes parámetros de regularización en cada coeficiente. De esta manera, se pueden penalizar las ponderaciones de características de manera individual y, por lo tanto, implementar potencialmente la selección de características a través de la regresión.19

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo