¿Qué es la regresión Ridge?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es la regresión Ridge?

La regresión Ridge es una técnica de regularización estadística. Corrige el sobreajuste de los datos de entrenamiento en los modelos de machine learning.

La regresión de Ridge, también conocida como regularización L2, es uno de los varios tipos de regularización para los modelos de regresión lineal . La regularización es un método estadístico para reducir los errores causados por el sobreajuste de los datos de entrenamiento. La regresión corrige específicamente la multicolinealidad en el análisis de regresión. Esto resulta útil cuando se desarrollan modelos de machine learning que tienen un gran número de parámetros, sobre todo si esos parámetros también tienen pesos elevados. Aunque este artículo se centra en la regularización de los modelos de regresión lineal, tenga en cuenta que la regresión de Ridge también se puede aplicar a la regresión logística.

El problema: la multicolinealidad

Una ecuación de regresión lineal estándar de múltiples variables es:

Fórmula estándar de regresión lineal multivariante

Aquí, Y es el valor predicho (variable dependiente), X es cualquier predictor (variable independiente), B es el coeficiente de regresión asociado a esa variable independiente y X0 es el valor de la variable dependiente cuando la variable independiente es igual a cero (también llamada intersección y). Observe cómo los coeficientes marcan la relación entre la variable dependiente y una determinada variable independiente.

La multicolinealidad denota cuando dos o más predictores tienen una relación casi lineal. Montgomery et al. ofrecen un ejemplo adecuado: Imaginemos que analizamos un conjunto de datos de entregas de una cadena de suministro en la que las entregas a larga distancia contienen regularmente un elevado número de artículos, mientras que las entregas a corta distancia siempre contienen inventarios más pequeños. En este caso, la distancia de entrega y la cantidad de artículos están correlacionadas linealmente, como se muestra en la figura 1. Esto crea problemas a la hora de utilizarlas como variables independientes en un mismo modelo predictivo.

Gráfico de dispersión que muestra la correlación lineal entre variables independientes, distancia de orden y tamaño

Este es solo un ejemplo de multicolinealidad y su solución es relativamente simple: recopilar datos más diversificados (por ejemplo, datos para entregas a corta distancia con grandes inventarios). Sin embargo, recopilar más datos no siempre es una solución viable, como cuando la multicolinealidad es intrínseca a los datos estudiados. Otras opciones para solucionar la multicolinealidad son aumentar el tamaño de la muestra, reducir el número de variables independientes o simplemente implementar un modelo distinto. Sin embargo, estas correcciones no siempre consiguen eliminar la multicolinealidad, y la regresión de Ridge sirve como otro método para regularizar un modelo con el fin de abordar la multicolinealidad.1

Cómo funciona la regresión Ridge: el algoritmo de regularización

Al desarrollar inicialmente modelos predictivos, a menudo necesitamos calcular coeficientes, ya que estos no se indican explícitamente en los datos de entrenamiento. Para estimar los coeficientes, podemos utilizar un estimador estándar de coeficientes matriciales por mínimos cuadrados ordinarios (MCO):

Estimador de coeficiente de matriz de mínimos cuadrados ordinarios

Conocer las operaciones de esta fórmula requiere familiarizarse con la notación matricial. Basta con decir que esta fórmula pretende encontrar la línea que mejor se ajuste a un conjunto de datos determinado mediante el cálculo de los coeficientes de cada variable independiente que, en conjunto, den como resultado la menor suma residual de cuadrados (también llamada suma de errores al cuadrado).2

La suma residual de cuadrados (RSS) mide la adecuación de un modelo de regresión lineal a los datos de entrenamiento. Se representa mediante la formulación:

Fórmula de suma de cuadrados de residula

Esta fórmula mide la precisión de la predicción del modelo para los valores reales de los datos de entrenamiento. Si RSS = 0, el modelo predice perfectamente las variables dependientes. Sin embargo, una puntuación de cero no siempre es deseable, ya que puede indicar un exceso de ajuste en los datos de entrenamiento, sobre todo si el conjunto de datos de entrenamiento es pequeño. La multicolinealidad puede ser una de las causas.

Las estimaciones de coeficientes altos a menudo pueden ser sintomáticas de sobreajuste.3 Si dos o más variables comparten una correlación lineal alta, OLS puede devolver coeficientes de valor alto erróneos. Cuando uno o más coeficientes son demasiado altos, la salida del modelo se vuelve sensible a alteraciones menores en los datos de entrada. En otras palabras, el modelo se ha sobreajustado en un conjunto de entrenamiento específico y no puede generalizar con precisión en nuevos conjuntos de prueba. Este modelo se considera inestable.4

La regresión de Ridge modifica OLS calculando coeficientes que tienen en cuenta predictores potencialmente correlacionados. En concreto, la regresión de Ridge corrige los coeficientes de alto valor introduciendo un término de regularización (a menudo denominado término de penalización) en la función RSS. Este término de penalización es la suma de los cuadrados de los coeficientes del modelo.Se representa en la formulación:

Formulación de términos de penalización L2

El término de penalización L2 se inserta como el final de la función RSS, lo que da como resultado una nueva formulación: el estimador de regresión. En este caso, su efecto sobre el modelo está controlado por el hiperparámetro lambda (λ):

Fórmula de regresión Ridge, o fórmula RSS con término de penalización L2

Recuerde que los coeficientes marcan el efecto de un predictor dado (es decir, la variable independiente) sobre el valor predicho (esto es, la variable dependiente). Una vez agregado a la fórmula RSS, el término de penalización L2 contrarresta los coeficientes especialmente altos al reducir todos los valores de los coeficientes. En estadística, esto se llama contracción del coeficiente. Por lo tanto, el estimador de cresta anterior calcula nuevos coeficientes de regresión que reducen el RSS de un modelo dado. Esto minimiza el efecto de cada predictor y reduce el sobreajuste en los datos de entrenamiento.6

Tenga en cuenta que la regresión de Ridge no reduce todos los coeficientes en el mismo valor. Más bien, los coeficientes se reducen en proporción a su tamaño inicial. A medida que λ aumenta, los coeficientes de valor alto se reducen a un ritmo mayor que los coeficientes de valor bajo.7 Por lo tanto, los coeficientes de valor alto se penalizan más que los coeficientes de valor bajo.

Regresión Ridge frente a regresión Lasso

Tenga en cuenta que la penalización L2 reduce los coeficientes hacia cero pero nunca hasta el cero absoluto; aunque las ponderaciones de las características del modelo pueden volverse insignificantemente pequeñas, nunca equivalen a cero en la regresión. Reducir un coeficiente a cero elimina efectivamente el predictor emparejado del modelo. Esto se denomina selección de características, que es otro medio de corregir la multicolinealidad.8 Dado que la regresión de Ridge no reduce los coeficientes de regresión a cero, no realiza la selección de características.9 Esto se cita a menudo como una desventaja de la regresión. Además, otra desventaja citada con frecuencia es la incapacidad de la regresión de Ridge para separar los efectos de los predictores en caso de multicolinealidad grave.10

La regresión Lasso, también llamada regularización L1, es uno de los otros métodos de regularización de la regresión lineal. La regularización L1 funciona reduciendo los coeficientes a cero, eliminando esencialmente esas variables independientes del modelo. Tanto la regresión Lasso como la regresión Ridge reducen la complejidad del modelo, aunque por medios diferentes. La regresión Lasso reduce el número de variables independientes que afectan a la salida. La regresión Ridge reduce el peso que cada variable independiente tiene en la salida.

Otras técnicas de regularización por regresión

Elastic Net es una forma adicional de regularización. Mientras que la regresión de Ridge obtiene su parámetro de regularización a partir de la suma de errores al cuadrado y Lasso obtiene el suyo a partir de la suma del valor absoluto de los errores, Elastic Net incorpora ambos parámetros de regularización en la función de coste RSS.11

La regresión de componentes principales (PCR) también puede actuar como un procedimiento de regularización. Aunque la PCR puede resolver la multicolinealidad, no lo hace aplicando una penalización a la función RSS como en las regresiones de Ridge y Lasso. Más bien, la PCR produce combinaciones lineales de predictores correlacionados a partir de los cuales crear un nuevo modelo de mínimos cuadrados.12

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Regresión Ridge en el machine learning

Complejidad del modelo

En el machine learning, la regresión Ridge ayuda a reducir el sobreajuste resultante de la complejidad del modelo. La complejidad del modelo puede deberse a:

  • Un modelo que posee demasiadas características. Las características son los predictores del modelo y también pueden denominarse "parámetros" en machine learning. Los tutoriales en línea suelen recomendar mantener el número de entidades por debajo del número de instancias en los conjuntos de datos de entrenamiento. Sin embargo, esto no siempre es factible.
  • Características que poseen demasiado peso. El peso de la característica se refiere al efecto de un predictor determinado en la salida del modelo. Un peso de característica elevado es equivalente a un coeficiente de valor alto.

Los modelos más simples no funcionan intrínsecamente mejor que los modelos complejos. Sin embargo, un alto grado de complejidad del modelo puede inhibir la capacidad de un modelo para generalizar nuevos datos fuera del conjunto de entrenamiento.

Dado que la regresión de Ridge no realiza la selección de características, no puede reducir la complejidad del modelo eliminando características. Pero si una o más características afectan demasiado al resultado de un modelo, la regresión ridge puede reducir las ponderaciones altas de las características (es decir, los coeficientes) en todo el modelo según el término de penalización L2. Esto reduce la complejidad del modelo y ayuda a que las predicciones del modelo dependan de forma menos errática de una o más características.

Equilibrio entre sesgo y varianza

En términos de machine learning, la regresión equivale a añadir sesgo a un modelo para reducir la varianza de ese modelo. La compensación entre sesgo y varianza es un problema muy conocido en el machine learning. Pero para entender la compensación entre sesgo y varianza, es necesario saber primero qué significan "sesgo" y "varianza", respectivamente, en la investigación del machine learning.

En pocas palabras: el sesgo mide la diferencia media entre los valores pronosticados y los valores reales; la varianza mide la diferencia entre las predicciones en las distintas realizaciones de un modelo determinado. A medida que aumenta el sesgo, un modelo predice con menos precisión en un conjunto de datos de entrenamiento. A medida que aumenta la varianza, un modelo predice con menos precisión en otros conjuntos de datos. El sesgo y la varianza miden la precisión del modelo en conjuntos de entrenamiento y prueba respectivamente. Obviamente, los desarrolladores esperan reducir el sesgo y la varianza de los modelos. Sin embargo, la reducción simultánea de ambas no siempre es factible y, por lo tanto, se necesitan técnicas de regularización, como la regresión.

Como se ha mencionado, la regularización de la regresión de Ridge introduce un sesgo adicional en aras de la disminución de la varianza. En otras palabras, los modelos regularizados a través de la regresión producen predicciones menos precisas sobre los datos de entrenamiento (mayor sesgo) pero predicciones más precisas sobre los datos de prueba (menor varianza). Se trata de un equilibrio entre sesgo y varianza. Mediante la regresión de Ridge, los usuarios determinan una pérdida aceptable en la precisión del entrenamiento (mayor sesgo) para aumentar la generalización de un modelo determinado (menor varianza).13 De esta manera, aumentar el sesgo puede ayudar a mejorar el rendimiento general del modelo.

La fuerza de la penalización L2 y, por lo tanto, la compensación sesgo-varianza del modelo, está determinada por el valor λ en la ecuación de la función de pérdida del estimador de Ridge. Si λ es cero, entonces nos queda una función ordinaria de mínimos cuadrados. Esto crea un modelo de regresión lineal estándar sin ninguna regularización. Por el contrario, un valor de λ más alto significa más regularización. A medida que aumenta λ, aumenta el sesgo del modelo mientras que disminuye la varianza. Por lo tanto, cuando λ es igual a cero, el modelo se sobreajusta a los datos de entrenamiento, pero cuando λ es demasiado alto, el modelo se ajusta por debajo de todos los datos.14

El error cuadrático medio (MSE) puede ayudar a determinar un valor de λ adecuado. El MSE está estrechamente relacionado con el RRS y es un medio de medir la diferencia, por término medio, entre los valores predichos y los verdaderos. Cuanto menor sea el MSE de un modelo, más precisas serán sus predicciones. Pero el MSE aumenta a medida que aumenta λ. Sin embargo, se argumenta que siempre existe un valor de λ mayor que cero, de modo que el MSE obtenido a través de la regresión es menor que el obtenido a través de OLS.15 Un método para deducir un valor de λ adecuado es encontrar el valor más alto de λ que no aumente el MSE, como se ilustra en la Figura 2. Las técnicas adicionales de validación cruzada pueden ayudar a los usuarios a seleccionar valores de λ óptimos para ajustar su modelo.16

Relación de modelado gráfico entre MSE, sesgo, varianza y término de penalización lambda

Ejemplos de casos prácticos

Los modelos de regresión se utilizan mejor cuando se trata de conjuntos de datos que poseen dos o más características correlacionadas. Además, muchos campos utilizan la regresión ridge para tratar modelos con un mayor número de predictores y pequeños conjuntos de datos de entrenamiento.17 Estas situaciones pueden ser bastante comunes cuando se trata de una variedad de datos.

Bioestadística

La biología computacional y los estudios genéticos a menudo se ocupan de modelos en los que el número de predictores supera con creces el tamaño de las muestras de los conjuntos de datos, especialmente cuando se investiga la expresión genética. La regresión Ridge proporciona un medio para abordar esa complejidad del modelo al reducir el peso total de estas múltiples características, comprimiendo el rango predictivo del modelo.

Inmobiliaria

Un sinfín de predictores determinan el precio final de venta de una casa y muchos están correlacionados, como el número de dormitorios y baños. Las características altamente correlacionadas conducen a coeficientes de regresión altos y a un sobreajuste de los datos de entrenamiento. La regresión corrige esta forma de complejidad del modelo al reducir las ponderaciones totales de las características en el valor final previsto del modelo.

Estos son solo dos ejemplos en la disciplina más amplia de la ciencia de datos. Pero como ilustran estos dos ejemplos, puede emplear la regresión de manera más efectiva en situaciones en las que tiene más características del modelo que muestras de datos o cuando su modelo tiene dos o más características altamente correlacionadas.

AI Academy

Ponga la IA a trabajar para el servicio de atención al cliente

Vea cómo la IA generativa puede satisfacer a los clientes con una experiencia más fluida y aumentar la productividad de la organización en estas tres áreas clave: autoservicio, agentes humanos y operaciones del centro de contacto.

Investigación reciente

Investigaciones recientes exploran una variante modificada de la regresión de mínimos cuadrados de Lasso para el fin de llevar a cabo la selección de características18 Esta forma modificada de regresión de Ridge utiliza diferentes parámetros de regularización en cada coeficiente. De este modo, se pueden penalizar individualmente los pesos de las características, y así implementar potencialmente la selección de características mediante la regresión de Ridge19

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo