En términos de machine learning, la regresión de ridge equivale a agregar sesgo a un modelo con el fin de disminuir la varianza de ese modelo. El equilibrio entre sesgos y varianzas es un problema bien conocido en el machine learning. Pero para entender la relación entre sesgo y varianza, es necesario saber primero qué significan “sesgo” y “varianza”, respectivamente, en la investigación sobre machine learning.
En pocas palabras, el sesgo mide la diferencia promedio entre los valores predichos y los valores verdaderos; y la varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo dado. A medida que aumenta el sesgo, un modelo predice con menor precisión en un conjunto de datos de entrenamiento. A medida que aumenta la varianza, un modelo predice con menor precisión otros conjuntos de datos. Por lo tanto, el sesgo y la varianza miden la precisión del modelo en los conjuntos de entrenamiento y prueba respectivamente. Obviamente, los desarrolladores esperan reducir el sesgo y la varianza del modelo. Sin embargo, la reducción simultánea de ambos no siempre es factible, y de ahí la necesidad de emplear técnicas de regularización como la regression.
Como se mencionó, la regularización de regresión de cresta introduce un sesgo adicional en aras de la disminución de la varianza. En otras palabras, los modelos regularizados mediante regresión crean predicciones menos precisas sobre los datos de entrenamiento (mayor sesgo) pero predicciones más precisas sobre los datos de prueba (menor varianza). Este es el equilibrio entre sesgo y varianza. A través de la regresión, los usuarios determinan una pérdida aceptable en la precisión del entrenamiento (mayor sesgo) para aumentar la generalización de un modelo determinado (menor varianza).13 De esta manera, aumentar el sesgo puede ayudar a mejorar el rendimiento general del modelo.
La fuerza de la penalización L2 y, por lo tanto, el equilibrio entre sesgo y varianza del modelo, está determinada por el valor λ en la ecuación de la función de pérdida del estimador de ridge. Si λ es cero, entonces nos queda una función de mínimos cuadrados ordinaria. Esto crea un modelo de regresión lineal estándar sin ninguna regularización. Por el contrario, un valor λ más alto significa mayor regularización. A medida que λ aumenta, el sesgo del modelo aumenta mientras que la varianza disminuye. Por lo tanto, cuando λ es igual a cero, el modelo se ajusta en exceso a los datos de entrenamiento, pero cuando λ es demasiado alto, el modelo se ajusta insuficientemente a todos los datos.14
El error cuadrático medio (MSE) puede ayudar a determinar un valor de λ adecuado. MSE está estrechamente relacionado con RRS y es un medio para medir la diferencia, en promedio, entre los valores predichos y verdaderos. Cuanto menor sea el MSE de un modelo, más precisas serán sus predicciones. Pero el MSE aumenta a medida que aumenta λ. Sin embargo, se argumenta que siempre existe un valor de λ mayor que cero, de modo que el MSE obtenido a través de la regresión es menor que el obtenido a través de OLS.15 Un método para deducir un valor de λ adecuado es encontrar el valor más alto de λ que no aumente el MSE, como se ilustra en la Figura 2. Las técnicas adicionales de validación cruzada pueden ayudar a los usuarios a seleccionar valores de λ óptimos para ajustar su modelo.16