En términos de machine learning, la regresión equivale a añadir sesgo a un modelo para reducir la varianza de ese modelo. La compensación entre sesgo y varianza es un problema muy conocido en el machine learning. Pero para entender la compensación entre sesgo y varianza, es necesario saber primero qué significan "sesgo" y "varianza", respectivamente, en la investigación del machine learning.
En pocas palabras: el sesgo mide la diferencia media entre los valores pronosticados y los valores reales; la varianza mide la diferencia entre las predicciones en las distintas realizaciones de un modelo determinado. A medida que aumenta el sesgo, un modelo predice con menos precisión en un conjunto de datos de entrenamiento. A medida que aumenta la varianza, un modelo predice con menos precisión en otros conjuntos de datos. El sesgo y la varianza miden la precisión del modelo en conjuntos de entrenamiento y prueba respectivamente. Obviamente, los desarrolladores esperan reducir el sesgo y la varianza de los modelos. Sin embargo, la reducción simultánea de ambas no siempre es factible y, por lo tanto, se necesitan técnicas de regularización, como la regresión.
Como se ha mencionado, la regularización de la regresión de Ridge introduce un sesgo adicional en aras de la disminución de la varianza. En otras palabras, los modelos regularizados a través de la regresión producen predicciones menos precisas sobre los datos de entrenamiento (mayor sesgo) pero predicciones más precisas sobre los datos de prueba (menor varianza). Se trata de un equilibrio entre sesgo y varianza. Mediante la regresión de Ridge, los usuarios determinan una pérdida aceptable en la precisión del entrenamiento (mayor sesgo) para aumentar la generalización de un modelo determinado (menor varianza).13 De esta manera, aumentar el sesgo puede ayudar a mejorar el rendimiento general del modelo.
La fuerza de la penalización L2 y, por lo tanto, la compensación sesgo-varianza del modelo, está determinada por el valor λ en la ecuación de la función de pérdida del estimador de Ridge. Si λ es cero, entonces nos queda una función ordinaria de mínimos cuadrados. Esto crea un modelo de regresión lineal estándar sin ninguna regularización. Por el contrario, un valor de λ más alto significa más regularización. A medida que aumenta λ, aumenta el sesgo del modelo mientras que disminuye la varianza. Por lo tanto, cuando λ es igual a cero, el modelo se sobreajusta a los datos de entrenamiento, pero cuando λ es demasiado alto, el modelo se ajusta por debajo de todos los datos.14
El error cuadrático medio (MSE) puede ayudar a determinar un valor de λ adecuado. El MSE está estrechamente relacionado con el RRS y es un medio de medir la diferencia, por término medio, entre los valores predichos y los verdaderos. Cuanto menor sea el MSE de un modelo, más precisas serán sus predicciones. Pero el MSE aumenta a medida que aumenta λ. Sin embargo, se argumenta que siempre existe un valor de λ mayor que cero, de modo que el MSE obtenido a través de la regresión es menor que el obtenido a través de OLS.15 Un método para deducir un valor de λ adecuado es encontrar el valor más alto de λ que no aumente el MSE, como se ilustra en la Figura 2. Las técnicas adicionales de validación cruzada pueden ayudar a los usuarios a seleccionar valores de λ óptimos para ajustar su modelo.16