La regularización es un conjunto de métodos para reducir el sobreajuste en los modelos de machine learning. Normalmente, la regularización compensa una disminución marginal en la precisión del entrenamiento con un aumento en la generalización.
La regularización abarca una variedad de técnicas para corregir el sobreajuste en los modelos de machine learning. Como tal, la regularización es un método para aumentar la generalización de un modelo, es decir, su capacidad de producir predicciones precisas en nuevos conjuntos de datos.1 La regularización proporciona esta mayor generalización a cambio de un mayor error de entrenamiento. En otras palabras, los métodos de regularización generalmente conducen a predicciones menos precisas en los datos de entrenamiento, pero a predicciones más precisas en los datos de prueba.
La regularización se diferencia de la optimización. Básicamente, el primero aumenta la generalizabilidad del modelo, mientras que el segundo aumenta la precisión del entrenamiento del modelo. Ambos son conceptos importantes en el machine learning y la ciencia de datos.
Hay muchas formas de regularización. Cualquier cosa en el camino de una guía completa requiere un tratamiento mucho más largo en el libro. No obstante, este artículo ofrece una visión general de la teoría necesaria para entender el propósito de la regularización en el machine learning, así como una encuesta de varias técnicas populares de regularización.
Esta concesión de mayor error de entrenamiento para disminuir el error de prueba se conoce como compensación entre sesgos y varianza. El equilibrio entre sesgos y varianzas es un problema bien conocido en el machine learning. Es necesario definir primero “sesgo” y “varianza”. Para decirlo brevemente:
- El sesgo mide la diferencia promedio entre los valores predichos y los valores verdaderos. A medida que aumenta el sesgo, un modelo predice con menor precisión en un conjunto de datos de entrenamiento. Un alto sesgo se refiere a un alto error en el entrenamiento.
- La varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo determinado. A medida que aumenta la varianza, un modelo predice con menos precisión sobre datos no vistos. Una varianza alta se refiere a un error alto durante las pruebas y la validación.
Por lo tanto, el sesgo y la varianza representan inversamente la precisión del modelo en los conjuntos de entrenamiento y prueba, respectivamente.2 Obviamente, los desarrolladores pretenden reducir tanto el sesgo como la varianza del modelo. La reducción simultánea en ambos no siempre es posible, lo que se deriva en la necesidad de regularización. La regularización disminuye la varianza del modelo a costa de un mayor sesgo.
Al aumentar el sesgo y disminuir la varianza, la regularización resuelve el sobreajuste del modelo. El sobreajuste se produce cuando el error en los datos de entrenamiento disminuye mientras que el error en los datos de prueba deja de disminuir o comienza a aumentar.3 En otras palabras, el sobreajuste describe modelos con bajo sesgo y alta varianza. Sin embargo, si la regularización introduce demasiado sesgo, el modelo no se ajustará adecuadamente.
A pesar de su nombre, el subajuste no denota lo contrario del sobreajuste. El subajuste describe modelos caracterizados por un alto sesgo y una alta varianza. Un modelo mal ajustado produce predicciones insatisfactoriamente erróneas durante el entrenamiento y las pruebas. Esto suele deberse a datos o parámetros de entrenamiento insuficientes.
Sin embargo, la regularización también puede conducir a un desajuste del modelo. Si se introduce demasiado sesgo a través de la regularización, la varianza del modelo puede dejar de disminuir e incluso aumentar. La regularización puede tener este efecto particularmente en modelos simples, es decir, modelos con pocos parámetros. Al determinar el tipo y el grado de regularización a implementar, se debe considerar la complejidad de un modelo, el conjunto de datos, entre otros.4
Tanto laregresión lineal como la regresión logística son modelos predictivos subyacentes en el machine learning. La regresión lineal (o de mínimos cuadrados ordinarios) pretende medir y predecir el impacto de uno o varios predictores en los resultados determinados encontrando la línea que mejor se ajuste a los puntos de datos proporcionados (es decir, los datos de entrenamiento). La regresión logística pretende determinar las probabilidades de clase de mediante una salida binaria dada un serial de predictores. En otras palabras, la regresión lineal realiza predicciones cuantitativas continuas, mientras que la regresión logística produce predicciones categóricas discretas5
Por supuesto, a medida que aumenta el número de predictores en cualquiera de los modelos de regression, la relación entrada-salida no siempre es sencilla y requiere manipulación de la fórmula de regression. Ingrese la regularización. Existen tres formas principales de regularización para los modelos de regression. Tenga en cuenta que esta lista es solo una breve encuesta. La aplicación de estas técnicas de regularización en regression lineal o logística varía minuciosamente.
- La regresión de lazo (o regularización L1) es una técnica de regularización que penaliza los coeficientes correlacionados de alto valor. Introduce un término de regularización (también llamado término de penalización) en la función de pérdida de suma de errores al cuadrado (SSE) del modelo. Este término de penalización es el valor absoluto de la suma de los coeficientes. Controlado a su vez por el hiperparámetro lambda (λ), reduce los pesos de las características seleccionadas a cero. Por lo tanto, la regresión de lazo elimina por completo las características multicolineales del modelo.
- La regresión de Ridge (o regularización L2) es una técnica de regularización que penaliza de manera similar los coeficientes de alto valor introduciendo un término de penalización en la función de pérdida SSE. Sin embargo, difiere de la regresión de Lasso. En primer lugar, el término de penalización en regresión de Ridge es la suma al cuadrado de los coeficientes en lugar del valor absoluto de los mismos. En segundo lugar, la regresión de Ridge no promulga la selección de características. Mientras que el término de penalización de la regresión de Lasso puede eliminar características del modelo reduciendo los valores de los coeficientes a cero, la regresión de Ridge solo reduce los pesos de las características hacia cero, pero nunca a cero.
- La regularización de red elástica combina esencialmente la regresión de Ridge y lasso, pero inserta los términos de penalización L1 y L2 en la función de pérdida de SSE. L2 y L1 derivan su valor del término de penalización, respectivamente, elevando al cuadrado o tomando el valor absoluto de la suma de los pesos de las características. La red elástica inserta ambos valores de penalización en la ecuación de función de costo (SSE). De esta manera, la red elástica aborda la multicolinealidad al tiempo que permite la selección de características.6
En estadística, estos métodos también se denominan "reducción de coeficientes", ya que reducen los valores de los coeficientes predictores en el modelo predictivo. En las tres técnicas, la fuerza del término de penalización está controlada por lambda, que se puede calcular mediante diversas técnicas de validación cruzada.
El aumento de datos es una técnica de regularización que modifica los datos de entrenamiento del modelo. Amplía el tamaño del conjunto de entrenamiento mediante la creación de muestras de datos artificiales derivadas de datos de entrenamiento preexistentes. Agregar más muestras al conjunto de entrenamiento, particularmente de instancias raras en datos del mundo real, expone un modelo a una mayor cantidad y diversidad de datos de los que aprende. La investigación de machine learning exploró recientemente el aumento de datos para clasificadores, particularmente como un medio para resolver conjuntos de datos desequilibrados.7 Sin embargo, el aumento de datos difiere de los datos sintéticos. El segundo implica la creación de datos nuevos y artificiales, mientras que el primero produce duplicados modificados de datos preexistentes para diversificar y ampliar el conjunto de datos.
La interrupción anticipada es quizás la técnica de regularización que se implementa más fácilmente. En resumen, limita el número de iteraciones durante el entrenamiento del modelo. Aquí, un modelo pasa continuamente por los datos de entrenamiento, deteniéndose una vez que no hay mejora (y tal vez incluso deterioro) en la precisión del entrenamiento y la validación. El objetivo es capacitar un modelo hasta que haya alcanzado el error de entrenamiento más bajo posible antes de aumento en el error de validación.8
Muchos paquetes de Python de machine learning proporcionan opciones de comando de entrenamiento para la detención temprana. De hecho, en algunos, la interrupción temprana es una configuración de entrenamiento predeterminada.
Neural networks son modelos complejos de machine learning que impulsan muchas aplicaciones y servicios de inteligencia artificial . Las Neural networks se componen de una capa de entrada, una o varias capas ocultas y una capa de salida, cada una de ellas compuesta a su vez por varios nodos.
Deserción regulariza las neural networks al abandonar aleatoriamente nodos, junto con sus conexiones de entrada y salida, de las neural networks durante el entrenamiento (Fig. 3). Dropout capacita diversas variaciones de una arquitectura de tamaño fijo, y cada variación tiene diferentes nodos aleatorios que quedan fuera de la arquitectura. Para las pruebas se utiliza una única red neuronal sin deserción, empleando un método de promedio aproximado derivado de las arquitecturas de entrenamiento modificadas aleatoriamente. De esta manera, la deserción se aproxima al entrenamiento de una gran cantidad de neural networks con una multitud de arquitecturas diversificadas.9
La disminución del peso es otra forma de regularización empleada para las redes neuronales profundas. Reduce la suma de los pesos cuadrados de la red mediante un parámetro de regularización, al igual que la regularización L2 en modelos lineales.10 Pero cuando se emplea en redes neuronales, esta reducción tiene un efecto similar a la regularización de L1: el peso de las neuronas seleccionadas disminuye a cero.11 Esto elimina efectivamente los nodos de la red, reduciendo la complejidad de la red a través de la escasez.12
La disminución del peso puede parecer superficialmente similar a la deserción en redes neural networks profundas, pero las dos técnicas difieren. Una diferencia principal es que, en la deserción, el valor de penalización crece exponencialmente en la profundidad de la red en los casos, mientras que el valor de penalización de la disminución del peso crece linealmente. Algunos creen que esto permite que la deserción penalice de manera más significativa la complejidad de la red que la disminución del peso.13
Muchos artículos y tutoriales en línea confunden incorrectamente la regularización L2 y la disminución de peso. De hecho, la erudición es inconsistente —algunos distinguen entre L2 y disminución de peso,14 algunos los igualan,15 mientras que otros son inconsistentes al describir la relación entre ellos.16 Resolver tales inconsistencias en la terminología es un área necesaria pero pasada por alto para futuras becas.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/
2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0
3 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/
4 Vincent Vandenbussche, The Regularization Cookbook, Packt Publishing, 2023.
5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0
6 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2a. edición, Springer, 2021.
7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen, and Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee, and Hansu Cho, "Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html
8 Grégoire Montavon, Geneviève B. Orr, and Klaus-Robert Müller, Neural Networks: Tricks of the Trade, 2a. edición, Springer, 2012.
9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, Vol. 15, No. 56, 2014, pp. 1929−1958, https://jmlr.org/papers/v15/srivastava14a.html
10 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
11 Rahul Parhi and Robert D. Nowak, "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective," IEEE Signal Processing Magazine, Vol. 40, No. 6, 2023, pp. 63-74, https://arxiv.org/abs/2301.09554
12 Stephen Hanson and Lorien Pratt, "Comparing Biases for Minimal Network Construction with Back-Propagation," Advances in Neural Information Processing Systems 1, 1988, pp. 177-185, https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf
13 David P. Helmbold, Philip M. Long, "Surprising properties of dropout in deep networks," Journal of Machine Learning Research, Vol. 18, No. 200, 2018, pp. 1−28, https://jmlr.org/papers/v18/16-549.html
14 Guodong Zhang, Chaoqi Wang, Bowen Xu, and Roger Grosse, "Three Mechanisms of Weight Decay Regularization," International Conference on Learning Representations (ILCR) 2019, https://arxiv.org/abs/1810.12281
15 David P. Helmbold and Philip M. Long, "Fundamental Differences between Dropout and Weight Decay in Deep Networks," 2017, https://arxiv.org/abs/1602.04484v3
16 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/