¿Qué es la regularización?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es la regularización?

La regularización es un conjunto de métodos para reducir el sobreajuste en modelos de aprendizaje automático. Normalmente, la regularización supone una disminución marginal de la precisión del entrenamiento a cambio de un aumento de la generabilidad.

La regularización abarca una variedad de técnicas para corregir el sobreajuste en los modelos de machine learning. Como tal, la regularización es un método para aumentar la generalización de un modelo, es decir, su capacidad para producir predicciones precisas sobre nuevos conjuntos de datos.1 La regularización proporciona esta mayor generalización a cambio de un mayor error de entrenamiento. En otras palabras, los métodos de regularización generalmente conducen a predicciones menos precisas en los datos de entrenamiento, pero más precisas en los datos de prueba.

La regularización difiere de la optimización. Esencialmente, el primero aumenta la generalización del modelo mientras que el segundo aumenta la precisión del entrenamiento del modelo. Ambos son conceptos importantes en el aprendizaje automático y la ciencia de datos.

Hay muchas formas de regularización. Cualquier cosa en el camino de una guía completa requiere un tratamiento mucho más largo en el libro. No obstante, este artículo ofrece una visión general de la teoría necesaria para entender el propósito de la regularización en el machine learning, así como una encuesta de varias técnicas populares de regularización.

Compensación entre sesgo y varianza

Esta concesión de mayor error de entrenamiento para disminuir el error de prueba se conoce como compensación entre sesgos y varianza. El equilibrio entre sesgos y varianzas es un problema bien conocido en el machine learning. Es necesario definir primero “sesgo” y “varianza”. Para decirlo brevemente:

  • El sesgo mide la diferencia promedio entre los valores predichos y los valores verdaderos. A medida que aumenta el sesgo, un modelo predice con menor precisión en un conjunto de datos de entrenamiento. Un alto sesgo se refiere a un alto error en el entrenamiento.

  • La varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo determinado. A medida que aumenta la varianza, un modelo predice con menos precisión sobre datos no vistos. Una varianza alta se refiere a un error alto durante las pruebas y la validación.

Por lo tanto, el sesgo y la varianza representan inversamente la precisión del modelo en los conjuntos de entrenamiento y prueba, respectivamente.2 Obviamente, los desarrolladores pretenden reducir tanto el sesgo como la varianza del modelo. La reducción simultánea en ambos no siempre es posible, lo que se deriva en la necesidad de regularización. La regularización disminuye la varianza del modelo a costa de un mayor sesgo.

Ajustes del modelo de regression

Al aumentar el sesgo y disminuir la varianza, la regularización resuelve el sobreajuste del modelo. El sobreajuste se produce cuando el error en los datos de entrenamiento disminuye mientras que el error en los datos de prueba deja de disminuir o comienza a aumentar.3 En otras palabras, el sobreajuste describe modelos con bajo sesgo y alta varianza. Sin embargo, si la regularización introduce demasiado sesgo, el modelo no se ajustará adecuadamente.

A pesar de su nombre, el subajuste no denota lo contrario del sobreajuste. El subajuste describe modelos caracterizados por un alto sesgo y una alta varianza. Un modelo insuficientemente ajustado produce predicciones erróneas insatisfactorias durante el entrenamiento y las pruebas. Esto a menudo se debe a datos o parámetros de entrenamiento insuficientes.

Sin embargo, la regularización también puede conducir a un desajuste del modelo. Si se introduce demasiado sesgo a través de la regularización, la varianza del modelo puede dejar de disminuir e incluso aumentar. La regularización puede tener este efecto particularmente en modelos simples, es decir, modelos con pocos parámetros. Al determinar el tipo y el grado de regularización a implementar, se debe considerar la complejidad de un modelo, el conjunto de datos, entre otros.4

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Tipos de regularización con modelos lineales

Regresión lineal y regresión logística son modelos predictivos que sustentan el machine learning. La regresión lineal (o mínimos cuadrados ordinarios) tiene como objetivo medir y predecir el impacto de uno o más predictores en una salida determinada mediante la búsqueda de la línea de mejor ajuste a través de los puntos de datos proporcionados (es decir, datos de entrenamiento). La regresión tiene como objetivo determinar las probabilidades de clase mediante una salida binaria con un rango de predictores. En otras palabras, la regresión lineal hace predicciones cuantitativas continuas, mientras que la regresión logística produce predicciones categóricas discretas.5

Por supuesto, a medida que aumenta el número de predictores en cualquiera de los modelos de regression, la relación entrada-salida no siempre es sencilla y requiere manipulación de la fórmula de regression. Ingrese la regularización. Existen tres formas principales de regularización para los modelos de regression. Tenga en cuenta que esta lista es solo una breve encuesta. La aplicación de estas técnicas de regularización en regression lineal o logística varía minuciosamente.

  • La regresión (o regularización L1) es una técnica de regularización que penaliza los coeficientes correlacionados de alto valor. Introduce un término de regularización (también llamado penalización) en la función de pérdida de la suma de errores cuadráticos (SSE) del modelo. Este término de penalización es el valor absoluto de la suma de coeficientes. Controlado a su vez por el hiperparámetro lambda (λ), reduce a cero las ponderaciones de características seleccionadas. La regresión de lasso elimina por completo las características multicolineales del modelo.

  • La regresión de cresta (o regularización L2) es una técnica de regularización que penaliza de manera similar los coeficientes de alto valor introduciendo un término de penalización en la función de pérdida SSE. Sin embargo, difiere de la regresión. En primer lugar, el término de penalización en regresión es la suma al cuadrado de los coeficientes en lugar del valor absoluto de los mismos. En segundo lugar, regresión no promulga la selección de características. Mientras que el término de penalización de la regresión de lasso puede eliminar características del modelo reduciendo los valores de los coeficientes a cero, la regresión de cresta solo reduce los pesos de las características hacia cero, pero nunca a cero.

  • La regularización de red elástica combina esencialmente la regresión de cresta y lasso, pero inserta los términos de penalización L1 y L2 en la función de pérdida de SSE. L2 y L1 derivan su valor del término de penalización, respectivamente, elevando al cuadrado o tomando el valor absoluto de la suma de los pesos de las características. La red elástica inserta ambos valores de penalización en la ecuación de función de costo (SSE). De esta manera, la red elástica aborda la multicolinealidad, al tiempo que permite la selección de características.6

En estadística, estos métodos también se denominan "reducción de coeficientes", ya que reducen los valores de los coeficientes predictores en el modelo predictivo. En las tres técnicas, la fuerza del término de penalización está controlada por lambda, que se puede calcular mediante diversas técnicas de validación cruzada.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Tipos de regularización en el aprendizaje automático

Conjunto de datos

El aumento de datos es una técnica de regularización que modifica los datos de entrenamiento del modelo. Amplía el tamaño del conjunto de entrenamiento mediante la creación de muestras de datos artificiales derivadas de datos de entrenamiento preexistentes. Agregar más muestras al conjunto de entrenamiento, particularmente de instancias raras en datos del mundo real, expone un modelo a una mayor cantidad y diversidad de datos de los que aprende. La investigación de machine learning exploró recientemente el aumento de datos para clasificadores, particularmente como un medio para resolver conjuntos de datos desequilibrados.7 Sin embargo, el aumento de datos difiere de los datos sintéticos. El segundo implica la creación de datos nuevos y artificiales, mientras que el primero produce duplicados modificados de datos preexistentes para diversificar y ampliar el conjunto de datos.

Visualización de técnicas de modificación para diversificar conjuntos de imágenes

Entrenamiento de modelos

La interrupción anticipada es quizás la técnica de regularización que se implementa más fácilmente. En resumen, limita el número de iteraciones durante el entrenamiento del modelo. Aquí, un modelo pasa continuamente por los datos de entrenamiento, deteniéndose una vez que no hay mejora (y tal vez incluso deterioro) en la precisión del entrenamiento y la validación. El objetivo es capacitar un modelo hasta que haya alcanzado el error de entrenamiento más bajo posible antes de aumento en el error de validación.8

Muchos paquetes de Python de machine learning proporcionan opciones de comando de entrenamiento para la detención temprana. De hecho, en algunos, la interrupción temprana es una configuración de entrenamiento predeterminada.

Visualización gráfica de la interrupción temprana en relación con la precisión del entrenamiento y la validación

Neural Networks

Neural networks son modelos complejos de machine learning que impulsan muchas aplicaciones y servicios de inteligencia artificial . Las Neural networks se componen de una capa de entrada, una o varias capas ocultas y una capa de salida, cada una de ellas compuesta a su vez por varios nodos.

La deserción regulariza las neural networks al abandonar aleatoriamente nodos, junto con sus conexiones de entrada y salida, de las neural networks durante el entrenamiento (Fig. 3). Dropout capacita diversas variaciones de una arquitectura de tamaño fijo, y cada variación tiene diferentes nodos aleatorios que quedan fuera de la arquitectura. Para las pruebas se utiliza una única red neuronal sin deserción, empleando un método de promedio aproximado derivado de las arquitecturas de entrenamiento modificadas aleatoriamente. De esta manera, la deserción se aproxima al entrenamiento de una gran cantidad de neural networks con una multitud de arquitecturas diversificadas.9

Diagrama de comparación de Neural Networks y la red de abandono

El decaimiento del peso es otra forma de regularización empleada para neural networks profundas. Reduce la suma de los pesos cuadrados de la red mediante un parámetro de regularización, al igual que la regularización L2 en modelos lineales.10 Pero cuando se emplea en neural networks, esta reducción tiene un efecto similar a la regularización de L1: los pesos de las neuronas seleccionadas disminuyen a cero.11 Esto elimina eficazmente los nodos de la red, lo que reduce la complejidad de la red a través de la escasez.12

La disminución del peso puede parecer superficialmente similar a la deserción en redes neural networks profundas, pero las dos técnicas difieren. Una diferencia principal es que, en la deserción, el valor de penalización crece exponencialmente en la profundidad de la red en los casos, mientras que el valor de penalización de la disminución del peso crece linealmente. Algunos creen que esto permite que la deserción penalice de manera más significativa la complejidad de la red que la disminución del peso.13

Muchos artículos y tutoriales en línea confunden incorrectamente la regularización de L2 y la disminución del peso. De hecho, los estudios son inconsecuentes: algunos distinguen entre L2 y la disminución del peso,14 algunos los equiparan,15 mientras que otros son inconsecuentes al describir la relación entre ellos.16 Resolver tales inconsistencias en la terminología es un área necesaria pero pasada por alto para futuras investigaciones.

Notas de pie de página

[1] Deep Learning, Goodfellow et al., The MIT Press, 2016

[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013

[3] Deep Learning, Goodfellow et al. 

[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023 

[5] An Introduction to Statistical Learning, G. James et al.

[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016. Also, Regression: Models, Methods and Applications, Fahrmeir, Ludwig, et al. 2nd edition, Springer, 2021

[7]Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Ghiasi et al., CVPR, 2021

[8] Neural Networks: Tricks of the Trade, Montavon, et al. 2nd Ed. 2012

[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting,” JMLR, Srivastava et al., 2014

[10] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016.

[11]Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,” arXiv, enero de 2023

[12] “Comparing Biases for Minimal Network Construction with Back-propagation,” Proceedings, Hanson and Pratt, 1988 

[13] “Surprising properties of dropout in deep networks,” Helmbold, David and Long, Philip, JMLR, 2018

[14]Three Mechanisms of Weight Decay Regularization,” Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018

[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks,” Helmbold, David and Long, Philip, ResearchGate, 2016

[16] Deep Learning, Goodfellow et al.

 
Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo