¿Qué es la regularización?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es la regularización?

La regularización es un conjunto de métodos para reducir el sobreajuste en los modelos de machine learning. Normalmente, la regularización compensa una disminución marginal en la precisión del entrenamiento con un aumento en la generalización.

La regularización abarca una serie de técnicas para corregir el sobreajuste en los modelos de machine learning. Como tal, la regularización es un método para aumentar la generalización de un modelo, es decir, su capacidad para producir predicciones precisas en nuevos conjuntos de datos1. La regularización proporciona esta mayor generalizabilidad a costa de un mayor error de entrenamiento. En otras palabras, los métodos de regularización suelen dar lugar a predicciones menos precisas sobre los datos de entrenamiento, pero a predicciones más precisas sobre los datos de prueba.

La regularización se diferencia de la optimización. Básicamente, el primero aumenta la generalizabilidad del modelo, mientras que el segundo aumenta la precisión del entrenamiento del modelo. Ambos son conceptos importantes en el machine learning y la ciencia de datos.

Existen muchas formas de regularización. Cualquier cosa que se parezca a una guía completa requiere un tratamiento mucho más extenso. Sin embargo, este artículo proporciona una descripción general de la teoría necesaria para comprender el propósito de la regularización en el machine learning, así como un estudio de varias técnicas de regularización populares.

Equilibrio entre sesgo y varianza

Esta concesión de un mayor error de entrenamiento por un menor error de prueba se conoce como compensación de sesgo-varianza. La compensación entre sesgo y varianza es un problema muy conocido en el machine learning. Es necesario definir primero "sesgo" y "varianza". En pocas palabras:

  • El sesgo mide la diferencia media entre los valores predichos y los valores reales. A medida que aumenta el sesgo, un modelo predice con menos precisión en un conjunto de datos de entrenamiento. Un sesgo alto se refiere a un error alto en el entrenamiento.

  • - La varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo determinado. A medida que aumenta la varianza, un modelo predice con menos precisión sobre datos no vistos. Una varianza elevada implica un alto nivel de error durante las pruebas y la validación.

El sesgo y la varianza representan inversamente la precisión del modelo en los conjuntos de entrenamiento y prueba, respectivamente.2 Obviamente, los desarrolladores pretenden reducir tanto el sesgo como la varianza del modelo. La reducción simultánea en ambos no siempre es posible, lo que resulta en la necesidad de regularización. La regularización disminuye la varianza del modelo a costa de un mayor sesgo.

Ajustes del modelo de regresión

Al aumentar el sesgo y disminuir la varianza, la regularización resuelve el sobreajuste del modelo. El sobreajuste se produce cuando el error en los datos de entrenamiento disminuye mientras que el error en los datos de prueba deja de disminuir o comienza a aumentar.3 En otras palabras, el sobreajuste describe modelos con bajo sesgo y alta varianza. No obstante, si la regularización introduce demasiados sesgos, el modelo no se ajustará bien.

A pesar de su nombre, el infraajuste no denota lo contrario del sobreajuste. El infraajuste describe modelos caracterizados por un alto sesgo y una alta varianza. Un modelo mal ajustado produce predicciones insatisfactoriamente erróneas durante el entrenamiento y las pruebas. Esto suele deberse a datos o parámetros de entrenamiento insuficientes.

Sin embargo, la regularización también puede conducir potencialmente a un infraajuste del modelo. Si se introduce demasiado sesgo mediante la regularización, la varianza del modelo puede dejar de disminuir e incluso aumentar. La regularización puede tener este efecto sobre todo en modelos simples, es decir, con pocos parámetros. Al determinar el tipo y el grado de regularización que se va a implementar, hay que tener en cuenta la complejidad del modelo, el conjunto de datos, etc.4

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Tipos de regularización con modelos lineales

La regresión lineal y la regresión logística son modelos predictivos que sustentan el machine learning. El objetivo de la regresión lineal (o mínimos cuadrados ordinarios) es medir y predecir el impacto de uno o varios predictores en un resultado determinado encontrando la línea que mejor se ajuste a través de los puntos de datos proporcionados (es decir, los datos de entrenamiento). La regresión logística pretende determinar las probabilidades de clase de mediante una salida binaria dada una serie de predictores. En otras palabras, la regresión lineal realiza predicciones cuantitativas continuas, mientras que la regresión logística produce predicciones categóricas discretas.5

Por supuesto, a medida que aumenta el número de predictores en cualquiera de los modelos de regresión, la relación insumo-producto no siempre es directa y requiere manipular la fórmula de regresión. Introduzca la regularización. Existen tres formas principales de regularización para los modelos de regresión. Tenga en cuenta que esta lista es solo un breve repaso. La aplicación de estas técnicas de regularización en la regresión lineal o logística varía minuciosamente.

  • - La regresión de Lasso (o regularización L1) es una técnica de regularización que penaliza los coeficientes correlacionados de alto valor. Introduce un término de regularización (también llamado término de penalización) en la función de pérdida de suma de errores cuadrados (SSE) del modelo. Este término de penalización es el valor absoluto de la suma de coeficientes. Controlado a su vez por el hiperparámetro lambda (λ), reduce a cero las ponderaciones de las características seleccionadas. La regresión de Lasso elimina por completo las características multicolineales del modelo.

  • La regresión de Ridge (o regularización L2) es una técnica de regularización que penaliza de manera similar los coeficientes de alto valor introduciendo un término de penalización en la función de pérdida SSE. Sin embargo, difiere de la regresión de Lasso. En primer lugar, el término de penalización en la regresión de Ridge es la suma al cuadrado de los coeficientes en lugar del valor absoluto de los coeficientes. En segundo lugar, la regresión de Ridge no promulga la selección de características. Mientras que el término de penalización de la regresión de Lasso puede eliminar características del modelo reduciendo los valores de los coeficientes a cero, la regresión de Ridge solo reduce los pesos de las características hacia cero, pero nunca a cero.

  • - La regularización de red elástica combina esencialmente la regresión de Ridge y Lasso, pero inserta los términos de penalización L1 y L2 en la función de pérdida SSE. L2 y L1 derivan su valor del término de penalización, respectivamente, elevando al cuadrado o tomando el valor absoluto de la suma de los pesos de las características. La red elástica inserta ambos valores de penalización en la ecuación de la función de coste (SSE). De este modo, la red elástica aborda la multicolinealidad a la vez que posibilita la selección de características6.

En estadística, estos métodos también se denominan "reducción de coeficientes", ya que reducen los valores de los coeficientes predictores en el modelo predictivo. En las tres técnicas, la fuerza del término de penalización está controlada por lambda, que se puede calcular utilizando varias técnicas de validación cruzada.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Tipos de regularización en machine learning

Conjunto de datos

El aumento de datos es una técnica de regularización que modifica los datos de entrenamiento del modelo. Amplía el tamaño del conjunto de entrenamiento creando muestras de datos artificiales derivadas de datos de entrenamiento preexistentes. Añadir más muestras al conjunto de entrenamiento, sobre todo de casos poco frecuentes en los datos del mundo real, expone un modelo a una mayor cantidad y diversidad de datos de los que aprender. La investigación en machine learning ha estudiado recientemente el aumento de datos para clasificadores, en particular como medio de resolver conjuntos de datos desequilibrados.7 Sin embargo, el aumento de datos difiere de los datos sintéticos. El segundo implica la creación de nuevos datos artificiales, mientras que el primero produce duplicados modificados de datos preexistentes para diversificar y ampliar el conjunto de datos.

Visualización de técnicas de modificación para diversificar conjuntos de imágenes

Entrenamiento de modelos

La detención temprana es quizás la técnica de regularización que más fácilmente se aplica. En resumen, limita el número de iteraciones durante el entrenamiento del modelo. En este caso, un modelo pasa continuamente por los datos de entrenamiento, deteniéndose una vez que no hay mejora (y quizá incluso deterioro) en la precisión del entrenamiento y la validación. El objetivo es entrenar un modelo hasta que alcance el menor error de entrenamiento posible antes de una meseta o un aumento en el error de validación.8

Muchos paquetes Python de machine learning proporcionan una opción de comando de entrenamiento para la detención temprana. De hecho, en algunos, parar anticipadamente es el entorno de entrenamiento por defecto.

Visualización gráfica de la detención temprana en relación con la precisión del entrenamiento y la validación.

Neural networks

Las redes neuronales son modelos complejos de machine learning que impulsan muchas aplicaciones y servicios de inteligencia artificial. Las redes neuronales se componen de una capa de entrada, una o más capas ocultas y una capa de salida, cada capa a su vez compuesta por varios nodos.

El abandono regulariza las redes neuronales eliminando aleatoriamente nodos, junto con sus conexiones de entrada y salida, de las redes neuronales durante el entrenamiento (Fig. 3). El abandono entrena varias variaciones de una arquitectura de tamaño fijo, con cada variación con diferentes nodos aleatorios dejados fuera de la arquitectura. Para las pruebas se utiliza una única red neuronal sin abandono, empleando un método de promedio aproximado derivado de las arquitecturas de entrenamiento modificadas aleatoriamente. De esta manera, el abandono se aproxima al entrenamiento de una gran cantidad de redes neuronales con una multitud de arquitecturas diversificadas.9

Comparación de diagrama de redes neuronales y red de abandono

La caída del peso es otra forma de regularización que se utiliza en las redes neuronales profundas. Reduce la suma de los pesos cuadrados de la red mediante un parámetro de regularización, al igual que la regularización L2 en modelos lineales.10 Pero cuando se emplea en redes neuronales, esta reducción tiene un efecto similar a la regularización de L1: el peso de las neuronas seleccionadas disminuye a cero.11 Esto elimina efectivamente los nodo de la red, reduciendo la complejidad de la red a través de la escasez.12

La pérdida de peso puede parecer superficialmente similar al abandono en las redes neuronales profundas, pero las dos técnicas son diferentes. Una de las principales diferencias es que, en el abandono, el valor de penalización crece exponencialmente en la profundidad de la red en los casos, mientras que el valor de penalización por caída de peso aumenta de forma lineal. Algunos creen que esto permite que el abandono penalice de manera más significativa la complejidad de la red que la disminución del peso.13

Muchos artículos y tutoriales en línea confunden incorrectamente la regularización de L2 y la caída del peso. De hecho, la beca es incoherente: algunos distinguen entre la L2 y la caída del peso,14, otros la equiparan,15, mientras que otros son inconsistentes al describir la relación entre ellos.16 Resolver esas incoherencias en la terminología es un área necesaria pero pasada por alto para futuras becas.

Notas a pie de página

[1] Deep Learning. Goodfellow et al. The MIT Press. 2016.

[2] An Introduction to Statistical Learning. G. James et al. Springer. 2013.

[3] Deep Learning. Goodfellow et al. 

[4] Vandenbussche, Vincent. Regularization cookbook. Packt Publishing. 2023. 

[5] An Introduction to Statistical Learning. G. James et al.

[6] Applied Predictive Modeling. Kuhn, Max y Johnson, Kjell. Springer. 2016. Además, Regression: Models, Methods and Applications. Fahrmeir, Ludwig, et al. 2.ª edición. Springer. 2021

[7]Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation”. Ghiasi et al. CVPR. 2021.

[8] Neural Networks: Tricks of the Trade. Montavon. et al. 2.ª Ed. 2012.

[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”. JMLR. Srivastava et al. 2014.

[10] Applied Predictive Modeling. Kuhn, Max y Johnson, Kjell. Springer. 2016.

[11] “Deep Learning Meets Sparse Regularization: A Signal Processing Perspective”. arXiv. Enero de 2023.

[12] “Comparing Biases for Minimal Network Construction with Back-propagation”. Proceedings. Hanson y Pratt. 1988. 

[13] “Surprising properties of dropout in deep networks”. Helmbold, David y Long, Philip. JMLR. 2018.

[14] “Three Mechanisms of Weight Decay Regularization”. Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse. arXiv. 2018.

[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks”. Helmbold, David y Long, Philip. ResearchGate. 2016.

[16] Deep Learning. Goodfellow et al.

 
Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo