Las últimas tendencias en IA, presentadas por expertos
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
La regularización es un conjunto de métodos para reducir el sobreajuste en los modelos de machine learning. Normalmente, la regularización compensa una disminución marginal en la precisión del entrenamiento con un aumento en la generalización.
La regularización abarca una serie de técnicas para corregir el sobreajuste en los modelos de machine learning. Como tal, la regularización es un método para aumentar la generalización de un modelo, es decir, su capacidad para producir predicciones precisas en nuevos conjuntos de datos1. La regularización proporciona esta mayor generalizabilidad a costa de un mayor error de entrenamiento. En otras palabras, los métodos de regularización suelen dar lugar a predicciones menos precisas sobre los datos de entrenamiento, pero a predicciones más precisas sobre los datos de prueba.
La regularización se diferencia de la optimización. Básicamente, el primero aumenta la generalizabilidad del modelo, mientras que el segundo aumenta la precisión del entrenamiento del modelo. Ambos son conceptos importantes en el machine learning y la ciencia de datos.
Existen muchas formas de regularización. Cualquier cosa que se parezca a una guía completa requiere un tratamiento mucho más extenso. Sin embargo, este artículo proporciona una descripción general de la teoría necesaria para comprender el propósito de la regularización en el machine learning, así como un estudio de varias técnicas de regularización populares.
Esta concesión de un mayor error de entrenamiento por un menor error de prueba se conoce como compensación de sesgo-varianza. La compensación entre sesgo y varianza es un problema muy conocido en el machine learning. Es necesario definir primero "sesgo" y "varianza". En pocas palabras:
El sesgo y la varianza representan inversamente la precisión del modelo en los conjuntos de entrenamiento y prueba, respectivamente.2 Obviamente, los desarrolladores pretenden reducir tanto el sesgo como la varianza del modelo. La reducción simultánea en ambos no siempre es posible, lo que resulta en la necesidad de regularización. La regularización disminuye la varianza del modelo a costa de un mayor sesgo.
Al aumentar el sesgo y disminuir la varianza, la regularización resuelve el sobreajuste del modelo. El sobreajuste se produce cuando el error en los datos de entrenamiento disminuye mientras que el error en los datos de prueba deja de disminuir o comienza a aumentar.3 En otras palabras, el sobreajuste describe modelos con bajo sesgo y alta varianza. No obstante, si la regularización introduce demasiados sesgos, el modelo no se ajustará bien.
A pesar de su nombre, el infraajuste no denota lo contrario del sobreajuste. El infraajuste describe modelos caracterizados por un alto sesgo y una alta varianza. Un modelo mal ajustado produce predicciones insatisfactoriamente erróneas durante el entrenamiento y las pruebas. Esto suele deberse a datos o parámetros de entrenamiento insuficientes.
Sin embargo, la regularización también puede conducir potencialmente a un infraajuste del modelo. Si se introduce demasiado sesgo mediante la regularización, la varianza del modelo puede dejar de disminuir e incluso aumentar. La regularización puede tener este efecto sobre todo en modelos simples, es decir, con pocos parámetros. Al determinar el tipo y el grado de regularización que se va a implementar, hay que tener en cuenta la complejidad del modelo, el conjunto de datos, etc.4
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
La regresión lineal y la regresión logística son modelos predictivos que sustentan el machine learning. El objetivo de la regresión lineal (o mínimos cuadrados ordinarios) es medir y predecir el impacto de uno o varios predictores en un resultado determinado encontrando la línea que mejor se ajuste a través de los puntos de datos proporcionados (es decir, los datos de entrenamiento). La regresión logística pretende determinar las probabilidades de clase de mediante una salida binaria dada una serie de predictores. En otras palabras, la regresión lineal realiza predicciones cuantitativas continuas, mientras que la regresión logística produce predicciones categóricas discretas.5
Por supuesto, a medida que aumenta el número de predictores en cualquiera de los modelos de regresión, la relación insumo-producto no siempre es directa y requiere manipular la fórmula de regresión. Introduzca la regularización. Existen tres formas principales de regularización para los modelos de regresión. Tenga en cuenta que esta lista es solo un breve repaso. La aplicación de estas técnicas de regularización en la regresión lineal o logística varía minuciosamente.
En estadística, estos métodos también se denominan "reducción de coeficientes", ya que reducen los valores de los coeficientes predictores en el modelo predictivo. En las tres técnicas, la fuerza del término de penalización está controlada por lambda, que se puede calcular utilizando varias técnicas de validación cruzada.
El aumento de datos es una técnica de regularización que modifica los datos de entrenamiento del modelo. Amplía el tamaño del conjunto de entrenamiento creando muestras de datos artificiales derivadas de datos de entrenamiento preexistentes. Añadir más muestras al conjunto de entrenamiento, sobre todo de casos poco frecuentes en los datos del mundo real, expone un modelo a una mayor cantidad y diversidad de datos de los que aprender. La investigación en machine learning ha estudiado recientemente el aumento de datos para clasificadores, en particular como medio de resolver conjuntos de datos desequilibrados.7 Sin embargo, el aumento de datos difiere de los datos sintéticos. El segundo implica la creación de nuevos datos artificiales, mientras que el primero produce duplicados modificados de datos preexistentes para diversificar y ampliar el conjunto de datos.
La detención temprana es quizás la técnica de regularización que más fácilmente se aplica. En resumen, limita el número de iteraciones durante el entrenamiento del modelo. En este caso, un modelo pasa continuamente por los datos de entrenamiento, deteniéndose una vez que no hay mejora (y quizá incluso deterioro) en la precisión del entrenamiento y la validación. El objetivo es entrenar un modelo hasta que alcance el menor error de entrenamiento posible antes de una meseta o un aumento en el error de validación.8
Muchos paquetes Python de machine learning proporcionan una opción de comando de entrenamiento para la detención temprana. De hecho, en algunos, parar anticipadamente es el entorno de entrenamiento por defecto.
Las redes neuronales son modelos complejos de machine learning que impulsan muchas aplicaciones y servicios de inteligencia artificial. Las redes neuronales se componen de una capa de entrada, una o más capas ocultas y una capa de salida, cada capa a su vez compuesta por varios nodos.
El abandono regulariza las redes neuronales eliminando aleatoriamente nodos, junto con sus conexiones de entrada y salida, de las redes neuronales durante el entrenamiento (Fig. 3). El abandono entrena varias variaciones de una arquitectura de tamaño fijo, con cada variación con diferentes nodos aleatorios dejados fuera de la arquitectura. Para las pruebas se utiliza una única red neuronal sin abandono, empleando un método de promedio aproximado derivado de las arquitecturas de entrenamiento modificadas aleatoriamente. De esta manera, el abandono se aproxima al entrenamiento de una gran cantidad de redes neuronales con una multitud de arquitecturas diversificadas.9
La caída del peso es otra forma de regularización que se utiliza en las redes neuronales profundas. Reduce la suma de los pesos cuadrados de la red mediante un parámetro de regularización, al igual que la regularización L2 en modelos lineales.10 Pero cuando se emplea en redes neuronales, esta reducción tiene un efecto similar a la regularización de L1: el peso de las neuronas seleccionadas disminuye a cero.11 Esto elimina efectivamente los nodo de la red, reduciendo la complejidad de la red a través de la escasez.12
La pérdida de peso puede parecer superficialmente similar al abandono en las redes neuronales profundas, pero las dos técnicas son diferentes. Una de las principales diferencias es que, en el abandono, el valor de penalización crece exponencialmente en la profundidad de la red en los casos, mientras que el valor de penalización por caída de peso aumenta de forma lineal. Algunos creen que esto permite que el abandono penalice de manera más significativa la complejidad de la red que la disminución del peso.13
Muchos artículos y tutoriales en línea confunden incorrectamente la regularización de L2 y la caída del peso. De hecho, la beca es incoherente: algunos distinguen entre la L2 y la caída del peso,14, otros la equiparan,15, mientras que otros son inconsistentes al describir la relación entre ellos.16 Resolver esas incoherencias en la terminología es un área necesaria pero pasada por alto para futuras becas.
[1] Deep Learning. Goodfellow et al. The MIT Press. 2016.
[2] An Introduction to Statistical Learning. G. James et al. Springer. 2013.
[3] Deep Learning. Goodfellow et al.
[4] Vandenbussche, Vincent. Regularization cookbook. Packt Publishing. 2023.
[5] An Introduction to Statistical Learning. G. James et al.
[6] Applied Predictive Modeling. Kuhn, Max y Johnson, Kjell. Springer. 2016. Además, Regression: Models, Methods and Applications. Fahrmeir, Ludwig, et al. 2.ª edición. Springer. 2021
[7] “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation”. Ghiasi et al. CVPR. 2021.
[8] Neural Networks: Tricks of the Trade. Montavon. et al. 2.ª Ed. 2012.
[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”. JMLR. Srivastava et al. 2014.
[10] Applied Predictive Modeling. Kuhn, Max y Johnson, Kjell. Springer. 2016.
[11] “Deep Learning Meets Sparse Regularization: A Signal Processing Perspective”. arXiv. Enero de 2023.
[12] “Comparing Biases for Minimal Network Construction with Back-propagation”. Proceedings. Hanson y Pratt. 1988.
[13] “Surprising properties of dropout in deep networks”. Helmbold, David y Long, Philip. JMLR. 2018.
[14] “Three Mechanisms of Weight Decay Regularization”. Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse. arXiv. 2018.
[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks”. Helmbold, David y Long, Philip. ResearchGate. 2016.
[16] Deep Learning. Goodfellow et al.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.