¿Qué es el sobreajuste?

En el machine learning, el sobreajuste ocurre cuando un algoritmo se ajusta demasiado o incluso exactamente a sus datos de entrenamiento, lo que da como resultado un modelo que no puede hacer predicciones o conclusiones precisas a partir de ningún otro dato que no sea el de entrenamiento.

El sobreajuste anula el propósito del modelo de machine learning. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite utilizar algoritmos de machine learning todos los días para hacer predicciones y clasificar datos.

Cuando se construyen algoritmos de machine learning, aprovechan un dataset de muestra para entrenar el modelo. Sin embargo, cuando el modelo entrena demasiado tiempo en los datos de muestra o cuando el modelo es demasiado complejo, puede comenzar a aprender el "ruido" o la información irrelevante, dentro del dataset. Cuando el modelo memoriza el ruido y encaja demasiado cerca del conjunto de entrenamiento, el modelo se vuelve "sobreajustado" y no puede generalizar bien los nuevos datos. Si un modelo no puede generalizarse correctamente a datos nuevos, no podrá realizar las tareas de clasificación o predicción para las que estaba previsto.

Las bajas tasas de error y una alta varianza son buenos indicadores de sobreajuste. Para evitar este tipo de comportamiento, parte del conjunto de datos de entrenamiento normalmente se reserva como el "conjunto de prueba" para comprobar si hay sobreajuste. Si los datos de entrenamiento tienen una tasa de error baja y los datos de prueba tienen una tasa de error alta, indica un sobreajuste.

IBM nombrada líder por IDC

Lea por qué IBM ha sido nombrada líder en el informe IDC MarketScape: Worldwide AI Governance Platforms 2023.

Contenido relacionado

Regístrese para obtener el informe técnico sobre la gobernanza de la IA

sobreajuste vs. subajuste

Si el sobreentrenamiento o la complejidad del modelo dan como resultado un sobreajuste, una respuesta de prevención lógica sería pausar el proceso de entrenamiento antes, también conocido como "detención temprana", o reducir la complejidad en el modelo mediante la eliminación de entradas menos relevantes. Sin embargo, si hace una pausa demasiado temprana o excluye demasiadas características importantes, puede encontrarse con el problema contrario y, en su lugar, puede infraajustar su modelo. El subajuste ocurre cuando el modelo no se ha entrenado durante suficiente tiempo o las variables de entrada no son lo suficientemente significativas como para determinar una relación significativa entre las variables de entrada y salida.

En ambos escenarios, el modelo no puede establecer la tendencia dominante dentro del conjunto de datos de entrenamiento. Como resultado, el subajuste también se generaliza mal a datos no vistos. Sin embargo, a diferencia del sobreajuste, los modelos subajustados experimentan un alto sesgo y menos varianza dentro de sus predicciones. Esto ilustra el equilibrio entre sesgo y varianza, que se produce cuando un modelo infraajustado pasa a un estado sobreajustado. A medida que el modelo aprende, su sesgo se reduce, pero puede aumentar su varianza a medida que se sobreajusta. Al ajustar un modelo, el objetivo es encontrar el "punto dulce" entre el ajuste bajo y el sobreajuste, de modo que pueda establecer una tendencia dominante y aplicarla ampliamente a nuevos conjuntos de datos.

Cómo detectar modelos sobreajustados

Para comprender la precisión de los modelos de machine learning, es importante probar la idoneidad del modelo. La validación cruzada de K-fold es una de las técnicas más populares para evaluar la precisión del modelo.

En la validación cruzada de k pliegues, los datos se dividen en k subconjuntos de igual tamaño, que también se denominan "pliegues". Uno de los pliegues k actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y los pliegues restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de los pliegues haya actuado como pliegue de retención. Después de cada evaluación, se conserva una puntuación y, cuando se han completado todas las iteraciones, se promedian las puntuaciones para evaluar el rendimiento del modelo global.

Cómo evitar el sobreajuste

Si bien el uso de un modelo lineal nos ayuda a evitar el sobreajuste, muchos problemas del mundo real no son lineales. Además de entender cómo detectar el sobreajuste, es importante entender cómo evitar el sobreajuste por completo. A continuación se muestran varias técnicas que puede utilizar para evitar el sobreajuste:

Parada temprana: como mencionamos anteriormente, este método busca pausar el entrenamiento antes de que el modelo comience a aprender el ruido dentro del modelo. Con este enfoque se corre el riesgo de detener el proceso de formación demasiado pronto, lo que llevaría al problema opuesto de falta de adaptación. El objetivo final es encontrar el punto óptimo entre el subajuste y el sobreajuste.
Entrene con más datos: ampliar el conjunto de entrenamiento para incluir más datos puede aumentar la precisión del modelo al brindar más oportunidades para analizar la relación dominante entre las variables de entrada y salida. Dicho esto, este es un método más eficaz cuando se inyectan datos limpios y relevantes en el modelo. De lo contrario, podría seguir añadiendo más complejidad al modelo, provocando que se sobreajuste.
Aumento de datos: si bien es mejor introducir datos limpios y relevantes en los datos de entrenamiento, a veces se añaden datos ruidosos para que el modelo sea más estable. Sin embargo, este método debe hacerse con moderación.
Selección de características: cuando se construye un modelo, tendrá una serie de parámetros o características que se utilizan para predecir un resultado determinado, pero muchas veces, estas características pueden ser redundantes con respecto a otras. La selección de características es el proceso de identificar las más importantes dentro de los datos de entrenamiento y, a continuación, eliminar las irrelevantes o redundantes. Esto suele confundirse con la reducción de la dimensionalidad, pero es diferente. Sin embargo, ambos métodos ayudan a simplificar el modelo para establecer la tendencia dominante en los datos.
Regularización: si se produce un sobreajuste cuando un modelo es demasiado complejo, tiene sentido para nosotros reducir la cantidad de características. Pero, ¿qué pasa si no sabemos qué entradas eliminar durante el proceso de selección de funciones? Si no sabemos qué características eliminar de nuestro modelo, los métodos de regularización pueden resultar especialmente útiles. La regularización aplica una "penalización" a los parámetros de entrada con los coeficientes más grandes, lo que posteriormente limita la cantidad de varianza en el modelo. Si bien existen varios métodos de regularización, como la regularización de lazo, la regresión de crestas y el abandono, todos buscan identificar y reducir el ruido dentro de los datos.
Métodos de conjunto: los métodos de aprendizaje por conjuntos se componen de un conjunto de clasificadores, p. ej. árboles de decisión, y sus predicciones se agregan para identificar el resultado más popular. Los métodos de ensamble más conocidos son el embolsado y el boosting. En el bagging, se selecciona una muestra aleatoria de datos de un conjunto de entrenamiento con reemplazo, lo que significa que los puntos de datos individuales pueden elegirse más de una vez. Después de generar varias muestras de datos, estos modelos se entrenan de forma independiente y según el tipo de tarea, es decir, regresión o clasificación: el promedio o la mayoría de esas predicciones producen una estimación más precisa. Esto se usa comúnmente para reducir la variación dentro de un conjunto de datos ruidoso.

Vea cómo aprovechar algunos de estos enfoques en este tutorial de reconocimiento de imágenes de IBM Developer

Investigación reciente

Aunque lo anterior es la definición establecida de sobreajuste, investigaciones recientes (enlace externo a IBM) indican que los modelos complejos, como los modelos de deep learning y las redes neuronales, realizan una alta precisión a pesar de ser entrenados para "ajustar exactamente o interpolar". Este hallazgo está directamente en desacuerdo con la literatura histórica sobre este tema y se explica a través de la curva de riesgo de “doble descenso” que aparece a continuación. Puede ver que a medida que el modelo aprende más allá del umbral de interpolación, el rendimiento del modelo mejora. Los métodos que mencionamos anteriormente para evitar el sobreajuste, como la detención temprana y la regularización, pueden evitar la interpolación.

Soluciones relacionadas

IBM watsonx Studio

IBM watsonx Studio es una plataforma de datos abierta que permite a los científicos de datos crear, ejecutar, probar y optimizar modelos de IA a escala en cualquier nube.

Descubra IBM watsonx Studio

IBM Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para la IA y el análisis, en cualquier nube.

Explore IBM Cloud Pak for Data

Recursos

Entender el sobreajuste benigno en el metaprendizaje basado en gradiente

Las evidencias empíricas revelan que los métodos de metaprendizaje sobreparametrizados siguen funcionando bien, un fenómeno a menudo llamado sobreajuste benigno.

El sobreajuste robusto se puede mitigar mediante el aprendizaje adecuado del suavizado

Investigar dos medios empíricos para inyectar más suavizado aprendido durante el entrenamiento adversarial (AT).

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Solicite una demostración en directo