¿Qué es el sobreajuste?

¿Qué es el sobreajuste?

En machine learning, el sobreajuste ocurre cuando un modelo se ajusta demasiado o incluso exactamente a sus datos de entrenamiento, de modo que no puede hacer predicciones o conclusiones precisas a partir de ningún dato que no sea el de entrenamiento. 

El sobreajuste anula el propósito del modelo de aprendizaje automático. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite utilizar algoritmos de aprendizaje automático todos los días para hacer predicciones y clasificar datos.

Cuando se construyen algoritmos de aprendizaje automático, aprovechan un conjunto de datos de muestra para entrenar el modelo. Sin embargo, cuando el modelo se entrena durante demasiado tiempo con datos de muestra o cuando el modelo es demasiado complejo, puede comenzar a aprender el "ruido" o información irrelevante dentro del conjunto de datos. Cuando el modelo memoriza el ruido y se ajusta demasiado al conjunto de entrenamiento, el modelo se "sobreajusta" y no puede generalizar bien a los nuevos datos. Si un modelo no puede generalizarse bien a nuevos datos, no podrá realizar las tareas de clasificación o predicción para las que estaba destinado.

Las bajas tasas de error y una alta varianza son buenos indicadores de un sobreajuste. Para evitar este tipo de comportamiento, parte del conjunto de datos de entrenamiento normalmente se reserva como el "conjunto de prueba" para comprobar si hay un sobreajuste. Si los datos de entrenamiento tienen una tasa de error baja y los datos de prueba tienen una tasa de error alta, indica un sobreajuste.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Sobreajuste frente a subajuste

Si el sobreentrenamiento o la complejidad del modelo dan como resultado un sobreajuste, entonces una respuesta de prevención lógica sería pausar antes el proceso de entrenamiento, también conocido como "detención anticipada", o reducir la complejidad en el modelo eliminando entradas menos relevantes. Sin embargo, si hace una pausa demasiado pronto o excluye demasiadas características importantes, puede encontrar el problema opuesto y, en cambio, puede que no se ajuste bien a su modelo. Elsubajuste ocurre cuando el modelo no se ha entrenado durante suficiente tiempo o las variables de entrada no son lo suficientemente significativas como para determinar una relación significativa entre las variables de entrada y salida.

En ambos escenarios, el modelo no puede establecer la tendencia dominante dentro del conjunto de datos de entrenamiento. Como resultado, el subajuste también se generaliza mal a datos no vistos. Sin embargo, a diferencia del sobreajuste, los modelos infraajustados tienen una Experiencia de alto sesgo y menos varianza dentro de sus predicciones. El sobreajuste frente al subajuste ilustra el equilibrio entre sesgo y varianza, que se produce cuando un modelo infraajustado cambia a un estado sobreajustado. A medida que el modelo aprende, su sesgo se reduce, pero puede aumentar su varianza a medida que se sobreajusta. Al ajustar un modelo, el objetivo es encontrar el "punto óptimo" entre el ajuste insuficiente y el sobreajuste, de modo que pueda establecer una tendencia dominante y aplicarla ampliamente a nuevos conjuntos de datos.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Cómo detectar modelos sobreajustados

Para comprender la precisión de los modelos de aprendizaje automático, es importante probar la idoneidad del modelo. La validación cruzada de pliegues K es una de las técnicas más populares para evaluar la precisión del modelo.

En la validación cruzada de pliegues K, los datos se dividen en K subconjuntos de igual tamaño, que también se denominan "pliegues". Uno de los pliegues K actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y los pliegues restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de los pliegues haya actuado como pliegue de retención. Después de cada evaluación, se conserva una puntuación y, cuando se han completado todas las iteraciones, se promedian las puntuaciones para evaluar el rendimiento del modelo global.

Cómo evitar el sobreajuste

Si bien el uso de un modelo lineal nos ayuda a evitar el sobreajuste, muchos problemas del mundo real no son lineales. Además de entender cómo detectar el sobreajuste, es importante entender cómo evitar el sobreajuste por completo. A continuación se muestran varias técnicas que puede utilizar para evitar el sobreajuste:

  • Detención temprana: como mencionamos anteriormente, este método busca pausar el entrenamiento antes de que el modelo comience a aprender el ruido dentro del modelo. Este enfoque corre el riesgo de detener el proceso de entrenamiento demasiado pronto, lo que lleva al problema opuesto de desajuste. Encontrar el "punto óptimo" entre el ajuste insuficiente y el sobreajuste es el objetivo final aquí.

  • Entrenar con más datos: ampliar el conjunto de entrenamiento para incluir más datos puede aumentar la precisión del modelo al proporcionar más oportunidades para analizar la relación dominante entre las variables de entrada y salida. Dicho esto, este es un método más eficaz cuando se inyectan datos limpios y relevantes en el modelo. De lo contrario, podría Continuar agregando más complejidad al modelo, lo que lo haría sobreajustar.

  • Aumento de datos: si bien es mejor inyectar datos limpios y relevantes en sus datos de entrenamiento, a veces se agregan datos ruidosos para hacer que un modelo sea más estable. Sin embargo, este método debe hacerse con moderación.

  • Selección de características: cuando crea un modelo, tendrá una serie de parámetros o características que se utilizan para predecir un resultado determinado, pero muchas veces, estas características pueden ser redundantes para otras. La selección de características es el proceso de identificar las más importantes dentro de los datos de entrenamiento y luego eliminar las irrelevantes o redundantes. Esto se confunde comúnmente con la reducción de dimensionalidad, pero es diferente. Sin embargo, ambos métodos ayudan a simplificar su modelo para establecer la tendencia dominante en los datos.

  • Regularización: si se produce un sobreajuste cuando un modelo es demasiado complejo, tiene sentido que reduzcamos el número de características. Pero, ¿qué sucede si no sabemos qué entradas eliminar durante el proceso de selección de características? Si no sabemos qué características eliminar de nuestro modelo, los métodos de regularización pueden ser particularmente útiles.

    La regularización aplica una "penalización" a los parámetros de entrada con los coeficientes más grandes, lo que posteriormente limita la cantidad de varianza en el modelo. Si bien existen varios métodos de regularización, como la regularización de lazo, la regresión de cresta y la deserción, todos buscan identificar y reducir el ruido dentro de los datos.

  • Métodos de conjunto: los métodos de aprendizaje de conjunto se componen de un conjunto de clasificadores, por ejemplo árboles de decisión,y sus predicciones se agregan para identificar el resultado más popular. Los métodos de conjunto más conocidos son el embolsado y el impulso. En el bagging, se selecciona una muestra aleatoria de datos en un conjunto de entrenamiento con reemplazo, lo que significa que los puntos de datos individuales se pueden elegir más de una vez. Después de generar varias muestras de datos, estos modelos se entrenan de forma independiente y en función del tipo de tarea, es decir. regresión o clasificación: el promedio o la mayoría de esas predicciones arrojan una estimación más precisa. Esto se usa comúnmente para reducir la varianza dentro de un conjunto de datos ruidoso.

Investigación reciente

Si bien lo anterior es la definición establecida de sobreajuste, investigaciones recientes indican que los modelos complejos, como los modelos de aprendizaje profundo y las redes neuronales, funcionan con una alta precisión a pesar de estar entrenados para "ajustarse o interpolarse exactamente". Este hallazgo está directamente en desacuerdo con la literatura histórica sobre este tema, y se explica a través de la curva de riesgo de "doble descenso" a continuación. Puede ver que a medida que el modelo aprende más allá del umbral de interpolación, el rendimiento del modelo mejora. Los métodos que mencionamos anteriormente para evitar el sobreajuste, como la detención anticipada y la regularización, en realidad pueden evitar la interpolación.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo