En el aprendizaje automático, el sobreajuste ocurre cuando un algoritmo se ajusta demasiado o incluso exactamente a sus datos de entrenamiento, lo que da como resultado un modelo que no puede hacer predicciones o conclusiones precisas a partir de ningún otro dato que no sea el de entrenamiento.
El sobreajuste anula el propósito del modelo de aprendizaje automático. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite utilizar algoritmos de aprendizaje automático todos los días para hacer predicciones y clasificar datos.
Cuando se construyen algoritmos de aprendizaje automático, aprovechan un conjunto de datos de muestra para entrenar el modelo. Sin embargo, cuando el modelo entrena demasiado tiempo en los datos de muestra o cuando el modelo es demasiado complejo, puede comenzar a aprender el "ruido" o la información irrelevante, dentro del conjunto de datos. Cuando el modelo memoriza el ruido y encaja demasiado cerca del conjunto de entrenamiento, el modelo se vuelve "sobreajustado" y no puede generalizar bien los nuevos datos. Si un modelo no puede generalizarse correctamente a datos nuevos, no podrá realizar las tareas de clasificación o predicción para las que estaba previsto.
Las bajas tasas de error y una alta varianza son buenos indicadores de un sobreajuste. Para evitar este tipo de comportamiento, parte del conjunto de datos de entrenamiento normalmente se reserva como el "conjunto de prueba" para comprobar si hay un sobreajuste. Si los datos de entrenamiento tienen una tasa de error baja y los datos de prueba tienen una tasa de error alta, indica un sobreajuste.
Si el sobreentrenamiento o la complejidad del modelo dan como resultado un sobreajuste, una respuesta de prevención lógica sería pausar el proceso de entrenamiento antes, también conocido como "detención temprana", o reducir la complejidad en el modelo mediante la eliminación de entradas menos relevantes. Sin embargo, si hace una pausa demasiado temprana o excluye demasiadas características importantes, puede encontrarse con el problema contrario y, en su lugar, puede subajustar su modelo. El subajuste ocurre cuando el modelo no se ha entrenado durante suficiente tiempo o las variables de entrada no son lo suficientemente significativas como para determinar una relación significativa entre las variables de entrada y salida.
En ambos escenarios, el modelo no puede establecer la tendencia dominante dentro del conjunto de datos de entrenamiento. Como resultado, el subajuste también se generaliza mal a datos no vistos. Sin embargo, a diferencia del sobreajuste, los modelos subajustados experimentan un alto sesgo y menos varianza dentro de sus predicciones. Esto ilustra el equilibrio entre sesgo y varianza, que se produce cuando un modelo subajustado pasa a un estado sobreajustado. A medida que el modelo aprende, su sesgo se reduce, pero puede aumentar su varianza a medida que se sobreajusta. Al ajustar un modelo, el objetivo es encontrar el "punto dulce" entre el subajuste y el sobreajuste, de modo que pueda establecer una tendencia dominante y aplicarla ampliamente a nuevos conjuntos de datos.
Para comprender la precisión de los modelos de aprendizaje automático, es importante probar la idoneidad del modelo. La validación cruzada de pliegues K es una de las técnicas más populares para evaluar la precisión del modelo.
En la validación cruzada de pliegues K, los datos se dividen en K subconjuntos de igual tamaño, que también se denominan "pliegues". Uno de los pliegues K actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y los pliegues restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de los pliegues haya actuado como pliegue de retención. Después de cada evaluación, se conserva una puntuación y, cuando se han completado todas las iteraciones, se promedian las puntuaciones para evaluar el rendimiento del modelo global.
Si bien el uso de un modelo lineal nos ayuda a evitar el sobreajuste, muchos problemas del mundo real no son lineales. Además de entender cómo detectar el sobreajuste, es importante entender cómo evitar el sobreajuste por completo. A continuación se muestran varias técnicas que puede utilizar para evitar el sobreajuste:
Aunque lo anterior es la definición establecida de sobreajuste, investigaciones recientes (enlace externo a IBM) indican que los modelos complejos, como los modelos de aprendizaje profundo y las redes neuronales, realizan una alta precisión a pesar de ser entrenados para "ajustar exactamente o interpolar". Este hallazgo está directamente en desacuerdo con la literatura histórica sobre este tema y se explica a través de la curva de riesgo de “doble descenso” que aparece a continuación. Puede ver que a medida que el modelo aprende más allá del umbral de interpolación, el rendimiento del modelo mejora. Los métodos que mencionamos anteriormente para evitar el sobreajuste, como la detención temprana y la regularización, pueden evitar la interpolación.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.
Dirigida por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a obtener los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.