El sobreajuste anula el propósito del modelo de aprendizaje automático. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite utilizar algoritmos de aprendizaje automático todos los días para hacer predicciones y clasificar datos.
Cuando se construyen algoritmos de aprendizaje automático, aprovechan un conjunto de datos de muestra para entrenar el modelo. Sin embargo, cuando el modelo se entrena durante demasiado tiempo con datos de muestra o cuando el modelo es demasiado complejo, puede comenzar a aprender el "ruido" o información irrelevante dentro del conjunto de datos. Cuando el modelo memoriza el ruido y se ajusta demasiado al conjunto de entrenamiento, el modelo se "sobreajusta" y no puede generalizar bien a los nuevos datos. Si un modelo no puede generalizarse bien a nuevos datos, no podrá realizar las tareas de clasificación o predicción para las que estaba destinado.
Las bajas tasas de error y una alta varianza son buenos indicadores de un sobreajuste. Para evitar este tipo de comportamiento, parte del conjunto de datos de entrenamiento normalmente se reserva como el "conjunto de prueba" para comprobar si hay un sobreajuste. Si los datos de entrenamiento tienen una tasa de error baja y los datos de prueba tienen una tasa de error alta, indica un sobreajuste.