En pocas palabras, el sobreajuste es lo contrario al infraajuste, y se produce cuando el modelo ha sido sobreentrenado o cuando contiene demasiada complejidad, lo que da lugar a altas tasas de error en los datos de prueba. El sobreajuste de un modelo es más común que su infraajuste, y el infraajuste suele producirse en un esfuerzo por evitar el sobreajuste mediante un proceso denominado "detención temprana".
Si la falta de formación o la falta de complejidad se traduce en un infraajuste, una estrategia de prevención lógica consistiría en aumentar la duración de la formación o añadir aportaciones más relevantes. Sin embargo, si entrena demasiado el modelo o le añade demasiadas características, puede sobreajustar su modelo, lo que se traduce en una polarización baja pero una varianza alta (es decir, la compensación entre sesgo y varianza). En este escenario, el modelo estadístico se ajusta demasiado a sus datos de entrenamiento, por lo que es incapaz de generalizar bien a los nuevos puntos de datos. Es importante tener en cuenta que algunos tipos de modelos pueden ser más propensos al sobreajuste que otros, como los árboles de decisión o KNN.
Identificar el sobreajuste puede ser más difícil que el infraajuste porque, a diferencia del subajuste, los datos de entrenamiento funcionan con gran precisión en un modelo sobreajustado. Para evaluar la precisión de un algoritmo, normalmente se utiliza una técnica llamada validación cruzada de K veces.
En la validación cruzada de k pliegues, los datos se dividen en k subconjuntos de igual tamaño, que también se denominan "pliegues". Uno de los pliegues k actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y los pliegues restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de los pliegues haya actuado como pliegue de retención. Después de cada evaluación, se conserva una puntuación y, cuando se han completado todas las iteraciones, se promedian las puntuaciones para evaluar el rendimiento del modelo global.
Lo ideal cuando se ajusta un modelo es encontrar el equilibrio entre el sobreajuste y el infraajuste. Identificar ese "punto óptimo" entre los dos permite a los modelos de machine learning hacer predicciones con precisión.