En pocas palabras, el sobreajuste es lo opuesto al subajuste, y ocurre cuando el modelo fue sobreentrenado o cuando contiene demasiada complejidad, lo que resulta en altos índices de error en los datos de prueba. Es más común sobreajustar un modelo que subadaptarlo, y el subajuste generalmente ocurre en un esfuerzo por evitar el sobreajuste a través de un proceso llamado “detención temprana”.
Si la falta de entrenamiento o falta de complejidad resulta en un subajuste, entonces una estrategia lógica de prevención sería aumentar la duración del entrenamiento o agregar insumos más relevantes. Sin embargo, si entrena demasiado el modelo o le agrega demasiadas características, puede sobreajustar su modelo, lo que resulta en un sesgo bajo, pero una alta varianza (es decir, la compensación de sesgo y varianza). En este escenario, el modelo estadístico se ajusta demasiado a sus datos de entrenamiento, lo que lo hace incapaz de generalizar bien a nuevos puntos de datos. Es importante tener en cuenta que algunos tipos de modelos pueden ser más propensos al sobreajuste que otros, como los árboles de decisión o KNN.
Identificar el sobreajuste puede ser más difícil que el subajuste porque, a diferencia del subajuste, los datos de entrenamiento funcionan con alta precisión en un modelo sobreajustado. Para evaluar la precisión de un algoritmo, normalmente se utiliza una técnica llamada validación cruzada k-fold.
En la validación cruzada de pliegues K, los datos se dividen en K subconjuntos de igual tamaño, que también se denominan "pliegues". Uno de los pliegues K actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y los pliegues restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de los pliegues haya actuado como pliegue de retención. Después de cada evaluación, se conserva una puntuación y, cuando se han completado todas las iteraciones, se promedian las puntuaciones para evaluar el rendimiento del modelo global.
El escenario ideal al ajustar un modelo es encontrar el equilibrio entre el sobreajuste y el subajuste. Identificar ese "punto óptimo" entre los dos permite que los modelos de machine learning hagan predicciones con precisión.