El subajuste es un escenario en la ciencia de datos en el que un modelo de datos no puede capturar con precisión la relación entre las variables de entrada y salida, lo que genera una alta tasa de error tanto en el conjunto de entrenamiento como en los datos no vistos.
El subajuste ocurre cuando un modelo es demasiado simple, lo que puede ser el resultado de que un modelo necesite más tiempo de entrenamiento, más características de entrada o menos regularización.
Al igual que el sobreajuste, cuando un modelo tiene subajuste, no puede establecer la tendencia dominante dentro de los datos, lo que genera errores de entrenamiento y un rendimiento deficiente del modelo. Si un modelo no puede generalizarse bien a nuevos datos, entonces no se puede aprovechar para tareas de clasificación o predicción. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite utilizar algoritmos de machine learning todos los días para hacer predicciones y clasificar datos.
El sesgo alto y la baja varianza son buenos indicadores de subajuste. Dado que este comportamiento se puede ver mientras se usa el conjunto de datos de entrenamiento, los modelos con subajuste suelen ser más fáciles de identificar que aquellos con sobreajuste.
En pocas palabras, el sobreajuste es lo opuesto al subajuste, y ocurre cuando el modelo fue sobreentrenado o cuando contiene demasiada complejidad, lo que resulta en altos índices de error en los datos de prueba. Es más común sobreajustar un modelo que subadaptarlo, y el subajuste generalmente ocurre en un esfuerzo por evitar el sobreajuste a través de un proceso llamado “detención temprana”.
Si la falta de entrenamiento o falta de complejidad resulta en un subajuste, entonces una estrategia lógica de prevención sería aumentar la duración del entrenamiento o agregar insumos más relevantes. Sin embargo, si entrena demasiado el modelo o le agrega demasiadas características, puede sobreajustar su modelo, lo que resulta en un sesgo bajo, pero una alta varianza (es decir, la compensación de sesgo y varianza). En este escenario, el modelo estadístico se ajusta demasiado a sus datos de entrenamiento, lo que lo hace incapaz de generalizar bien a nuevos puntos de datos. Es importante tener en cuenta que algunos tipos de modelos pueden ser más propensos a sobreajuste que otros, como árboles de decisión o KNN.
Identificar el sobreajuste puede ser más difícil que el subajuste porque, a diferencia del subajuste, los datos de entrenamiento funcionan con alta precisión en un modelo sobreajustado. Para evaluar la precisión de un algoritmo, normalmente se utiliza una técnica llamada validación cruzada k-fold.
En la validación cruzada de pliegues K, los datos se dividen en K subconjuntos de igual tamaño, que también se denominan "pliegues". Uno de los pliegues K actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y los pliegues restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de los pliegues haya actuado como pliegue de retención. Después de cada evaluación, se conserva una puntuación y, cuando se han completado todas las iteraciones, se promedian las puntuaciones para evaluar el rendimiento del modelo global.
El escenario ideal al ajustar un modelo es encontrar el equilibrio entre el sobreajuste y el subajuste. Identificar ese "punto óptimo" entre los dos permite que los modelos de machine learning hagan predicciones con precisión.
Dado que podemos detectar el subajuste a partir del conjunto de entrenamiento, podemos ayudar mejor a establecer la relación dominante entre las variables de entrada y salida desde el inicio. Manteniendo una complejidad adecuada del modelo, podemos evitar el subajuste y realizar predicciones más precisas. A continuación, se presentan algunas técnicas que se pueden emplear para reducir el subajuste:
La regularización se utiliza normalmente para reducir la varianza con un modelo al aplicar una penalización a los parámetros de entrada con los coeficientes más grandes. Existen varios métodos diferentes, como la regularización L1, la regularización Lasso, la deserción, etc., que ayudan a reducir el ruido y los valores atípicos dentro de un modelo. Sin embargo, si las características de los datos se vuelven demasiado uniformes, el modelo no puede identificar la tendencia dominante, lo que lleva a un ajuste insuficiente. Al disminuir la cantidad de regularización, se introduce más complejidad y variación en el modelo, lo que permite un entrenamiento exitoso del modelo.
Como se mencionó anteriormente, detener el entrenamiento demasiado pronto también puede resultar en un modelo inadecuado. Por lo tanto, al extender la duración del entrenamiento, se puede evitar. Sin embargo, es importante ser consciente del sobreentrenamiento y, posteriormente, del sobreajuste. Encontrar el equilibrio entre los dos escenarios será clave.
Con cualquier modelo, se emplean características específicas para determinar un resultado determinado. Si no hay suficientes características predictivas presentes, entonces se deberían introducir más características o características con mayor importancia. Por ejemplo, en una red neuronal, puedes agregar más neuronas ocultas o en un bosque aleatorio, puedes agregar más árboles. Este proceso inyectará más complejidad al modelo, produciendo mejores resultados de entrenamiento.