El subajuste, en ciencia de datos, se refiere a los casos en los que un modelo de datos no es capaz de capturar de forma precisa la relación entre las variables de entrada y salida, de modo que se genera un alto índice de errores en el conjunto de entrenamiento y en los datos no vistos. Ocurre cuando un modelo es demasiado simple, lo que puede deberse a que necesita más tiempo de entrenamiento, más funciones de entrada o menos regularización. Al igual que el sobreajuste, cuando un modelo está subajustado, no puede establecer la tendencia dominante dentro de los datos, lo que provoca errores de entrenamiento y un rendimiento deficiente del modelo. Si un modelo no puede generalizar a nuevos datos, entonces no se puede utilizar para tareas de clasificación o predicción. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite utilizar algoritmos de machine learning cada día para hacer predicciones y clasificar datos.

Un sesgo alto y una varianza baja son indicadores de subajuste. Dado que este comportamiento se puede ver al utilizar el conjunto de datos de entrenamiento, los modelos subajustados suelen ser más fáciles de identificar que los sobreajustados.