El subajuste, en ciencia de datos, se refiere a los casos en los que un modelo de datos no puede capturar la relación entre las variables de entrada y salida con precisión, lo que genera una alta tasa de error tanto en el conjunto del entrenamiento como en los datos no vistos. Ocurre cuando un modelo es demasiado simple, lo que puede significar que el modelo necesita más tiempo de entrenamiento, más funciones de entrada o menos regularización. Al igual que en el sobreajuste, cuando un modelo está subajustado, no puede establecer la tendencia dominante dentro de los datos, lo que genera errores de entrenamiento y un rendimiento deficiente del modelo. Si un modelo no puede generalizar a nuevos datos, entonces no se puede aprovechar para tareas de clasificación o predicción. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite usar algoritmos de machine learning cada día para hacer predicciones y clasificar datos.
El sesgo alto y la varianza baja son buenos indicadores de subajuste. Dado que este comportamiento se puede ver mientras se usa el conjunto de datos de entrenamiento, los modelos subajustados suelen ser más fáciles de identificar que los sobreajustados.
Watson Studio
IBM Cloud Pak for Data
En pocas palabras, sobreajuste es lo opuesto al subajuste, que ocurre cuando el modelo se ha sobreentrenado o cuando contiene demasiada complejidad, lo que resulta en altas tasas de error en los datos de prueba. El sobreajuste de un modelo es más común que el subajuste, y el subajuste suele ocurrir en un esfuerzo por evitar el sobreajuste por medio de un proceso llamado "detención temprana".
Si el entrenamiento insuficiente o la falta de complejidad da como resultado un subajuste, entonces una estrategia de prevención lógica sería aumentar la duración del entrenamiento o agregar entradas más relevantes. Sin embargo, si entrena demasiado el modelo o le agrega demasiadas características, puede sobreajustar su modelo, lo que da como resultado un sesgo bajo pero una varianza alta (es decir, la reciprocidad de sesgo y varianza). En esta situación, el modelo estadístico se ajusta demasiado a sus datos de entrenamiento, lo que lo hace incapaz de generalizar bien a nuevos puntos de datos. Es importante tener en cuenta que algunos tipos de modelos pueden ser más propensos a sobreajustarse que otros, como los árboles de decisión o los KNN.
Identificar el sobreajuste puede ser más difícil que el subajuste porque, a diferencia del subajuste, los datos de entrenamiento funcionan con alta precisión en un modelo sobreajustado. Para evaluar la precisión de un algoritmo, normalmente se utiliza una técnica llamada validación cruzada de k-iteraciones.
En la validación cruzada de k-iteraciones, los datos se dividen en k subconjuntos de igual tamaño, que también se denominan "iteraciones". Una de las k-iteraciones actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y las iteraciones restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de las iteraciones ha actuado como una iteración de reserva. Después de cada evaluación, se retiene una puntuación y cuando se han completado todas las iteraciones, las puntuaciones se promedian para evaluar el rendimiento del modelo general.
El escenario ideal al instalar un modelo es encontrar el equilibrio entre el sobreajuste y el subajuste. Identificar ese "punto óptimo" entre los dos permite que los modelos de machine learning hagan predicciones con precisión.
Dado que podemos detectar un subajuste basándonos en el conjunto de entrenamiento, podemos ayudar mejor a establecer la relación dominante entre las variables de entrada y salida al inicio. Si se logra mantener una complejidad de modelo adecuada, se puede evitar el subajuste y se pueden realizar predicciones más precisas. A continuación, se muestran algunas técnicas que se pueden utilizar para reducir el subajuste:
La regularización se usa normalmente para reducir la varianza con un modelo aplicando una penalización a los parámetros de entrada con los coeficientes más grandes. Hay varios métodos diferentes, como la regularización L1, la regularización de Lasso, el descarte, etc., que ayudan a reducir el ruido y los valores atípicos dentro de un modelo. Sin embargo, si las características de los datos se vuelven demasiado uniformes, el modelo no puede identificar la tendencia dominante, lo que conduce a un subajuste. Al disminuir la cantidad de regularización, se introduce más complejidad y variación en el modelo, lo que permite un entrenamiento exitoso del modelo.
Como se mencionó anteriormente, dejar de entrenar demasiado pronto también puede resultar en un modelo subajustado. Por lo tanto, podemos evitarlo ampliando la duración del entrenamiento. Sin embargo, es importante tener en cuenta el sobreentrenamiento y, posteriormente, el sobreajuste. La clave está en encontrar el equilibrio adecuado entre los dos casos.
Con cualquier modelo, se utilizan características específicas para determinar un resultado dado. Si no hay suficientes características predictivas presentes, entonces se deben introducir más características o características con mayor importancia. Por ejemplo, en una red neuronal, puede agregar más neuronas ocultas o en un bosque aleatorio, puede agregar más árboles. Este proceso inyectará más complejidad en el modelo, produciendo mejores resultados de entrenamiento.
Cree, ejecute y gestione modelos de IA. Prepare datos y cree modelos en cualquier nube utilizando código fuente abierto o modelado visual. Prevea y optimice sus resultados.
IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para IA y analítica en cualquier nube.