¿Qué es el subajuste?

El subajuste, en ciencia de datos, se refiere a los casos en los que un modelo de datos no es capaz de capturar de forma precisa la relación entre las variables de entrada y salida, de modo que se genera un alto índice de errores en el conjunto de entrenamiento y en los datos no vistos. Ocurre cuando un modelo es demasiado simple, lo que puede deberse a que necesita más tiempo de entrenamiento, más funciones de entrada o menos regularización. Al igual que el sobreajuste, cuando un modelo está subajustado, no puede establecer la tendencia dominante dentro de los datos, lo que provoca errores de entrenamiento y un rendimiento deficiente del modelo. Si un modelo no puede generalizar a nuevos datos, entonces no se puede utilizar para tareas de clasificación o predicción. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite utilizar algoritmos de machine learning cada día para hacer predicciones y clasificar datos.

Un sesgo alto y una varianza baja son indicadores de subajuste. Dado que este comportamiento se puede ver al utilizar el conjunto de datos de entrenamiento, los modelos subajustados suelen ser más fáciles de identificar que los sobreajustados.

Productos destacados

Subajuste frente a sobreajuste

En pocas palabras, el sobreajuste es lo opuesto al subajuste, y se produce cuando el modelo ha sido sobreentrenado o cuando contiene demasiada complejidad, de modo que se generan altos índices de error en los datos de prueba. El sobreajuste de un modelo es más habitual que el subajuste, que se suele producir cuando se intenta evitar el sobreajuste por medio de un proceso llamado "detención temprana".

Si el subajuste está provocado por un entrenamiento insuficiente o por la falta de complejidad, una estrategia de prevención lógica sería aumentar la duración del entrenamiento o añadir entradas más relevantes. Sin embargo, si el modelo se entrena demasiado o se le añaden demasiadas funciones, puede acabar sobreajustado y con un sesgo bajo pero una alta varianza (es decir, la compensación de sesgo-varianza). En este caso, el modelo estadístico se ajusta demasiado a sus datos de entrenamiento, de modo que no puede generalizar bien a nuevos puntos de datos. Cabe tener en cuenta que algunos tipos de modelos son más propensos al sobreajuste que otros, como los árboles de decisión o los KNN.

El sobreajuste puede ser más difícil de identificar que el subajuste, porque a diferencia de este, los datos de entrenamiento funcionan con una alta precisión en un modelo sobreajustado. Para evaluar la precisión de un algoritmo, se suele utilizar una técnica denominada validación cruzada de k iteraciones.

En la validación cruzada de k iteraciones, los datos se dividen en k subconjuntos de igual tamaño, que también se denominan "iteraciones". Una de las k iteraciones actuará como conjunto de pruebas, también denominado conjunto de retención o conjunto de validación, y las iteraciones restantes entrenarán el modelo. Este proceso se repite hasta que todas las iteraciones hayan actuado como iteración de retención. Después de cada evaluación, se retiene una puntuación, y cuando se han completado todas las iteraciones, las puntuaciones se promedian para evaluar el rendimiento del modelo general.

Al ajustar un modelo, lo ideal es encontrar el equilibrio entre el sobreajuste y el subajuste. Identificar ese punto óptimo intermedio permite que los modelos de machine learning hagan predicciones con precisión.

Cómo evitar el subajuste

Dado que el subajuste se puede detectar a partir del conjunto de entrenamiento, es más útil establecer la relación dominante entre las variables de entrada y salida al principio. Si se logra mantener una complejidad de modelo adecuada, se puede evitar el subajuste y se pueden realizar predicciones más precisas. A continuación, se describen algunas técnicas que pueden servir para reducir el subajuste:

Disminuir la regularización

La regularización se suele utilizar para reducir la varianza con un modelo aplicando una penalización a los parámetros de entrada con los coeficientes más grandes. Existen varios métodos de regularización, como la regularización L1, la regularización de Lasso, el descarte, etc. que ayudan a reducir el ruido y los valores atípicos dentro de un modelo. Sin embargo, si las funciones de datos se vuelven demasiado uniformes, el modelo no puede identificar la tendencia dominante, y se origina el subajuste. Al disminuir la cantidad de regularización, se introduce más complejidad y variación en el modelo, lo que permite un correcto entrenamiento del mismo.

Aumentar la duración del entrenamiento

Como se ha mencionado previamente, detener el entrenamiento demasiado pronto también puede originar un modelo subajustado. Por lo tanto, podemos evitarlo ampliando la duración del entrenamiento. Sin embargo, es importante reconocer el sobreentrenamiento y, por consiguiente, el sobreajuste. La clave está en encontrar el equilibrio adecuado entre los dos casos.

Selección de funciones

Con cualquier modelo, se utilizan funciones específicas para determinar un resultado determinado. Si no hay presencia suficiente de funciones predictivas, se deben introducir más funciones o funciones con mayor importancia. Por ejemplo, en una red neuronal se añadirían más neuronas ocultas, y en un bosque aleatorio se añadirían más árboles. Este proceso inyecta más complejidad en el modelo y permite obtener mejores resultados de entrenamiento.

Soluciones relacionadas

IBM® Watson Studio

Cree, ejecute y gestione modelos de IA. Prepare los datos y cree modelos en cualquier cloud mediante código abierto o modelado visual. Prevea y optimice sus resultados.

Explore IBM® Watson Studio

IBM® Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y ampliable que proporciona un entramado de datos para facilitar todos los datos para IA y analítica en cualquier cloud.

Explore Cloud Pak for Data

Recursos

IBM ha sido designada líder en The Forrester Wave™: Machine learning y analítica predictiva multimodal, tercer trimestre de 2020

Descubra por qué Watson Studio es “la joya de la corona de Cloud Pak for Data”.

Dé el siguiente paso

IBM Watson Studio es una plataforma de datos abiertos que permite a los científicos de datos crear, ejecutar, probar y optimizar modelos de inteligencia artificial (IA) a escala en cualquier cloud. IBM Watson Studio le permite operacionalizar la IA en cualquier lugar como parte de IBM® Cloud Pak for Data. Una equipos, simplifique la gestión del ciclo de vida con IA y acelere la generación de valor con infraestructuras de código abierto, como PyTorch, TensorFlow y scikit-learn, y lenguajes conocidos, como Python, R y Scala.

Pruebe IBM® Watson Studio hoy mismo