¿Qué es el subajuste?

¿Qué es el Subajuste?

El subajuste, en ciencia de datos, se refiere a los casos en los que un modelo de datos no puede capturar la relación entre las variables de entrada y salida con precisión, lo que genera una alta tasa de error tanto en el conjunto del entrenamiento como en los datos no vistos. Ocurre cuando un modelo es demasiado simple, lo que puede significar que el modelo necesita más tiempo de entrenamiento, más funciones de entrada o menos regularización. Al igual que en el sobreajuste, cuando un modelo está subajustado, no puede establecer la tendencia dominante dentro de los datos, lo que genera errores de entrenamiento y un rendimiento deficiente del modelo. Si un modelo no puede generalizar a nuevos datos, entonces no se puede aprovechar para tareas de clasificación o predicción. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite usar algoritmos de machine learning cada día para hacer predicciones y clasificar datos.

El sesgo alto y la varianza baja son buenos indicadores de subajuste. Dado que este comportamiento se puede ver mientras se usa el conjunto de datos de entrenamiento, los modelos subajustados suelen ser más fáciles de identificar que los sobreajustados.

Productos destacados

Watson Studio

IBM Cloud Pak for Data

Subajuste frente a sobreajuste

En pocas palabras, sobreajuste es lo opuesto al subajuste, que ocurre cuando el modelo se ha sobreentrenado o cuando contiene demasiada complejidad, lo que resulta en altas tasas de error en los datos de prueba. El sobreajuste de un modelo es más común que el subajuste, y el subajuste suele ocurrir en un esfuerzo por evitar el sobreajuste por medio de un proceso llamado "detención temprana".

Si el entrenamiento insuficiente o la falta de complejidad da como resultado un subajuste, entonces una estrategia de prevención lógica sería aumentar la duración del entrenamiento o agregar entradas más relevantes. Sin embargo, si entrena demasiado el modelo o le agrega demasiadas características, puede sobreajustar su modelo, lo que da como resultado un sesgo bajo pero una varianza alta (es decir, la reciprocidad de sesgo y varianza). En esta situación, el modelo estadístico se ajusta demasiado a sus datos de entrenamiento, lo que lo hace incapaz de generalizar bien a nuevos puntos de datos. Es importante tener en cuenta que algunos tipos de modelos pueden ser más propensos a sobreajustarse que otros, como los árboles de decisión o los KNN.

Identificar el sobreajuste puede ser más difícil que el subajuste porque, a diferencia del subajuste, los datos de entrenamiento funcionan con alta precisión en un modelo sobreajustado. Para evaluar la precisión de un algoritmo, normalmente se utiliza una técnica llamada validación cruzada de k-iteraciones.

En la validación cruzada de k-iteraciones, los datos se dividen en k subconjuntos de igual tamaño, que también se denominan "iteraciones". Una de las k-iteraciones actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y las iteraciones restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de las iteraciones ha actuado como una iteración de reserva. Después de cada evaluación, se retiene una puntuación y cuando se han completado todas las iteraciones, las puntuaciones se promedian para evaluar el rendimiento del modelo general.

El escenario ideal al instalar un modelo es encontrar el equilibrio entre el sobreajuste y el subajuste. Identificar ese "punto óptimo" entre los dos permite que los modelos de machine learning hagan predicciones con precisión.

Cómo evitar el subajuste

Dado que podemos detectar un subajuste basándonos en el conjunto de entrenamiento, podemos ayudar mejor a establecer la relación dominante entre las variables de entrada y salida al inicio. Si se logra mantener una complejidad de modelo adecuada, se puede evitar el subajuste y se pueden realizar predicciones más precisas. A continuación, se muestran algunas técnicas que se pueden utilizar para reducir el subajuste:

Disminuir la regularización

La regularización se usa normalmente para reducir la varianza con un modelo aplicando una penalización a los parámetros de entrada con los coeficientes más grandes. Hay varios métodos diferentes, como la regularización L1, la regularización de Lasso, el descarte, etc., que ayudan a reducir el ruido y los valores atípicos dentro de un modelo. Sin embargo, si las características de los datos se vuelven demasiado uniformes, el modelo no puede identificar la tendencia dominante, lo que conduce a un subajuste. Al disminuir la cantidad de regularización, se introduce más complejidad y variación en el modelo, lo que permite un entrenamiento exitoso del modelo.

Incrementar la duración del entrenamiento

Como se mencionó anteriormente, dejar de entrenar demasiado pronto también puede resultar en un modelo subajustado. Por lo tanto, podemos evitarlo ampliando la duración del entrenamiento. Sin embargo, es importante tener en cuenta el sobreentrenamiento y, posteriormente, el sobreajuste. La clave está en encontrar el equilibrio adecuado entre los dos casos.

Selección de características

Con cualquier modelo, se utilizan características específicas para determinar un resultado dado. Si no hay suficientes características predictivas presentes, entonces se deben introducir más características o características con mayor importancia. Por ejemplo, en una red neuronal, puede agregar más neuronas ocultas o en un bosque aleatorio, puede agregar más árboles. Este proceso inyectará más complejidad en el modelo, produciendo mejores resultados de entrenamiento.

Soluciones relacionadas

IBM® Watson Studio

Cree, ejecute y gestione modelos de IA. Prepare datos y cree modelos en cualquier nube utilizando código fuente abierto o modelado visual. Prevea y optimice sus resultados.

Explore IBM® Watson Studio

IBM® Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para IA y analítica en cualquier nube.

Explore Cloud Pak for Data

Recursos

IBM fue nombrada líder en The Forrester Wave™: analítica predictiva multimodal y machine learning, tercer trimestre de 2020

Vea por qué Watson Studio es "la joya de la corona de Cloud Pak for Data".

Dé el siguiente paso

IBM Watson Studio es una plataforma de datos abierta que permite a los científicos de datos desarrollar, ejecutar, probar y optimizar modelos de inteligencia artificial (IA) a escala en cualquier nube. IBM Watson Studio le permite poner en funcionamiento la IA en cualquier lugar como parte de IBM® Cloud Pak for Data. Una equipos, simplifique la gestión del ciclo de vida de la IA y acelere el tiempo de creación de valor con entornos de trabajo de código abierto como PyTorch, TensorFlow y scikit-learn y lenguajes populares como Python, R y Scala.

Pruebe IBM® Watson Studio hoy