¿Qué es el Subajuste?
fondo negro y azul
Subajuste

Aprenda a evitar el subajuste, para poder generalizar con precisión los datos fuera de su modelo.

Productos destacados

Watson Studio

IBM Cloud Pak for Data


¿Qué es el Subajuste?

El subajuste es una situación en la ciencia de datos en el que un modelo de datos no puede capturar la relación entre las variables de entrada y salida con precisión, lo que genera una alta tasa de error tanto en el conjunto del entrenamiento como en los datos no vistos. Ocurre cuando un modelo es demasiado simple, lo que puede significar que el modelo necesita más tiempo de entrenamiento, más funciones de entrada o menos regularización. Al igual que en el sobreajuste, cuando un modelo está subajustado, no puede establecer la tendencia dominante dentro de los datos, lo que genera errores de entrenamiento y un rendimiento deficiente del modelo. Si un modelo no se puede generalizar bien a nuevos datos, entonces no se puede aprovechar para tareas de clasificación o predicción. La generalización de un modelo a nuevos datos es, en última instancia, lo que nos permite usar algoritmos de aprendizaje automático cada día para hacer predicciones y clasificar datos.

El sesgo alto y la varianza baja son buenos indicadores de subajuste. Dado que este comportamiento se puede ver mientras se usa el conjunto de datos de entrenamiento, los modelos subajustados suelen ser más fáciles de identificar que los sobreajustados.


Subajuste frente a Sobreajuste

En pocas palabras, sobreajuste es lo opuesto al subajuste, que ocurre cuando el modelo se ha sobreentrenado o cuando contiene demasiada complejidad, lo que resulta en altas tasas de error en los datos de prueba. El sobreajuste de un modelo es más común que el subajuste, y el subajuste suele ocurrir en un esfuerzo por evitar el sobreajuste a través de un proceso llamado "parada anticipada".

Si el entrenamiento insuficiente o la falta de complejidad da como resultado un subajuste, entonces una estrategia de prevención lógica sería aumentar la duración del entrenamiento o agregar entradas más relevantes. Sin embargo, si entrena demasiado el modelo o le agrega demasiadas características, puede sobreajustar su modelo, lo que da como resultado un sesgo bajo pero una varianza alta (es decir, la reciprocidad de sesgo y varianza). En esta situación, el modelo estadístico se ajusta demasiado a sus datos de entrenamiento, lo que lo hace incapaz de generalizar bien a nuevos puntos de datos. Es importante tener en cuenta que algunos tipos de modelos pueden ser más propensos a sobreajustarse que otros, como los árboles de decisión o los KNN.  

Identificar el sobreajuste puede ser más difícil que el subajuste porque, a diferencia del subajuste, los datos de entrenamiento funcionan con alta precisión en un modelo sobreajustado. Para evaluar la precisión de un algoritmo, normalmente se utiliza una técnica llamada validación cruzada de k-iteraciones.

En la validación cruzada de k-iteraciones, los datos se dividen en k subconjuntos de igual tamaño, que también se denominan "iteraciones". Una de las k-iteraciones actuará como conjunto de prueba, también conocido como conjunto de retención o conjunto de validación, y las iteraciones restantes entrenarán el modelo. Este proceso se repite hasta que cada uno de las iteraciones ha actuado como una iteración de reserva. Después de cada evaluación, se retiene una puntuación y cuando se han completado todas las iteraciones, las puntuaciones se promedian para evaluar el rendimiento del modelo general.

El escenario ideal al instalar un modelo es encontrar el equilibrio entre el sobreajuste y el subajuste. Identificar ese "punto óptimo" entre los dos permite que los modelos de aprendizaje automático hagan predicciones con precisión.


Cómo evitar el subajuste

Dado que podemos detectar un subajuste basándonos en el conjunto de entrenamiento, podemos ayudar mejor a establecer la relación dominante entre las variables de entrada y salida al inicio. Manteniendo la complejidad del modelo adecuada, podemos evitar el subajuste y hacer predicciones más precisas. A continuación, se muestran algunas técnicas que se pueden utilizar para reducir el subajuste:

Disminuir la regularización

La regularización se usa normalmente para reducir la varianza con un modelo aplicando una penalización a los parámetros de entrada con los coeficientes más grandes. Hay varios métodos diferentes, como la regularización L1, la regularización de Lasso, la dilución, etc., que ayudan a reducir el ruido y los valores atípicos dentro de un modelo. Sin embargo, si las características de los datos se vuelven demasiado uniformes, el modelo no puede identificar la tendencia dominante, lo que conduce a un subajuste. Al disminuir la cantidad de regularización, se introduce más complejidad y variación en el modelo, lo que permite un entrenamiento exitoso del modelo.

Incrementar la duración del entrenamiento

Como se mencionó anteriormente, dejar de entrenar demasiado pronto también puede resultar en un modelo subajustado. Por lo tanto, al extender la duración del entrenamiento, se puede evitar. Sin embargo, es importante tener en cuenta el sobreentrenamiento y, posteriormente, el sobreajuste. Encontrar el equilibrio entre los dos escenarios será clave.

Selección de características

Con cualquier modelo, se utilizan características específicas para determinar un resultado dado. Si no hay suficientes características predictivas presentes, entonces se deben introducir más características o características con mayor importancia. Por ejemplo, en una red neuronal, puede agregar más neuronas ocultas o en un bosque aleatorio, puede agregar más árboles. Este proceso inyectará más complejidad en el modelo, produciendo mejores resultados de entrenamiento.


IBM y los subajustes

IBM Watson Studio es una plataforma de datos abierta que permite a los científicos de datos desarrollar, ejecutar, probar y optimizar modelos de inteligencia artificial (IA) a escala en cualquier Cloud. IBM Watson Studio le capacita para hacer operativa la IA en cualquier lugar en el marco de IBM Cloud Pak® for Data. Una equipos, simplifique la gestión del ciclo de vida de la IA y acelere el tiempo de generación de valor con entornos de trabajo de código abierto como PyTorch, TensorFlow y scikit-learn y lenguajes populares como Python, R y Scala.

Para crear modelos de aprendizaje automático con precisión, regístrese para obtener el IBMid y cree su cuenta de IBM Cloud hoy mismo.


Soluciones relacionadas

Watson Studio

Cree, ejecute y gestione modelos de IA. Prepare datos y cree modelos en cualquier nube utilizando código fuente abierto o modelado visual. Prediga y optimice sus resultados.


Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para inteligencia artificial y análisis, en cualquier nube.