Sobreajuste vs. subajuste: encontrar el equilibrio

Vista aérea de un campo de arroz en Vietnam

Autores

Tim Mucci

IBM Writer

Gather

Sobreajuste frente a subajuste

Cuando los científicos e ingenieros de datos entrenan modelos de aprendizaje automático (ML), corren el riesgo de utilizar un algoritmo demasiado simple para capturar los patrones subyacentes en los datos, lo que lleva a un subajuste, o uno demasiado complejo, que deriva en un sobreajuste. Gestionar el sobreajuste y el subajuste es un desafío central en los flujos de trabajo de la ciencia de datos y en el desarrollo de sistemas confiables de inteligencia artificial (IA).

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Sesgo y varianza en el aprendizaje automático

Compensación entre sesgo y varianza

El sesgo y la varianza explican el equilibrio que los ingenieros deben lograr para ayudar a garantizar un buen ajuste en sus modelos de aprendizaje automático. Como tal, la compensación sesgo-varianza es fundamental para abordar el subajuste y el sobreajuste.

Un modelo con sesgo hace suposiciones sólidas sobre los datos de entrenamiento para simplificar el proceso de aprendizaje, ignorando sutilezas o complejidades que no puede explicar. La varianza se refiere a la sensibilidad del modelo a las fluctuaciones de aprendizaje en los datos de entrenamiento.

Entre los ejemplos de modelos con un gran sesgo, podemos mencionar los algoritmos de regresión lineal o los árboles de decisión simples, que suponen relaciones lineales o binarias simples incluso cuando los patrones de datos son más complejos.

Utilizar un modelo de regresión lineal para datos cuya relación es cuadrática dará lugar a un subajuste, porque el modelo lineal no puede captar la curvatura inherente. En consecuencia, el modelo no rinde en el conjunto de datos de entrenamiento ni en los datos de prueba no vistos (datos nuevos para el modelo que no se incluyeron en los datos de prueba), ya que no puede generalizar correctamente los datos nuevos.

Generalización es la capacidad del modelo para entender y aplicar los patrones aprendidos a datos no vistos. Los modelos con una varianza baja también tienden a subajustarse, ya que son demasiado simples para capturar patrones complejos. Sin embargo, los modelos de sesgo bajo podrían sobreajustarse si son demasiado flexibles.

Una varianza alta indica que el modelo puede captar ruido, idiosincrasias y detalles aleatorios en los datos de entrenamiento. Los modelos de varianza alta son excesivamente flexibles, lo que da lugar a una baja cantidad de errores en el entrenamiento, pero cuando se prueban con datos nuevos, los patrones aprendidos no consiguen generalizar, derivando así en una alta cantidad de errores al ponerlos a prueba.

Imagine memorizar las respuestas de un examen en lugar de comprender los conceptos necesarios para obtener las respuestas usted mismo. Si la prueba difiere de los temas que estudió, tendrá dificultades para responder a las preguntas. Lograr el equilibrio entre la varianza y el sesgo es clave para lograr un rendimiento óptimo en los modelos de ML.

Ilustración de sobreajuste y subajuste en machine learning

Cómo reconocer el sobreajuste y el subajuste

Las reglas 

  • Sobreajuste: la cantidad de errores en el entrenamiento es baja, pero la cantidad de errores al poner al modelo a prueba es considerablemente alta.
  • Subajuste: la cantidad de errores es constantemente alta en los conjuntos de datos de entrenamiento y de prueba.

Un modelo sobreajustado puede dar como resultado una alta precisión del modelo en los datos de entrenamiento pero una baja precisión en los datos nuevos debido a que recurre a la memorización en lugar de a la generalización. El sobreajuste se produce cuando los ingenieros emplean un modelo de ML con demasiados parámetros o capas, como una red neuronal de aprendizaje profundo, facilitándole así que se adapte a los datos de entrenamiento.

Cuando se entrena con un conjunto de datos pequeño o ruidoso, el modelo corre el riesgo de memorizar puntos de datos específicos y ruido en lugar de aprender los patrones generales. Si los datos contienen errores o incoherencias, el modelo podría aprenderlos incorrectamente como patrones significativos.

Los ingenieros buscan una brecha de rendimiento entre el entrenamiento y las pruebas, pero también pueden detectar un sobreajuste en las curvas de aprendizaje, donde la pérdida de entrenamiento disminuye hacia cero mientras que la pérdida de validación aumenta, lo que indica una generalización deficiente.

Otro signo de un modelo sobreajustado son sus límites de decisión, las reglas que aprendió el modelo para clasificar los puntos de datos. El límite de decisión se vuelve demasiado complejo y errático en los modelos sobreajustados, puesto que estos se adaptan al ruido en el conjunto de entrenamiento en lugar de capturar las verdaderas estructuras subyacentes, lo que indica aún más el sobreajuste.

Modelo bien ajustado frente a modelo sobreajustado

Además, los conjuntos de datos de alta dimensionalidad pueden provocar un sobreajuste debido a la “maldición de la dimensionalidad”. A medida que aumenta el número de características, los puntos de datos se vuelven escasos, lo que dificulta que los modelos encuentren patrones significativos y esto, a su vez, eleva la varianza y el riesgo de sobreajuste.

El rendimiento de un modelo subajustado es deficiente en los datos de entrenamiento y de prueba porque no logra capturar los patrones dominantes en el conjunto de datos. Los ingenieros suelen identificar el subajuste cuando observan un constante rendimiento deficiente en ambos conjuntos de datos.

Los modelos subajustados también tienden a mostrar una gran cantidad de errores en las curvas de aprendizaje, arrojan métricas de evaluación subóptimas y muestran patrones residuales sistemáticos, todo lo cual indica una incapacidad para aprender las relaciones subyacentes en los datos de manera eficaz.

El subajuste en el ML a menudo ocurre debido a modelos simplistas, una ingeniería de características deficiente o una regularización excesiva que restringe demasiado la flexibilidad del modelo. Del mismo modo, una mala elección de características, como omitir términos de interacción o características polinómicas, puede impedir que el modelo comprenda las relaciones ocultas en los datos. Un preprocesamiento inadecuado, un tiempo de entrenamiento insuficiente o la falta de datos suficientes para entrenar el modelo también pueden contribuir al subajuste.

Modelo subajustado frente a modelo bien ajustado

Ejemplos de sobreajuste y subajuste

Sobreajuste

Modelo de diagnóstico médico
Un modelo de aprendizaje automático se entrena para clasificar imágenes médicas como “saludable” o “enfermo” en un pequeño conjunto de datos. El modelo memoriza las imágenes de entrenamiento, logrando una precisión casi perfecta, pero su rendimiento es deficiente en las nuevas imágenes porque ha aprendido ruido o artefactos específicos en los datos de entrenamiento en lugar de características generales de la enfermedad.

Predicción del precio de las acciones bursátiles
Un modelo financiero utiliza una red neuronal compleja con muchos parámetros para predecir los precios de las acciones. En lugar de aprender tendencias o patrones, captura fluctuaciones aleatorias en los datos históricos, lo que conduce a predicciones de entrenamiento altamente precisas, pero también a un desempeño deficiente cuando se somete a pruebas en materia de precios de acciones futuras.

Predicción de rotación de clientes
Un modelo de retención de clientes incluye demasiadas características específicas, como datos demográficos muy detallados, provocando así el sobreajuste de los datos de entrenamiento. Se le dificulta generalizar e identificar patrones en diferentes grupos demográficos cuando se aplica a una base de clientes más amplia.

Subajuste

Predicción del precio de las viviendas
Un modelo de regresión lineal predice los precios de las viviendas basándose únicamente en su extensión en pies cuadrados. El modelo no considera características importantes como la ubicación, el número de dormitorios o la antigüedad de la casa, lo que deriva un desempeño deficiente en los datos de entrenamiento y de prueba.

Pronóstico meteorológico
Un modelo utiliza un pequeño conjunto de características simples, como la temperatura y la humedad promedio, para predecir las precipitaciones. No logra capturar relaciones más complejas, como patrones estacionales o interacciones entre múltiples factores atmosféricos, lo que se traduce en una constante deficiencia en términos de precisión.

Reconocimiento de imágenes
Se utiliza un árbol de decisión simple para clasificar imágenes de gatos y perros. Debido a su simplicidad, no logra diferenciar entre las dos especies y tiene un rendimiento deficiente en imágenes de entrenamiento y en imágenes no vistas.

Cómo evitar el sobreajuste y el subajuste

Los algoritmos de ML entrenan a los modelos para reconocer patrones en los datos, lo que permite a los ingenieros usarlos para pronosticar resultados futuros a partir de entradas no vistas. El ajuste de hiperparámetros juega un papel importante a la hora de equilibrar el sobreajuste y el subajuste, garantizando así que un modelo predictivo generalice eficazmente a partir de datos no vistos.

Mediante el uso de hiperparámetros, los ingenieros pueden afinar la tasa de aprendizaje, la rigurosidad de la regularización, el número de capas en una red neuronal o la profundidad máxima de un árbol de decisión. Un ajuste adecuado puede evitar que un modelo sea demasiado rígido o demasiado adaptable.

Sobreajuste

Regularización

La regularización para modelos de regresión o dropout (abandono) en las redes neuronales es una técnica utilizada en el aprendizaje automático al disuadir al modelo de depender demasiado de una sola característica o de dar cabida al ruido en los datos de entrenamiento.

Los tipos comunes de regularización incluyen L1, que fomenta la dispersión al reducir algunos coeficientes a cero y L2, que reduce el tamaño de todos los coeficientes para que el modelo sea más simple y generalizable. La regularización ayuda al modelo a centrarse en los patrones subyacentes en lugar de memorizar los datos.

Aumento de datos

El aumento de datos es otra estrategia eficaz, especialmente en tareas como la visión artificial, donde la expansión artificial de los datos de entrenamiento dando vuelta, rotando o recortando imágenes ayuda a que el modelo generalice mejor. Simplificar el modelo mediante la reducción del número de parámetros o capas en una red neuronal también limita su capacidad para memorizar detalles de datos de entrenamiento.

Validación cruzada de K iteraciones

Los ingenieros también pueden emplear técnicas como la validación cruzada de K iteraciones (K-fold cross validation) para evaluar la generalización del modelo. Este tipo de validación cruzada divide los datos en subconjuntos, algunos los utiliza para entrenamiento y el resto, para pruebas.

Del mismo modo, los ingenieros pueden utilizar un conjunto de retención, información del conjunto de entrenamiento que se reservará como datos no vistos para proporcionar otro medio para evaluar el rendimiento de la generalización. Posteriormente, los resultados se promedian para proporcionar una puntuación de rendimiento general.

Validación cruzada de k pliegues ilustrada en el diagrama

Marcos de evaluación

Además de estas técnicas, los marcos robustos de evaluación de modelos son esenciales para garantizar que un modelo de ML generalice bien. Una técnica de evaluación avanzada es la validación cruzada anidada, que es particularmente útil para ajustar hiperparámetros. En este tipo de validación, un bucle externo divide los datos en subconjuntos de entrenamiento y de prueba para evaluar la capacidad de generalización del modelo.

Al mismo tiempo, un bucle interno realiza el ajuste de hiperparámetros en los datos de entrenamiento para ayudar a garantizar que el proceso de ajuste no sobreajuste el conjunto de validación. Este método separa la optimización de hiperparámetros de la evaluación del modelo, lo que proporciona una estimación más precisa del rendimiento del modelo en datos no vistos.

Otro marco eficaz combina divisiones de entrenamiento y prueba con detención temprana para monitorear la pérdida de validación durante el entrenamiento. Al evaluar el rendimiento del modelo en un conjunto de validación dedicado, los ingenieros pueden detener el entrenamiento cuando el rendimiento de la validación se estanca o se degrada, evitando así el sobreajuste.

Los marcos de evaluación deben incluir un muestreo estratificado para los problemas de clasificación con conjuntos de datos desequilibrados a fin de garantizar que cada división de datos mantenga la misma distribución de clases que el conjunto de datos original. Esto evita el sobreajuste a las clases mayoritarias y, al mismo tiempo, proporciona una evaluación justa del rendimiento de las clases minoritarias.

Métodos de conjunto

Los métodos por conjuntos, como bagging y boosting, combinan múltiples modelos para mitigar las debilidades individuales y mejorar la generalización en general. Por ejemplo, los bosques aleatorios, una popular técnica por conjuntos, reducen el sobreajuste agregando predicciones de múltiples árboles de decisión, equilibrando así eficazmente el sesgo y la varianza.

Subajuste

Modelos más complejos

Para abordar el subajuste, los ingenieros suelen aumentar la complejidad del modelo para capturar mejor los patrones subyacentes en los datos. Por ejemplo, cambiar de una regresión lineal simple a una regresión polinómica puede ayudar en los casos en que las características de la relación y la variable objetivo no sean lineales. Si bien los modelos más complejos pueden resolver el subajuste, corren el riesgo de sobreajustarse si no se regularizan adecuadamente. 

Regularización

Reducir las penalizaciones de la regularización también puede permitir que el modelo tenga más flexibilidad para dar cabida a datos sin estar excesivamente limitado. Por ejemplo, los parámetros L1 y L2 son tipos de regularización empleados para comprobar la complejidad de un modelo. L1(lasso) agrega una penalización para instar al modelo a seleccionar solo las características más importantes. L2(ridge) ayuda a dirigir el modelo hacia una importancia distribuida más uniformemente entre las características.

Ingeniería de características

La ingeniería y selección de características desempeñan un papel en la creación o transformación de características, como agregar términos de interacción, características polinómicas o codificar variables categóricas, para proporcionar al modelo información más relevante.

Tiempo de entrenamiento

Conceder más tiempo de entrenamiento al modelo, aumentando la cantidad de épocas, ayuda a garantizar que tenga la oportunidad adecuada de aprender de los datos. Una época representa un paso completo por el conjunto de datos de entrenamiento, y varias épocas permiten que el modelo aprenda patrones de manera más eficaz.

A menudo se utilizan varias épocas para permitir que el modelo aprenda patrones en los datos de manera más eficaz. Además, aumentar el tamaño del conjunto de datos de entrenamiento ayuda al modelo a identificar patrones más diversos, lo que reduce el riesgo de simplificación excesiva y mejora la generalización.

Data quality

De manera holística, los ingenieros deben evaluar minuciosamente la precisión, integridad y coherencia de los datos de entrenamiento, verificándolos de manera cruzada con fuentes confiables para resolver cualquier discrepancia. Técnicas como la normalización (escalado de valores entre 0 y 1) o la estandarización (escalado a una media de 0 y una desviación estándar de 1) ayudan a garantizar que el modelo no favorezca a ciertas variables sobre otras debido a la discrepancia de las escalas.

Con el tiempo, las distribuciones de los datos de entrada pueden cambiar, un fenómeno conocido como deriva de datos, lo que puede hacer que los modelos se subajusten o sobreajusten a los nuevos datos. Para contrarrestar esto, es esencial monitorear y reentrenar con conjuntos de datos actualizados. La eliminación de valores atípicos también puede ayudar a evitar resultados sesgados y mejorar la robustez del modelo.

Herramientas como AutoML pueden agilizar aún más los procesos al automatizar el ajuste de hiperparámetros, la selección de características y la creación de marcos de evaluación de modelos, lo que permite a los ingenieros centrarse en insights y toma de decisiones de mayor nivel.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Cómo lograr el ajuste óptimo del modelo

Un buen ajuste del modelo radica en el equilibrio óptimo entre el subajuste y el sobreajuste. Describe un modelo que captura con precisión los patrones subyacentes en los datos sin ser demasiado sensible al ruido o a fluctuaciones aleatorias.

  • La compensación entre la complejidad del modelo y la generalización consiste en encontrar el equilibrio adecuado entre que un modelo sea demasiado simple o demasiado complejo.
  • Los ingenieros deben equilibrar el sesgo y la varianza para lograr un rendimiento óptimo del modelo. Una forma de hacerlo es dando seguimiento a las curvas de aprendizaje, que mostrarán los errores de entrenamiento y validación a lo largo del tiempo.
  • El análisis de métricas de validación, como exactitud, precisión, recall o error cuadrático medio, ayuda a evaluar qué tan bien generaliza el modelo a datos no vistos.
  • Un modelo bien ajustado equilibra cuidadosamente la complejidad del modelo, los datos de entrenamiento y las técnicas de regularización para generalizar satisfactoriamente a datos nuevos y proporcionar predicciones precisas.

Consideraciones específicas del dominio respecto de subajustes y sobreajustes

El conocimiento del dominio desempeña un papel importante cuando se trata de abordar subajustes y sobreajustes porque ayuda a los ingenieros a adaptar el modelo a las características específicas del problema en cuestión. Los conjuntos de datos del mundo real a menudo contienen ruido, desequilibrios o incongruencias.

Una logística eficiente, como la división y el preprocesamiento adecuados de los datos, ayuda a mitigar los problemas de ajuste. Comprender el contexto de los datos permite a los ingenieros tomar decisiones fundamentadas sobre el preprocesamiento, la selección de características y el diseño para obtener un modelo bien entrenado. Por ejemplo:

  • Preprocesamiento de datos: la pericia en el dominio ayuda a los ingenieros a identificar qué pasos de depuración de datos son necesarios, como eliminar características irrelevantes, manejar valores faltantes o normalizar datos. Por ejemplo, en el cuidado de la salud, garantizar que los datos demográficos y los historiales médicos de los pacientes se representen con precisión puede aumentar la eficacia del modelo.
  • Selección de características: el conocimiento del dominio puede sustentar cuáles características son más relevantes para la tarea, reduciendo así el ruido y mejorando el rendimiento del modelo. Por ejemplo, en finanzas, los indicadores clave, como las tasas de interés o las tendencias del mercado, pueden ser más predictivos que los registros de transacciones sin procesar.
  • Diseño del modelo: los insights específicos del dominio pueden fundamentar la elección de algoritmos o arquitecturas. Por ejemplo, en tareas de reconocimiento de imágenes, las redes neuronales convolucionales (CNN) son ideales, mientras que en el análisis de series temporales, las redes neuronales recurrentes (RNN) o los transformadores podrían funcionar mejor.

Lograr el equilibrio entre el sobreajuste y el subajuste permite a los ingenieros identificar el rango óptimo en el que un modelo de aprendizaje automático pasa de una simplicidad rígida a una generalización significativa sin volverse demasiado complejo. Un modelo bien equilibrado puede predecir la rotación de clientes en diversos grupos demográficos, clasificar las imágenes médicas de manera eficaz a pesar de las variaciones en la calidad de los datos y pronosticar los precios de las acciones al capturar las tendencias del mercado sin sobreajustarse a las fluctuaciones aleatorias.

La gestión eficaz de la compensación del sesgo o la varianza produce modelos que aprenden con precisión patrones en los datos al tiempo que mantienen la flexibilidad necesaria para adaptarse a lo desconocido. Al lograr este equilibrio, los científicos de datos pueden crear soluciones técnicamente sólidas y contundentes en aplicaciones del mundo real.

Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo