Sobreajuste vs. infraajuste: encontrar el equilibrio

11 de diciembre de 2024

Tiempo de lectura

Autores

Tim Mucci

Writer

Gather

Sobreajuste vs. Subajuste

Cuando los científicos de datos entrenan modelos de machine learning (ML), corren el riesgo de utilizar un algoritmo que sea demasiado simple para capturar los patrones subyacentes de los datos, lo que lleva a un ajuste insuficiente, o uno que es demasiado complejo y lleva a un sobreajuste. Gestionar el sobreajuste y el subajuste es un desafío fundamental en los flujos de trabajo de la ciencia de datos y en el desarrollo de sistemas de inteligencia artificial (IA) fiables.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Sesgo y varianza en el machine learning

El sesgo y la varianza explican el equilibrio que los ingenieros deben alcanzar para ayudar a garantizar un buen ajuste en sus modelos de machine learning. Como tal, la compensación sesgo-varianza es fundamental para abordar el infraajuste y el sobreajuste.

Un modelo sesgado hace suposiciones sólidas sobre los datos de entrenamiento para simplificar el proceso de aprendizaje, ignorando sutilezas o complejidades que no puede tener en cuenta. La varianza se refiere a la sensibilidad del modelo a las fluctuaciones de aprendizaje en los datos de entrenamiento.

Ejemplos de modelos de alto sesgo incluyen algoritmos de regresión lineal o árboles de decisión superficiales, que asumen relaciones lineales o binarias simples incluso cuando los patrones de datos son más complejos.

El uso de un modelo de regresión lineal para datos con una relación cuadrática dará lugar a un subajuste porque el modelo lineal no puede captar la curvatura inherente. En consecuencia, el modelo no funcionará bien en el conjunto de datos de entrenamiento ni en los datos de prueba no observados, ya que no puede generalizarse bien a los nuevos datos.

La generalización es la capacidad del modelo para entender y aplicar los patrones aprendidos a datos invisibles. Los modelos con una varianza baja también tienden a no ajustarse, ya que son demasiado simples para capturar patrones complejos. Sin embargo, los modelos de sesgo bajo podrían sobreajustarse si son demasiado flexibles.

Una alta varianza indica que el modelo podría captar ruido, idiosincrasias y detalles aleatorios dentro de los datos de entrenamiento. Los modelos de alta varianza son demasiado flexibles, lo que da como resultado un bajo error de entrenamiento, pero cuando se prueban con datos nuevos, los patrones aprendidos no se generalizan, lo que genera un alto error de prueba.

Imagine memorizar las respuestas de un examen en lugar de comprender los conceptos necesarios para obtener las respuestas usted mismo. Si la prueba difiere de lo que se estudió, tendrá dificultades para responder a las preguntas. Lograr el equilibrio entre la varianza y el sesgo es clave para lograr un rendimiento óptimo en los modelos de machine learning.

Cómo reconocer el sobreajuste y el subajuste

Las reglas 

  • Sobreajuste: el error de entrenamiento es bajo, pero el error de prueba es significativamente mayor.
  • Subajuste: los errores son consistentemente altos en los conjuntos de datos de entrenamiento y prueba.

Un modelo de sobreajuste puede generar una alta precisión del modelo en datos de entrenamiento, pero una baja precisión en datos nuevos debido a la memorización en lugar de la generalización. El sobreajuste ocurre cuando los ingenieros utilizan un modelo de machine learning con demasiados parámetros o capas, como una red neuronal de deep learning, lo que lo hace altamente adaptable a los datos de entrenamiento.

Cuando se entrena con un conjunto de datos pequeño o ruidoso, el modelo corre el riesgo de memorizar puntos de datos específicos y ruido en lugar de aprender los patrones generales. Si los datos contienen errores o incoherencias, el modelo podría aprenderlos incorrectamente como patrones significativos.

Los ingenieros buscan una brecha de rendimiento entre el entrenamiento y las pruebas, pero también pueden detectar un sobreajuste en las curvas de aprendizaje, donde la pérdida de entrenamiento disminuye hacia cero mientras que la pérdida de validación aumenta, lo que indica una generalización deficiente.

Otro signo de un modelo sobreajustado son sus límites de decisión, las reglas aprendidas del modelo para clasificar los puntos de datos. El límite de decisión se vuelve demasiado complejo y errático en los modelos de sobreajuste, puesto que se adapta al ruido en el conjunto de entrenamiento en lugar de capturar las verdaderas estructuras subyacentes, lo que indica aún más el sobreajuste.

Además, los conjuntos de datos de alta dimensión pueden provocar un sobreajuste debido a la "maldición de la dimensionalidad". A medida que aumenta el número de características, los puntos de datos se vuelven escasos, lo que dificulta que los modelos encuentren patrones significativos, lo que aumenta la varianza y el riesgo de sobreajuste.

Un modelo de subajuste funciona mal con los datos de entrenamiento y los datos de las pruebas porque no captura los patrones dominantes del conjunto de datos. Los ingenieros suelen identificar la falta de adaptación a través de un rendimiento deficiente y constante en ambos conjuntos de datos.

Los modelos de subajuste también tienden a mostrar grandes errores en las curvas de aprendizaje, arrojan métricas de evaluación subóptimas y muestran patrones residuales sistemáticos, todo lo cual indica una incapacidad para aprender las relaciones subyacentes en los datos de manera efectiva.

El desajuste en el machine learning suele producirse debido a modelos simplistas, una ingeniería de características deficiente o una regularización excesiva que restringe excesivamente la flexibilidad del modelo. Del mismo modo, una mala selección de características, como omitir términos de interacción o características polinómicas, puede impedir que el modelo comprenda las relaciones ocultas en los datos. Un preprocesamiento inadecuado, un tiempo de entrenamiento insuficiente o la falta de datos suficientes para entrenar el modelo también pueden contribuir al desajuste.

Ejemplos de sobreajuste y subajuste

Sobreajuste

Modelo de diagnóstico médico
Un modelo de machine learning está entrenado para clasificar las imágenes médicas como "sanas" o "enfermas" en un conjunto de datos pequeño. El modelo memoriza las imágenes de entrenamiento y logra una precisión casi perfecta, pero su desempeño es deficiente con imágenes nuevas porque ha aprendido ruido o artefactos específicos en los datos de entrenamiento en lugar de características generales de la enfermedad.

Predicción del precio de las acciones
Un modelo financiero utiliza una red neuronal compleja con muchos parámetros para predecir los precios de las acciones. En lugar de aprender tendencias o patrones, capta las fluctuaciones aleatorias de los datos históricos, lo que da lugar a predicciones de entrenamiento muy precisas, pero un rendimiento pobre cuando se prueban con precios de acciones futuros.

Predicción de abandono de clientes
Un modelo de fidelización de clientes incluye demasiadas características específicas, como datos demográficos muy detallados, lo que provoca que se sobreajuste a los datos de entrenamiento. Tiene dificultades para generalizar e identificar patrones en diferentes grupos demográficos cuando se aplica a una base de clientes más amplia.

Falta de ajuste

Predicción del precio de la vivienda
Un modelo de regresión lineal predice los precios de la vivienda basándose únicamente en la superficie. El modelo no tiene en cuenta otras características importantes como la ubicación, el número de dormitorios o la edad de la casa, lo que lleva a un rendimiento deficiente en los datos de entrenamiento y prueba.

Previsión meteorológica
Un modelo utiliza un pequeño conjunto de características sencillas, como la temperatura media y la humedad, para predecir las precipitaciones. No es capaz de captar relaciones más complejas, como los patrones estacionales o las interacciones entre múltiples factores atmosféricos, lo que se traduce en una precisión sistemáticamente deficiente.

Reconocimiento de imágenes
Se utiliza un árbol de decisión superficial para clasificar las imágenes de gatos y perros. Debido a su simplicidad, no logra diferenciar entre las dos especies, por lo que tiene un rendimiento deficiente en las imágenes de entrenamiento y en las nuevas e invisibles.

Cómo evitar el sobreajuste y el subajuste

Los algoritmos de machine learning entrenan modelos para reconocer patrones en los datos, lo que permite a los ingenieros utilizarlos para prever resultados futuros a partir de entradas no vistas. El ajuste de los hiperparámetros desempeña un papel importante a la hora de equilibrar el sobreajuste y el subajuste, garantizando que un modelo predictivo generalice eficazmente a los datos no vistos.

Mediante el uso de hiperparámetros, los ingenieros pueden afinar la tasa de aprendizaje, la fuerza de regularización, el número de capas en una red neuronal o la profundidad máxima de un árbol de decisión. Un ajuste adecuado puede evitar que un modelo sea demasiado rígido o demasiado adaptable.

Sobreajuste

Regularización

La regularización de los modelos de regresión o abandono en redes neuronales es una técnica utilizada en el machine learning para disuadir al modelo de depender demasiado de una sola característica o de ajustar el ruido en los datos de entrenamiento.

Los tipos comunes de regularización incluyen L1, que fomenta la dispersión al reducir algunos coeficientes a cero y L2, que reduce el tamaño de todos los coeficientes para que el modelo sea más simple y generalizable. La regularización ayuda al modelo a centrarse en los patrones subyacentes en lugar de memorizar los datos.

Aumento de datos

El aumento de datos es otra estrategia eficaz, sobre todo en tareas como la visión artificial, en la que ampliar artificialmente los datos de entrenamiento volteando, rotando o recortando imágenes ayuda a que el modelo generalice mejor. Simplificar el modelo reduciendo el número de parámetros o capas de una red neuronal también limita su capacidad para memorizar detalles de los datos de entrenamiento.

Validación cruzada de K iteraciones

Los ingenieros también pueden utilizar técnicas como la validación cruzada de k iteraciones para evaluar la generalización del modelo. La validación cruzada de K iteraciones divide los datos en subconjuntos, entrena algunos y prueba el resto.

Del mismo modo, los ingenieros pueden utilizar un conjunto de retención, información del conjunto de entrenamiento que se reservará como datos no vistos para proporcionar otro medio de evaluar el rendimiento de la generalización. A continuación, los resultados se promedian para proporcionar una puntuación de rendimiento general.

Marcos de evaluación

Además de estas técnicas, los marcos sólidos de evaluación de modelos son esenciales para garantizar que un modelo de machine learning se generalice bien. Una técnica de evaluación avanzada es la validación cruzada anidada, que es particularmente útil para el ajuste de hiperparámetros. En la validación cruzada anidada, un bucle externo divide los datos en subconjuntos de entrenamiento y prueba para evaluar la capacidad de generalización del modelo.

Al mismo tiempo, un bucle interno realiza un ajuste de hiperparámetros en los datos de entrenamiento para ayudar a garantizar que el proceso de ajuste no sobreajuste el conjunto de validación. Este enfoque separa la optimización de hiperparámetros de la evaluación del modelo, lo que proporciona una estimación más precisa del rendimiento del modelo en datos no vistos.

Otro marco eficaz combina las divisiones entrenamiento-prueba con la detención temprana para controlar la pérdida de validación durante el entrenamiento. Al evaluar el rendimiento del modelo en un conjunto de validación específico, los ingenieros pueden detener el entrenamiento cuando el rendimiento de validación se estanca o degrada, evitando así el sobreajuste.

Los marcos de evaluación deben incluir un muestreo estratificado para los problemas de clasificación con conjuntos de datos desequilibrados a fin de garantizar que cada división de datos mantenga la misma distribución de clases que el conjunto de datos original. Esto evita el sobreajuste a las clases mayoritarias y, al mismo tiempo, proporciona una evaluación justa del rendimiento de las clases minoritarias.

Métodos de conjunto

Los métodos de conjunto, como el bagging y el boosting, combinan varios modelos para mitigar las debilidades individuales y mejorar la generalización general. Por ejemplo, los bosques aleatorios, una técnica de agrupación popular, reducen el sobreajuste agregando predicciones de múltiples árboles de decisión, equilibrando eficazmente el sesgo y la varianza.

Falta de ajuste

Modelos más complejos

Para abordar el desajuste, los ingenieros suelen aumentar la complejidad del modelo para capturar mejor los patrones subyacentes en los datos. Por ejemplo, cambiar de una regresión lineal simple a una regresión polinomial puede ayudar en los casos en que las características de la relación y la variable objetivo no sean lineales. Aunque los modelos más complejos pueden abordar el desajuste, corren el riesgo de sobreajustarse si no se regularizan adecuadamente.  

Regularización

La reducción de las penalizaciones por regularización también puede permitir que el modelo tenga más flexibilidad para ajustarse a los datos sin estar demasiado limitado. Por ejemplo, los parámetros L1 y L2 son tipos de regularización que se utilizan para comprobar la complejidad de un modelo. L1 (lasso) añade una penalización para animar al modelo a seleccionar solo las características más importantes. L2 (ridge) ayuda a llevar el modelo a una importancia distribuida más uniformemente entre las características.

Diseño de funciones

La ingeniería y la selección de características intervienen en la creación o transformación de características, como la adición de términos de interacción, características polinómicas o la codificación de variables categóricas, para proporcionar al modelo información más relevante.

Tiempo de entrenamiento

Permitir que el modelo disponga de más tiempo de entrenamiento al aumentar el número de épocas ayuda a garantizar que tenga una oportunidad adecuada de aprender de los datos. Una época representa una pasada completa por el conjunto de datos de entrenamiento, y varias épocas permiten al modelo aprender patrones de forma más eficaz.

A menudo se utilizan varias épocas para permitir que el modelo aprenda patrones en los datos de manera más eficaz. Además, aumentar el tamaño del conjunto de datos de entrenamiento ayuda al modelo a identificar patrones más diversos, lo que reduce el riesgo de simplificación excesiva y mejora la generalización.

Calidad de los datos

Desde un punto de vista holístico, los ingenieros deben evaluar a fondo los datos de formación para comprobar su exactitud, integridad y coherencia, cotejándolos con fuentes fiables para resolver cualquier discrepancia. Técnicas como la normalización (escalar los valores entre 0 y 1) o la estandarización (escalar a una media de 0 y una desviación estándar de 1) ayudan a garantizar que el modelo no favorezca ciertas variables sobre otras debido a las diferentes escalas.

Con el tiempo, las distribuciones de los datos de entrada pueden cambiar, un fenómeno conocido como deriva de datos, lo que puede hacer que los modelos se ajusten por debajo o por encima de los nuevos datos. Para contrarrestar esto, son esenciales la monitorización regular y el reentrenamiento periódico con conjuntos de datos actualizados. La eliminación de valores atípicos también puede ayudar a evitar resultados sesgados y mejorar la solidez del modelo.

Herramientas como AutoML pueden agilizar aún más los procesos al automatizar el ajuste de hiperparámetros, la selección de características y la creación de marcos de evaluación de modelos, lo que permite a los ingenieros centrarse en conocimientos y toma de decisiones de mayor nivel.

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Lograr el ajuste óptimo del modelo

Un buen ajuste del modelo radica en el equilibrio óptimo entre el subajuste y el sobreajuste. Describe un modelo que captura con precisión los patrones subyacentes en los datos sin ser demasiado sensible al ruido o a las fluctuaciones aleatorias.

  • El equilibrio entre la complejidad del modelo y la generalización consiste en encontrar el punto medio entre un modelo demasiado simple o demasiado complejo.
  • Los ingenieros deben equilibrar el sesgo y la varianza para lograr un rendimiento óptimo del modelo. Una forma de hacerlo es mediante el seguimiento de las curvas de aprendizaje, que mostrarán los errores de entrenamiento y validación a lo largo del tiempo.
  • El análisis de métricas de validación como la exactitud, la precisión, la recuperación o el error cuadrático medio ayuda a evaluar qué tan bien se generaliza el modelo a datos no vistos.
  • Un buen modelo de ajuste equilibra cuidadosamente la complejidad del modelo, los datos de entrenamiento y las técnicas de regularización para generalizar bien a los nuevos datos y proporcionar predicciones precisas.

Consideraciones específicas del dominio en el subajuste y el sobreajuste

El conocimiento del dominio desempeña un papel importante a la hora de abordar el subajuste y el sobreajuste, puesto que ayuda a los ingenieros a adaptar el modelo a las características específicas del problema en cuestión. Los conjuntos de datos del mundo real suelen contener ruido, desequilibrios o incoherencias.

Una logística eficiente, como la división y el preprocesamiento adecuados de los datos, ayuda a mitigar los problemas de ajuste. Comprender el contexto de los datos permite a los ingenieros tomar decisiones informadas sobre el preprocesamiento, la selección de funciones y el diseño para obtener un modelo bien entrenado. Por ejemplo:

  • Preprocesamiento de datos: la experiencia en el dominio ayuda a los ingenieros a identificar qué pasos de limpieza de datos son necesarios, como la eliminación de características irrelevantes, el tratamiento de los valores que faltan o la normalización de los dato Por ejemplo, en el sector sanitario, garantizar que los datos demográficos y el historial médico del paciente estén representados con exactitud puede hacer que el modelo sea más eficaz.
  • Selección de características: el conocimiento del dominio puede orientar sobre qué características son más relevantes para la tarea, reduciendo el ruido y mejorando el rendimiento del modelo. Por ejemplo, en las finanzas, los indicadores clave, como los tipos de interés o las tendencias del mercado, pueden ser más predictivos que los registros brutos de transacciones.
  • Diseño de modelos: los conocimientos específicos del dominio pueden informar la elección de algoritmos o arquitecturas. Por ejemplo, en tareas de reconocimiento de imágenes, las redes neuronales convolucionales (CNN) son ideales, mientras que en el análisis de series temporales, las redes neuronales recurrentes (RNN) o los transformadores podrían funcionar mejor.

Lograr el equilibrio entre el sobreajuste y el subajuste permite a los ingenieros identificar el rango óptimo en el que un modelo de machine learning pasa de una simplicidad rígida a una generalización significativa sin volverse demasiado complejo. Un modelo bien equilibrado puede predecir la pérdida de clientes en diversos grupos demográficos, clasificar las imágenes médicas de manera efectiva a pesar de las variaciones en la calidad de los datos y realizar la previsión de los precios de las acciones al capturar las tendencias del mercado sin sobreajustarse a las fluctuaciones aleatorias.

La gestión eficaz de la compensación del sesgo o la varianza produce modelos que aprenden con precisión patrones en los datos al tiempo que mantienen la flexibilidad necesaria para adaptarse a lo desconocido. Al lograr este equilibrio, los científicos de datos pueden crear soluciones técnicamente sólidas e impactantes en aplicaciones del mundo real.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y la cartera de soluciones de IA de IBM.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo