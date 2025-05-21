¿Qué es la compensación entre sesgo y varianza?

Autor

Fangfang Lee

Developer Advocate

IBM

Introducción a la compensación entre sesgo y varianza

En el machine learning (ML) y la inteligencia artificial (IA), la compensación entre sesgo y varianza es un concepto que rige el rendimiento de un modelo predictivo de machine learning y un inquilino fundamental en la ciencia de datos.

Cuando decidimos crear un modelo de ML para un problema empresarial específico, queremos elegir una arquitectura de modelo que minimice los errores y capture las señales subyacentes. El sesgo y la varianza representan dos fuentes de error de predicción. El sesgo mide qué tan lejos están las predicciones de los valores reales debido a suposiciones demasiado simplistas; sin embargo, la varianza captura cuánto fluctúan las predicciones en función de diferentes datos de entrenamiento.

Comprender y gestionar esta compensación es crucial para crear modelos que se generalicen bien a datos invisibles. Los modelos con alto sesgo son propensos a un ajuste insuficiente, perdiendo patrones importantes, mientras que los modelos con alta varianza son propensos al sobreajuste, capturando el ruido como si fuera una señal. Lograr el equilibrio adecuado es fundamental para un diseño eficaz de machine learning y ayuda a explicar por qué los modelos que funcionan bien con los datos de entrenamiento pueden fallar en el mundo real.

En este documento explicativo, nos adentramos en los detalles técnicos de la compensación entre sesgo y varianza y el error de predicción, que representa un panorama de cómo construir el modelo correcto para un conjunto de datos. 

Compensación ilustrada

En modelos predictivos como la regresión lineal o K-vecino más cercano (KNN), el sesgo y la varianza son interdependientes:

  • El sesgo mide qué tan lejos están, en promedio, las predicciones de un modelo de los valores de verdad básicos. Los modelos de alto sesgo tienden a hacer suposiciones sólidas sobre la forma de los datos y causan un ajuste insuficiente. Un modelo demasiado simplista tiende a tener un alto sesgo y una baja varianza; un modelo como este tiende a tener altos errores de entrenamiento y altos errores de predicción.  
  • La varianza mide cuánto cambian las predicciones de un modelo con diferentes conjuntos de datos de entrenamiento. Los modelos de alta varianza son sensibles al ruido en los datos de entrenamiento y provocan un sobreajuste. Un modelo con arquitectura compleja y más parámetros tiende a tener una varianza alta y un sesgo bajo.
Diagrama de varianza de sesgo

En este documento explicativo, utilizamos la regresión lineal como ejemplo para ilustrar cómo la complejidad del modelo afecta el sesgo y la varianza en los resultados. Recuerde que en la regresión lineal, la métrica de evaluación se define por el error cuadrático medio (MSE): el error cuadrático promedio de la verdad fundamental y el valor predicho. Un MSE grande indica un modelo mal ajustado en los datos de entrenamiento, mientras que un MSE bajo indica un modelo bien ajustado en los datos de entrenamiento.

Un MSE se define como:

 MSE=(ypred-yactual)2  

O se expresa como una suma residual de cuadrados:

 RSS=i=1n(yi-yi^)2

Digamos que nos dan un conjunto de valores de entrada X y valores de salida correspondientes Y. La verdadera relación entre X e Y no es lineal: piense en una forma de U suave y curva como una onda sinusoidal. Pero no conocemos esa función subyacente. En cambio, observamos puntos de datos ruidosos que se aproximan.

Gráfico de datos ruidosos

Ahora queremos construir un modelo para predecir Y usando X.

Para ilustrar cómo la complejidad del modelo afecta el rendimiento, podemos intentar ajustar tres modelos de complejidad creciente: un modelo lineal, un modelo polinomial moderadamente complejo y un modelo polinomial muy complejo.

Este componente de ruido introduce aleatoriedad, imitando los datos del mundo real. Un polinomio es una expresión matemática que implica una suma de potencias de X multiplicada por coeficientes.

Por ejemplo, un polinomio de grado 1 es:

 y^=β0+β1x

El modelo se representa como una línea recta:

Polinomio de grado 1

Este modelo es muy simple y asume firmemente que la relación entre X e Y es lineal. Pero los datos claramente tienen un patrón curvo. Como resultado:

  • El sesgo es alto: el modelo no puede capturar el patrón no lineal en los datos.
  • La varianza es baja: es estable y no cambia mucho con diferentes conjuntos de datos.
  • MSE (error cuadrático medio): 0.2929. Esto es relativamente alto.

Este es un ejemplo de subajuste: el modelo es demasiado simple para aprender la verdadera estructura.

Un polinomio de grado 4 es:

 y^=β0+β1x+β2x2+β3x3+β4x4

Polinomio de grado 4

Ahora usamos un polinomio que incluye potencias de x hasta  x4 :

 y^=β0+β1x+β2x2+β3x3+β4x4

Este modelo es lo suficientemente complejo como para capturar la curva de los datos sin ser demasiado sensible al ruido.

  • El sesgo es moderado: el modelo puede representar la función real bastante bien.
  • La varianza es moderada: no reacciona de forma exagerada a las pequeñas fluctuaciones en los datos.
  • MSE: alrededor de 0.0714, inferior al grado 1.

Este es el modelo de mejor rendimiento en nuestro ejemplo: se generaliza bien.

Un polinomio de grado 25 es:

 y^=i=025βixi

Polinomio de grado 25

Con 26 parámetros, el modelo tiene una gran flexibilidad y se ajusta muy de cerca a los datos de entrenamiento, incluso al ruido aleatorio. La curva se ve muy ondulada y se sobreajusta a los datos.

  • El sesgo es bajo: es lo suficientemente flexible como para seguir la señal.
  • La varianza es alta: reacciona fuertemente al ruido y cambiaría significativamente con una nueva muestra de datos.
  •  MSE: alrededor de 0.059, inferior al grado 4 porque memorizó en exceso el patrón de los datos de entrenamiento y más.

Este es un ejemplo de sobreajuste: el modelo aprende el ruido junto con la señal y no generaliza bien a los datos invisibles.

Cuanto mayor sea el grado, más "ondulada" se vuelve la curva y más puede adaptar a los datos de entrenamiento, incluida la señal y el ruido.

En el ejemplo anterior, podemos ver que la complejidad del modelo y la cantidad de parámetros afectan directamente la compensación entre sesgo y varianza. A medida que el modelo se vuelve más complejo y tiene más parámetros, la variabilidad en los valores predichos en el conjunto de prueba aumenta, lo que lleva a una alta varianza. Sin embargo, a medida que el modelo se simplifica y el número de parámetros disminuye, el  bias2  en la predicción aumenta.

Por lo tanto, cuando construimos un modelo de machine learning, nuestro objetivo es sesgar y variar simultáneamente para lograr un rendimiento óptimo del modelo. Esta optimización no solo genera buenos resultados a partir del entrenamiento, sino que también se generaliza bien a datos de prueba no vistos. En la siguiente sección, profundizamos en los detalles matemáticos de cómo se deriva el cálculo del sesgo y la varianza y por qué el modelo de machine learning contiene incertidumbres que se componen de sesgo, varianza y error irreducible.

Compensación entre sesgo y varianza

Sesgo y varianza en la práctica

Comprender cómo se manifiestan el sesgo y la varianza en los modelos de machine learning del mundo real es esencial para diagnosticar y mejorar el rendimiento. En la siguiente sección, profundizamos en los detalles sobre cómo el alto sesgo y el modelo de alta varianza conducen a rendimientos potencialmente deficientes en un sistema de IA.

Modelos de alto sesgo

Los modelos de alto sesgo suelen ser demasiado simplistas para capturar los patrones verdaderos en los datos. Se ajustan por debajo del conjunto de entrenamiento, lo que lleva a un entrenamiento y una precisión de prueba deficientes. Un ejemplo clásico es la regresión lineal aplicada a los datos no lineales mostrados anteriormente. Si la verdadera relación entre las características y el objetivo es cuadrática o sinusoidal y ajustamos una línea recta, el modelo carece de la capacidad de capturar la estructura subyacente.

Síntomas: alto error en los conjuntos de entrenamiento y prueba. El sesgo se vuelve grande y conduce a un rendimiento deficiente tanto en el conjunto de entrenamiento como en el conjunto de prueba.

Modelos de alta varianza

Los modelos de alta varianza son demasiado flexibles y se ajustan demasiado a los datos de entrenamiento, incluido el ruido. Se sobreajustan al conjunto de entrenamiento y no se generalizan a datos no vistos, lo que lleva a un sobreajuste y a predicciones con una variabilidad anormalmente alta.

Algunos ejemplos comunes son:

Síntomas: bajo error de entrenamiento, pero alto error de prueba. Las predicciones varían significativamente entre diferentes conjuntos de datos. El término de varianza domina el error, lo que indica que el modelo es inestable con respecto a los cambios en los datos de entrenamiento.

Diagnóstico de sesgo y varianza

Algunas herramientas prácticas para diagnosticar estos errores incluyen:

Curvas de aprendizaje (mostradas antes en la sección I):

  • Graficar el error de entrenamiento y validación frente al tamaño del conjunto de entrenamiento.
  • Si ambos errores son altos y convergen, indica un sesgo alto.

Si el error de entrenamiento es bajo y el error de validación es alto, con una brecha que no se cierra, sugiere una alta varianza. La validación cruzada se puede aplicar para diagnosticar el rendimiento del modelo y promediar los errores del conjunto de entrenamiento seleccionado.

  • Ayuda a estimar el error de generalización.
  • Útil para comparar modelos o hiperparámetros teniendo en cuenta la varianza.

Consideración en el mundo real

En la práctica, controlar la compensación entre sesgo y varianza se trata menos de elegir el modelo "perfecto" y más de gestionar la complejidad a través de diversas estrategias. Podemos aplicar varias técnicas para controlar la variabilidad en los errores de predicción aplicando algunas de las siguientes estrategias:

Regularización

La regularización se refiere a un conjunto de técnicas utilizadas para restringir o penalizar la complejidad de un modelo para mejorar la generalización, es decir, el rendimiento en datos no vistos. En términos matemáticos, la regularización modifica la función de pérdida original agregando un término de penalización que disuade la complejidad (generalmente en forma de pesos grandes o modelos demasiado flexibles).

El objetivo es evitar el sobreajuste, especialmente cuando se trata de datos limitados o de alta dimensión. Al entrenar un modelo de machine learning, normalmente minimizamos una función de pérdida como el error cuadrático medio (MSE)

 RSS=∑i=1n(yi-yi^)2

Con la regularización, agregamos una penalización a este objetivo. 

Regularización L2 (regresión de cresta)

LossRidge=∑i=1n(yi-yi^)2+λ*Penalty

Aquí,

 λ es un hiperparámetro que controla el equilibrio entre ajustar los datos de entrenamiento y mantener el modelo simple.

Agrega una penalización proporcional al cuadrado de la magnitud de los coeficientes. Esto disuade a las ponderaciones demasiado grandes, lo que reduce la varianza. El término de penalización garantiza que las características que tienen un poder predictivo bajo tengan valores bajos, reduciendo efectivamente los coeficientes de los parámetros.

Regularización L1 (lasso)

Fomenta la dispersión:

 Losslasso=∑i=1n(yi-ŷi)2+λ∑j=1p|βj|

Puede eliminar por completo las características irrelevantes, simplificando el modelo y reduciendo así la varianza. El término de penalización USD{\sum_{j=1}^{p} |\beta_j}USD garantiza que las características insignificantes se reduzcan a cero, eliminando por completo las características.

Métodos de conjunto

Los métodos de conjunto combinan múltiples modelos para reducir el error al promediar la desviación de predicción individual. Implica combinar o apilar varios modelos de alta varianza para obtener la mejor precisión de predicción. Algunos ejemplos incluyen:

- El bagging (por ejemplo, bosques aleatorios) reduce la varianza al promediar múltiples estimadores de alta varianza entrenados en diferentes subconjuntos de datos.

- El boosting (por ejemplo, xgBoost, AdaBoost) crea un aprendiz sólido al corregir secuencialmente los errores de los modelos anteriores, a menudo equilibrando la reducción del sesgo o la varianza con un ajuste cuidadoso.

Ajuste de hiperparámetros y selección de modelos

La complejidad del modelo y la fuerza de regularización a menudo se controlan a través de hiperparámetros. Las técnicas como la búsqueda en cuadrícula o la búsqueda aleatoria con validación cruzada u optimización bayesiana pueden ayudar a encontrar un modelo que equilibre el sesgo y la varianza en los datos retenidos.

AI Academy

Elija el modelo de IA adecuado para su caso de uso

Más grande no siempre es mejor cuando se trata de modelos de IA. Aprenda a encontrar la solución que mejor se adapte a las necesidades de su empresa. A continuación, obtenga la guía que le ayudará a pasar a la acción.
Ir al episodio

Aplicaciones a la IA moderna

La compensación entre sesgo y varianza no es solo teórica. Desempeña un papel crítico en el aprendizaje profundo y los sistemas de IA a gran escala. En la era moderna de la IA, la elección de la arquitectura de redes neuronales desempeña un papel crítico en la gestión de la compensación entre sesgo y varianza. Así es como dos arquitecturas fundacionales (CNN y RNN) manejan este equilibrio en la práctica.

1. Redes neuronales convolucionales (CNN): las CNN están diseñadas específicamente para datos con una estructura espacial, más comúnmente, imágenes. Sus características arquitectónicas les permiten reducir la varianza mientras mantienen suficiente expresividad para mantener bajo el sesgo.

  • Campos receptivos locales (convoluciones): en lugar de conectar cada píxel de entrada a cada neurona de salida (como en las redes totalmente conectadas), las CNN utilizan pequeños filtros (kernels) que se deslizan a través de la entrada. Esto refuerza la suposición de que las características locales son útiles, un sesgo hacia la localidad espacial.
  • Peso compartido: cada filtro (o kernel) se reutiliza en toda la imagen, lo que reduce drásticamente la cantidad de parámetros entrenables. Esto limita el sobreajuste, reduciendo la varianza, pero introduce cierto sesgo al restringir la flexibilidad del modelo.
  • Capas de agrupación (por ejemplo, agrupación máxima): estas capas resumen los mapas de características e introducen la invariancia de traducción. Si bien esto reduce la varianza al ignorar fluctuaciones menores, podría aumentar el sesgo al descartar algunos detalles potencialmente útiles.
  • Aprendizaje jerárquico de características: las CNN aprenden desde los bordes de bajo nivel hasta las formas de alto nivel capa por capa. Este sesgo inductivo en capas permite la generalización con menos ejemplos, lo que es útil en dominios con escasez de datos.

2. Redes neuronales recurrentes (RNN): las RNN se adaptan a datos secuenciales, como texto, voz o series temporales, donde los resultados actuales dependen de elementos anteriores. Su diseño intenta equilibrar las dependencias a largo plazo (que reducen el sesgo) y la estabilidad del entrenamiento (que controla la varianza).

  • Peso compartido a lo largo del tiempo: las RNN utilizan los mismos parámetros en cada paso de tiempo, introduciendo un sesgo hacia la estacionariedad en las secuencias (suponiendo que se repita el mismo tipo de patrones), pero reduciendo significativamente la varianza al limitar el crecimiento de los parámetros.
  • Memoria de entradas pasadas: las RNN mantienen un estado oculto h_t que resume la información pasada. En teoría, este estado permite que el modelo reduzca el sesgo al modelar dependencias de largo alcance. Sin embargo, en la práctica, los gradientes que desaparecen a menudo les impiden aprender relaciones a largo plazo de manera efectiva, lo que aumenta el sesgo.
  • Variantes como la memoria a largo plazo (LSTM) y la unidad recurrente cerrada (GRU): estas arquitecturas mitigan los gradientes de desvanecimiento mediante el uso de puertas, lo que permite una mejor retención de memoria a lo largo del tiempo. Como resultado, pueden reducir aún más el sesgo sin un gran aumento en la varianza.
  • Estabilidad del entrenamiento y sobreajuste: las RNN profundas (muchas capas o secuencias largas) son propensas a una gran varianza: ruido de sobreajuste en las secuencias de entrenamiento. Para controlar esto, a menudo se utilizan técnicas como deserción, recorte de gradiente y agrupación de secuencias.

Técnicas que controlan la compensación

  • Deserción: apagar aleatoriamente las neuronas durante el entrenamiento agrega ruido, lo que obliga a la red a aprender representaciones redundantes, lo que reduce el sobreajuste y, por lo tanto, la varianza.
  • Normalización por lotes: ayuda a estabilizar y acelerar el entrenamiento y, a menudo, reduce la varianza al suavizar la optimización.
  • Detención temprana: evita el sobreajuste al detener el entrenamiento cuando la pérdida de validación comienza a aumentar.
  • Aprendizaje de transferencia: los modelos previamente entrenados en grandes conjuntos de datos a menudo generalizan mejor con menos parámetros para entrenar, lo que reduce la varianza en conjuntos de datos pequeños.
  • Leyes de escala y observaciones modernas: los hallazgos recientes en modelos grandes (como transformadores) muestran que el aumento de los datos, el cálculo y el tamaño del modelo reduce el error de prueba, lo que sugiere que el sesgo disminuye más rápido que los aumentos de varianza en los modelos de alta capacidad. Sin embargo, una regularización deficiente o datos insuficientes aún pueden conducir a un sobreajuste.

Fundamentos teóricos

Profundicemos en los fundamentos matemáticos de la compensación entre sesgo y varianza. Recordemos el ejemplo anterior: nuestro objetivo es reducir el error total de los valores previstos y los valores reales. Este error se compone de tres componentes: sesgo, varianza y error irreducible. Podemos analizar el error de predicción cuadrático esperado de un modelo:

 f^(x)

en comparación con la función verdadera: f(x),

donde f^(x) se aprende de un conjunto de datos de entrenamiento D, y x es la función verdadera (desconocida).

Donde:

 y=f(x)+ε,ε∼N(0,σ2)

esto significa que para la función y=f(x)+ε , el error (indicado por ε ) se distribuye normalmente con una media de 0 y una varianza de σ2 , σ denota la desviación estándar de la distribución

 f^(x) es el valor predicho del modelo en la entrada x

La expectativa (o media) se toma sobre diferentes conjuntos de datos de entrenamiento D y ruido ε. El símbolo E se utiliza para expresar "expectativa" o "valor esperado", que es un valor verdadero de la media de la distribución

Nos interesa el error de predicción esperado en un solo punto x:

 ED,ε[(y-f^(x))2]

Sustituto:

 y=f(x)+ε

Entonces, la expresión se convierte en:

 =ED,ε[(f(x)+ε-f^(x))2]

Ampliación del cuadrado:

 $=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$

Divida la expectativa utilizando la linealidad (la linealidad es un concepto algebraico simple, por ejemplo, E[A+B]=E[A]+E[B]):

 =ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]

Ahora bien, dado que:

 E[ε]=0⇒E[(f(x)-f^(x))ε]=0

 E[ε2]=σ2

Obtenemos:

 ED[(f(x)-f^(x))2]+σ2

Descomponer el primer término:

Sumar y restar 

ED[f^(x)] :

 ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2 ]

Donde:

 a=f(x)-ED[f^(x)]

 b=ED[f^(x)]-f^(x)

Entonces:

 ED[(a+b)2]=a2+ED[b2]+2aED[b]

Dado que ED[b]=0, el término cruzado desaparece y obtenemos:

 =(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]

Descomposición final de sesgo-varianza:

ED,ε[(y-f^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]+σ2

Aquí, el primer término es sesgo2, el segundo término es varianza y el tercer término es error irreducible

Esto muestra que el error de predicción total esperado se puede descomponer en:

Sesgo²: error de suposiciones erróneas en el modelo (por ejemplo, modelo insuficientemente ajustado o demasiado simple)

Varianza: error de sensibilidad a los datos de entrenamiento (por ejemplo, modelo sobreajustado y demasiado complejo)

- Ruido irreducible: aleatoriedad y error inevitables en las observaciones

Conclusión y lecturas adicionales

En resumen, el sesgo y la varianza son dos fuentes fundamentales de error de predicción en el machine learning. Comprender esta compensación no es solo un ejercicio teórico, sino que da forma directamente a la manera en que diseñamos, entrenamos y desplegamos modelos de ML en la práctica.

Ya sea que elija entre un modelo lineal simple o una red neuronal profunda compleja, reconocer el equilibrio entre el ajuste insuficiente y el sobreajuste es esencial para construir sistemas de IA robustos. Si bien nos enfocamos en el error cuadrático medio (MSE) como nuestra función de pérdida, esta compensación se aplica a una amplia gama de distribuciones y métricas de error, lo que la convierte en una consideración universal en todo el aprendizaje supervisado.

En los últimos años, los investigadores han observado un comportamiento intrigante en modelos grandes y sobreparametrizados, como las redes neuronales profundas. A pesar de su alta capacidad, estos modelos suelen generalizar bien, incluso cuando se ajustan perfectamente a los datos de entrenamiento, lo que aparentemente desafía la infraestructura tradicional de sesgo-varianza.

Este comportamiento desconcertante se explora en trabajos como "Reconciling modern machine learning and the bias-variance trade-off" de Belkin et al. (2019), que introduce el concepto de doble descenso, y "A universal law of robustness via isoperimetry" de Bubeck et al., que propone una interpretación geométrica de la generalización.

A medida que construimos sistemas de IA más potentes, una comprensión más profunda de estas dinámicas se vuelve esencial, no solo para optimizar el rendimiento, sino también para interpretar el comportamiento del modelo, garantizar la equidad y promover prácticas de IA responsables.

Recursos

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
IBM, nombrada "Strong Performer" en el informe "Forrester Wave: AI Foundation Models for Language, Q2 2024"

Las empresas reconocen que no pueden ampliar la IA generativa con modelos fundacionales en los que no puedan confiar. Descargue el extracto para saber por qué IBM, con sus emblemáticos &quot;modelos Granite&quot;, ha sido nombrada &quot;Strong Performer&quot;.
La guía del director ejecutivo (CEO) para la optimización de modelos

Aprenda a impulsar continuamente a los equipos a mejorar el rendimiento del modelo y superar a la competencia mediante el uso de las últimas técnicas e infraestructura de IA.
Un enfoque diferenciado de los modelos fundacionales de IA

Explore el valor de los modelos fundacionales de grado empresarial que brindan confianza, rendimiento y beneficios rentables a todas las industrias.
Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar la IA generativa, el machine learning y los modelos fundacionales en sus operaciones empresariales para mejorar el rendimiento.
Cómo IBM está adaptando la IA generativa para las empresas

Descubra cómo IBM desarrolla modelos fundacionales generativos que resultan fiables y eficientes desde el punto de vista energético y portátiles.
Referencias

[1]: Hastie, T., Tibshirani, R., & Friedman, J. The Elements of Statistical Learning. Springer.

[2]: James, G., Witten, D., Hastie, T., & Tibshirani, R. An Introduction to Statistical Learning. Springer.

[3]: Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). "Reconciling modern machine learning and the bias-variance trade-off."  Proceedings of the National Academy of Sciences*, 116(32), 15849–15854.

[4]: Bubeck, S., Lee, Y. T., Price, E., & Razenshteyn, I. (2021). "A universal law of robustness via isoperimetry." Advances in Neural Information Processing Systems, 34, 10167–10179.