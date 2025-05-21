O que é troca de viés-variância?

Introdução à troca de viés-variância

Em aprendizado de máquina (ML) e inteligência artificial (IA), a troca de viés-variância é um conceito que rege o desempenho de um modelo preditivo de aprendizado de máquina e um inquilino fundamental da ciência de dados.

Quando decidimos construir um modelo de ML para um problema de negócios específico, queremos escolher uma arquitetura de modelo que minimize os erros e capture os sinais subjacentes. O viés e a variância representam duas fontes de erro de previsão. O viés mede o quanto as previsões estão distantes dos valores verdadeiros devido a suposições excessivamente simplistas; no entanto, a variância captura o quanto as previsões flutuam com base em diferentes dados de treinamento.

Compreender e gerenciar essa troca é crucial para construir modelos que generalizem bem para dados não vistos. Modelos com alto viés são propensos ao underfitting, perdendo padrões importantes, enquanto modelos com alta variância são propensos ao overfitting, capturando ruído como se fosse um sinal. Encontrar o equilíbrio certo está no centro do projeto eficaz de aprendizado de máquina e ajuda a explicar por que os modelos que têm um bom desempenho em dados de treinamento ainda podem falhar no mundo real.

Nesta explicação, nos aprofundamos nos detalhes técnicos sobre a troca de viés-variância e erro de previsão, criando um quadro de como construir o modelo correto para um conjunto de dados. 

Troca ilustrada

Em modelos preditivos, como a regressão linear ou o K-vizinhos mais próximos (KNN), o viés e a variância são interdependentes:

  • O viés mede o quão longe, em média, as previsões de um modelo estão dos valores da verdade absoluta. Modelos de alto viés tendem a fazer fortes suposições sobre a forma dos dados e causar underfitting. Um modelo excessivamente simplista tende a ter alto viés e baixa variância — um modelo como esse tende a ter altos erros de treinamento e altos erros de previsão.  
  • A variância mede o quanto as previsões de um modelo mudam com diferentes conjuntos de dados de treinamento. Modelos de alta variância são sensíveis ao ruído nos dados de treinamento e causam overfitting. Um modelo com arquitetura complexa e mais parâmetros tende a ter alta variância e baixo viés.
Diagrama de variância de viés

Nesta explicação, usamos a regressão linear como exemplo para ilustrar como a complexidade do modelo afeta o viés e a variância nos resultados previstos. Lembre-se de que, na regressão linear, a métrica de avaliação é definida pelo erro quadrático médio (MSE): o erro quadrático médio da verdade absoluta e do valor previsto. Um alto MSE indica um modelo mal ajustado nos dados de treinamento, enquanto um baixo MSE indica um modelo bem ajustado nos dados de treinamento.

O MSE é definido como:

 MSE=(ypred-yactual)2  

Ou expresso como uma soma residual dos quadrados:

 RSS=i=1n(yi-yi^)2

Digamos que recebemos um conjunto de valores de entrada X e valores de saída correspondentes Y. A verdadeira relação entre X e Y é não linear — pense em uma forma de U suave e curva como uma onda senoidal. Mas não conhecemos essa função subjacente. Em vez disso, observamos pontos de dados ruidosos que a aproximam.

Gráfico de dados ruidosos

Agora, queremos construir um modelo para prever Y usando X.

Para ilustrar como a complexidade do modelo afeta o desempenho, podemos tentar ajustar três modelos de complexidade crescente: um modelo linear, um modelo polinomial moderadamente complexo e um modelo polinomial muito complexo.

Esse componente de ruído introduz aleatoriedade, imitando dados do mundo real. Um polinômio é uma expressão matemática que envolve uma soma de potências de X multiplicada por coeficientes.

Por exemplo, um polinômio de grau 1 é:

 y^=β0+β1x

O modelo é representado como uma linha reta:

Grau polinomial 1

Esse modelo é muito simples e faz uma forte suposição de que a relação entre X e Y é linear. Mas os dados claramente têm um padrão curvado. Consequentemente:

  • O viés é alto: o modelo não consegue capturar o padrão não linear nos dados.
  • A variância é baixa: é estável e não muda muito com conjuntos de dados diferentes.
  • MSE (erro quadrático médio): 0,2929. Isso é relativamente alto.

Este é um exemplo de underfitting: o modelo é simples demais para aprender a estrutura verdadeira.

Um polinômio de grau 4 é:

 y^=β0+β1x+β2x2+β3x3+β4x4

Grau polinomial 4

Agora, usamos um polinômio que inclui potências de X até  x4 :

 y^=β0+β1x+β2x2+β3x3+β4x4

Esse modelo é complexo o suficiente para capturar a curva dos dados sem ser muito sensível ao ruído.

  • O viés é moderado: o modelo pode representar a função verdadeira bastante bem.
  • A variância é moderada: ele não reage de forma exagerada a pequenas flutuações nos dados.
  • MSE: cerca de 0,0714, inferior ao grau 1.

Esse é o modelo com melhor desempenho em nosso exemplo — ele generaliza bem.

Um polinômio de grau 25 é:

 y^=i=025βixi

Grau polinomial 25

Com 26 parâmetros, o modelo tem alta flexibilidade e se ajusta muito de perto aos dados de treinamento, mesmo o ruído aleatório. A curva parece muito irregular e causa overfitting dos dados.

  • O viés é baixo: é flexível o suficiente para seguir o sinal.
  • A variância é alta: reage fortemente ao ruído e mudaria significativamente com uma nova amostra de dados.
  •  MSE: cerca de 0,059 — inferior ao grau 4 porque memorizou demais o padrão dos dados de treinamento.

Esse é um exemplo de overfitting — o modelo aprende o ruído junto com o sinal e não generaliza bem para os dados não vistos.

Quanto mais alto o grau, mais "assíncrona" a curva se torna e mais ela pode se adaptar aos dados de treinamento — incluindo sinal e ruído.

No exemplo acima, podemos ver que a complexidade do modelo e o número de parâmetros afetam diretamente a troca de viés-variância. Conforme o modelo se torna mais complexo e tem mais parâmetros, a variabilidade nos valores previstos no conjunto de testes aumenta, levando a uma alta variância. No entanto, à medida que o modelo é simplificado e o número de parâmetros diminui, o  bias2  na previsão aumenta.

Portanto, quando construímos um modelo de aprendizado de máquina, nosso objetivo é simultaneamente viés e variância para alcançar o desempenho ideal do modelo. Essa otimização não só gera bons resultados a partir do treinamento, mas também generaliza bem os dados de testes não vistos. Na próxima seção, nos aprofundaremos nos detalhes matemáticos de como o cálculo de viés e variância é derivado e por que o modelo de aprendizado de máquina contém incertezas compostas por viés, variância e erro irredutível.

Troca entre viés e variância

Viés e variância na prática

Compreender como o viés e a variância se manifestam em modelos de aprendizado de máquina do mundo real é essencial para diagnosticar e melhorar o desempenho. Na seção a seguir, nos aprofundamos em detalhes sobre como um modelo de alto viés e alta variância levam a desempenhos potencialmente ruins em um sistema de IA.

Modelos de alto viés

Modelos de alto viés normalmente são muito simplistas para capturar os padrões verdadeiros dos dados. Eles ajustam o conjunto de treinamento, levando a uma baixa precisão de treinamento e teste. Um exemplo clássico é a regressão linear aplicada aos dados não lineares mostrados anteriormente. Se a verdadeira relação entre as funcionalidades e o alvo for quadrática ou senoidal e encaixarmos uma linha reta, o modelo não terá capacidade de capturar a estrutura subjacente.

Sintoma: alto erro nos conjuntos de treinamento e testes. O viés se torna grande e leva a um desempenho ruim tanto no conjunto de treinamento quanto no conjunto de testes.

Modelos de alta variância

Modelos de alta variância são excessivamente flexíveis e se ajustam muito de perto aos dados de treinamento, incluindo o ruído. Eles ajustam demais o conjunto de treinamento e não conseguem generalizar para dados não vistos, levando ao overfitting e a previsões com variabilidade anormalmente alta.

Exemplos comuns:

Sintoma: baixo erro de treinamento, mas alto erro de testes. As previsões variam significativamente em diferentes conjuntos de dados. O termo de variância domina o erro, indicando que o modelo é instável em relação às mudanças nos dados de treinamento.

Diagnóstico de viés e variância

Algumas ferramentas práticas para diagnosticar esses erros incluem:

Curvas de aprendizado (mostradas antes na seção I):

  • Gráfico de erros de treinamento e validação versus tamanho do conjunto de treinamento.
  • Se ambos os erros forem altos e convergirem, isso indica um alto viés.

Se o erro de treinamento for baixo e o erro de validação for alto, com uma lacuna que não fecha, isso sugere alta variância. A validação cruzada pode ser aplicada para diagnosticar o desempenho do modelo e calcular a média dos erros do conjunto de treinamento selecionado.

  • Ajuda a estimar o erro de generalização.
  • Útil para comparar modelos ou hiperparâmetros de forma consciente da variância.

Consideração do mundo real

Na prática, controlar a troca de viés-variância envolve menos a escolha do modelo "perfeito" e mais o gerenciamento da complexidade por meio de várias estratégias. Podemos aplicar várias técnicas para controlar a variabilidade nos erros de previsão, aplicando algumas das seguintes estratégias:

Regularização

Regularização refere-se a um conjunto de técnicas usadas para restringir ou penalizar a complexidade de um modelo para melhorar a generalização, ou seja, o desempenho em dados não vistos. Em termos matemáticos, a regularização modifica a função de perda original ao adicionar um termo de penalidade que desencoraja a complexidade (geralmente na forma de grandes pesos ou modelos excessivamente flexíveis).

O objetivo é evitar o overfitting, especialmente ao lidar com dados de alta dimensão ou limitados. Ao treinar um modelo de aprendizado de máquina, normalmente minimizamos uma função de perda, como o erro quadrático médio (MSE).

 RSS=∑i=1n(yi-yi^)2

Com a regularização, adicionamos uma penalidade a esse objetivo. 

Regularização L2 (regressão ridge)

LossRidge=∑i=1n(yi-yi^)2+λ*Penalty

Aqui,

 λ  é um hiperparâmetro que controla a troca entre ajustar os dados de treinamento e manter o modelo simples.

Acrescenta uma penalidade proporcional ao quadrado da magnitude dos coeficientes. Isso desencoraja pesos excessivamente grandes, reduzindo a variância. O termo de penalidade garante que as funcionalidades com baixo poder preditivo tenham valores baixos, reduzindo efetivamente os coeficientes dos parâmetros.

Regularização L1 (lasso)

Incentiva a dispersão:

 Losslasso=∑i=1n(yi-ŷi)2+λ∑j=1p|βj|

Pode eliminar totalmente funcionalidades irrelevantes, simplificando o modelo e, assim, reduzindo a variância. O termo de penalidade USD{\sum_{j=1}^{p} |\beta_j}USD garante que as funcionalidades insignificantes sejam reduzidas a zero, eliminando completamente as funcionalidades de forma eficaz.

Métodos de conjunto

Os métodos de conjunto combinam vários modelos para reduzir o erro, calculando a média do desvio da previsão individual. Envolve combinar ou empilhar vários modelos de alta variância para obter a melhor precisão de previsão. Alguns exemplos são:

- O bagging (por exemplo, random forests) reduz a variância calculando a média de vários estimadores de alta variância treinados com diferentes subconjuntos de dados.

- O boosting (por exemplo, xgBoost, AdaBoost) constrói um aprendiz forte corrigindo sequencialmente os erros de modelos anteriores, muitas vezes equilibrando a redução de viés ou variância com um ajuste cuidadoso.

Ajuste de hiperparâmetros e seleção de modelos

A complexidade do modelo e a força de regularização geralmente são controladas por meio de hiperparâmetros. Técnicas como pesquisa em grade ou pesquisa aleatória com validação cruzada ou otimização bayesiana podem ajudar a encontrar um modelo que equilibre viés e variância em dados retidos.

Aplicações à IA moderna

A troca de viés-variância não é apenas teórica. Ela desempenha um papel crítico em sistemas de deep learning e IA de grande escala. Na era moderna da IA, a escolha da arquitetura de rede neural desempenha um papel crítico no gerenciamento da troca de viés-variância. Veja como duas arquiteturas fundamentais (CNNs e RNNs) lidam com esse equilíbrio na prática.

1. Redes neurais convolucionais (CNNs): CNNs são projetadas especificamente para dados com estrutura espacial, mais comumente imagens. Suas funcionalidades arquitetônicas permitem que elas reduzam a variância, mantendo expressividade suficiente para deixar o viés baixo.

  • Campos receptivos locais (convoluções): em vez de conectar cada pixel de entrada a cada neurônio de saída (como em redes totalmente conectadas), as CNNs usam pequenos filtros (kernels) que deslizam pelo entrada. Isso reforça a suposição de que as funcionalidades locais são úteis — um viés em direção à localidade espacial.
  • Compartilhamento de peso: cada filtro (ou kernel) é reutilizado em toda a imagem, reduzindo drasticamente o número de parâmetros treináveis. Isso limita o overfitting, reduzindo a variância, mas introduz algum viés ao restringir a flexibilidade do modelo.
  • Camadas de agrupamento (por exemplo, agrupamento máximo): essas camadas resumem os mapas de funcionalidades e introduzem a invariância de tradução. Embora reduza a variância ao ignorar pequenas flutuações, pode aumentar o viés ao descartar alguns detalhes potencialmente úteis.
  • Aprendizado de funcionalidade hierárquica: as CNNs aprendem a partir de edges de baixo nível para camadas de alto nível, camada por camada. Esse viés indutivo em camadas permite a generalização com menos exemplos — útil em domínios com escassez de dados.

2. Redes neurais recorrentes (RNNs): as RNNs são adaptadas a dados sequenciais, como texto, fala ou séries temporais, onde as saídas atuais dependem de elementos anteriores. Seu projeto tenta equilibrar dependências de longo prazo (que reduzem o viés) e a estabilidade do treinamento (que controla a variância).

  • Compartilhamento de peso ao longo do tempo: as RNNs usam os mesmos parâmetros em cada etapa de tempo, introduzindo um viés no sentido da estacionariedade nas sequências (supondo que o mesmo tipo de padrões se repitam), mas reduzindo significativamente a variância ao limitar o crescimento de parâmetros.
  • Memória de entradas anteriores: as RNNs mantêm um estado oculto h_t que resume as informações passadas. Em teoria, esse estado permite que o modelo reduza o viés ao modelar dependências de longo alcance. No entanto, na prática, gradientes de desaparecimento muitas vezes os impedem de aprender relacionamentos de longo prazo de forma eficaz, aumentando o viés.
  • Variantes como memória de curto longo prazo (LSTM) e unidade recorrente fechada (GRU): essas arquiteturas mitigam os gradientes de desaparecimento usando portas, permitindo uma melhor retenção de memória ao longo do tempo. Como resultado, podem reduzir ainda mais o viés sem um grande aumento na variância.
  • Estabilidade de treinamento e overfitting: RNNs profundas (muitas camadas ou sequências longas) são propensas a alta variância — ruído de overfitting em sequências de treinamento. Técnicas como abandono, corte de gradiente e organização de sequências são frequentemente usadas para controlar isso.

Técnicas que controlam a troca

  • Abandono: o desligamento aleatório de neurônios durante o treinamento adiciona ruído, forçando a rede a aprender representações redundantes — reduzindo o overfitting e, portanto, a variância.
  • Normalização de lotes: ajuda a estabilizar e acelerar o treinamento, e muitas vezes reduz a variância ao suavizar a otimização.
  • Parada precoce: evita o overfitting ao interromper o treinamento quando a perda de validação começa a aumentar.
  • Aprendizado por transferência: modelos pré-treinados em grandes conjuntos de dados geralmente generalizam melhor com menos parâmetros para treinar, reduzindo a variância em conjuntos de dados pequenos.
  • Leis de escala e observações modernas: descobertas recentes em grandes modelos (como os transformadores) mostram que aumentar o tamanho dos dados, da computação e do modelo reduz o erro de teste — sugerindo que o viés diminui mais rapidamente do que a variância aumenta em modelos de alta capacidade. No entanto, a má regularização ou dados insuficientes ainda podem levar ao overfitting.

Fundamentos teóricos

Vamos nos aprofundar nos fundamentos matemáticos da troca de viés-variância. Lembre-se do exemplo anterior: nosso objetivo é reduzir o erro total de valores previstos e valores reais. Esse erro contém três componentes: viés, variância e erro irredutível. Podemos analisar o erro de previsão ao quadrado esperado de um modelo:

 f^(x)

em comparação com a função verdadeira:  f(x),

onde f^(x)  é aprendido a partir de um conjunto de dados de treinamento  D , e  x   é a função verdadeira (desconhecida).

Seja:

 y=f(x)+ε,ε∼N(0,σ2)

isso significa para a função  y=f(x)+ε , o erro (denotado por ε ) é normalmente distribuído, com uma média de 0 e uma variância de  σ2 ,  σ denota o desvio padrão da distribuição

 f^(x)  é o valor previsto do modelo na entrada  x

A expectativa (ou média) é assumida em diferentes conjuntos de dados de treinamento  D  e ruído  ε . O símbolo  E  é utilizado para expressar "expectativa", ou "valor esperado", que é um valor verdadeiro da média da distribuição

Estamos interessados no erro esperado da previsão em um único ponto  x :

 ED,ε[(y-f^(x))2]

Substituto:

 y=f(x)+ε

Assim, a expressão se torna:

 =ED,ε[(f(x)+ε-f^(x))2]

Expandindo o quadrado:

 $=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$

Divida a expectativa usando linearidade (linearidade é um conceito algébrico simples, por exemplo,  E[A+B]=E[A]+E[B]):

 =ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]

Agora, já que:

 E[ε]=0⇒E[(f(x)-f^(x))ε]=0

 E[ε2]=σ2

Obtemos:

 ED[(f(x)-f^(x))2]+σ2

Decompondo o primeiro termo:

Adicione e subtraia 

ED[f^(x)] :

 ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2]

Seja:

 a=f(x)-ED[f^(x)]

 b=ED[f^(x)]-f^(x)

Então:

 ED[(a+b)2]=a2+ED[b2]+2aED[b]

Como  ED[b]=0 , o termo cruzado desaparece, e obtemos:

 =(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]

Decomposição final de viés-variância:

ED,ε[(y-f^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]+σ2

Aqui, o primeiro termo é o  viés2 , o segundo termo é a  variância  e o terceiro termo é o erro irredutível

Isso mostra que o erro total esperado da previsão pode ser decomposto em:

Viés²: erro decorrente de suposições errôneas no modelo (por exemplo, modelo com underfitting e excessivamente simples)

Variância: erro decorrente da sensibilidade aos dados de treinamento (por exemplo, modelo overfitted e excessivamente complexo)

- Ruído irredutível: aleatoriedade e erros inevitáveis nas observações

Conclusão e leitura adicional

Em resumo, o viés e a variância são duas fontes fundamentais de erro de previsão no aprendizado de máquina. Compreender essa troca não é apenas um exercício teórico; ela molda diretamente a forma como projetamos, treinamos e implementamos modelos de ML na prática.

Quer você esteja escolhendo entre um modelo linear simples ou uma rede neural profunda complexa, reconhecer o equilíbrio entre underfitting e overfitting é essencial para a criação de sistemas de IA robustos. Embora tenhamos focado no erro quadrático médio (MSE) como nossa função de perda, essa troca se aplica a uma ampla gama de distribuições e métricas de erro, tornando-o uma consideração universal em todo o aprendizado supervisionado.

Nos últimos anos, os pesquisadores observaram comportamentos intrigantes em modelos grandes e superparametrizados, como redes neurais profundas. Apesar de sua alta capacidade, esses modelos geralmente generalizam bem, mesmo quando se ajustam perfeitamente aos dados de treinamento — desafiando, aparentemente, o framework tradicional de viés-variância.

Esse comportamento enigmático é explorado em trabalhos como "Reconciling modern machine learning and the bias-variance trade-off", de Belkin et al. (2019), que introduz o conceito de dupla descida, e "A universal law of robustness via isoperimetry", de Bubeck et al., que propõe uma interpretação geométrica da generalização.

À medida que construímos sistemas de IA mais poderosos, uma compreensão mais profunda dessas dinâmicas se torna essencial — não apenas para otimizar o desempenho, mas também para interpretar o comportamento do modelo, garantindo a equidade e promovendo práticas de IA responsáveis.

Referências

[1]: Hastie, T., Tibshirani, R. e Friedman, J. The Elements of Statistical Learning. Springer.

[2]: James, G., Witten, D., Hastie, T. e Tibshirani, R. An Introduction to Statistical Learning. Springer.

[3]: Belkin, M., Hsu, D., Ma, S. e Mandal, S. (2019). "Reconciling modern machine learning and the bias-variance trade-off."  Proceedings of the National Academy of Sciences*, 116(32), 15849–15854.

[4]: Bubeck, S., Lee, Y. T., Price, E. e Razenshteyn, I. (2021). "A universal law of robustness via isoperimetry." Advances in Neural Information Processing Systems, 34, 10167–10179.