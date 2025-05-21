Vamos nos aprofundar nos fundamentos matemáticos da troca de viés-variância. Lembre-se do exemplo anterior: nosso objetivo é reduzir o erro total de valores previstos e valores reais. Esse erro contém três componentes: viés, variância e erro irredutível. Podemos analisar o erro de previsão ao quadrado esperado de um modelo:
f^(x)
em comparação com a função verdadeira: f(x),
onde f^(x) é aprendido a partir de um conjunto de dados de treinamento D , e x é a função verdadeira (desconhecida).
Seja:
y=f(x)+ε,ε∼N(0,σ2)
isso significa para a função y=f(x)+ε , o erro (denotado por ε ) é normalmente distribuído, com uma média de 0 e uma variância de σ2 , σ denota o desvio padrão da distribuição
f^(x) é o valor previsto do modelo na entrada x
A expectativa (ou média) é assumida em diferentes conjuntos de dados de treinamento D e ruído ε . O símbolo E é utilizado para expressar "expectativa", ou "valor esperado", que é um valor verdadeiro da média da distribuição
Estamos interessados no erro esperado da previsão em um único ponto x :
ED,ε[(y-f^(x))2]
Substituto:
y=f(x)+ε
Assim, a expressão se torna:
=ED,ε[(f(x)+ε-f^(x))2]
Expandindo o quadrado:
$=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$
Divida a expectativa usando linearidade (linearidade é um conceito algébrico simples, por exemplo, E[A+B]=E[A]+E[B]):
=ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]
Agora, já que:
E[ε]=0⇒E[(f(x)-f^(x))ε]=0
E[ε2]=σ2
Obtemos:
ED[(f(x)-f^(x))2]+σ2