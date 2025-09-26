O principal diferenciador entre o gradiente descendente tradicional e o gradiente descendente estocástico é que o SGD atualiza os pesos do modelo usando um único exemplo de treinamento de cada vez. O exemplo é escolhido aleatoriamente em cada iteração.1 O gradiente descendente usa todo o conjunto de dados de treinamento para calcular o gradiente antes de cada atualização de parâmetros. Essa diferença no uso de dados é o que torna o SGD muito menos computacionalmente caro e mais fácil de escalar para grandes conjuntos de dados. Alternativamente, o comportamento de convergência do SGD é mais ruidoso do que o ruído do GD porque o ponto de dados de um exemplo pode não ser uma boa representação do conjunto de dados. Essa deturpação atualiza os pontos em uma direção ligeiramente "errada". No entanto, essa aleatoriedade é o que torna o SGD mais rápido e, às vezes, melhor para problemas de otimização não convexa, pois ele pode escapar de mínimos locais rasos, ou pontos de sela.

Estritamente falando, o SGD foi originalmente definido para atualizar parâmetros usando exatamente uma amostra de treinamento de cada vez. No uso moderno, o termo "SGD" é usado livremente para significar "minibatch gradiente descendente", uma variante do GD em que pequenos lotes de dados de treinamento são usados de cada vez. A principal vantagem de usar subconjuntos de dados em vez de uma amostra singular é um nível de ruído mais baixo, porque o gradiente é igual à média das perdas do minibatch. Por esse motivo, o gradiente descendente do minibatch é o padrão no deep learning. Ao contrário, o SGD rigoroso raramente é usado na prática. Esses termos são confundidos até pela maioria das bibliotecas de aprendizado de máquina, como PyTorch e TensorFlow; os otimizadores são frequentemente chamados de "SGD", embora normalmente usem minilotes.

A ilustração a seguir fornece uma descrição mais clara de como o aumento do tamanho da amostra de dados de treinamento reduz as oscilações e o "ruído".