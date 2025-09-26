Il principale elemento di differenziazione tra la discesa del gradiente tradizionale e la discesa del gradiente stocastico è che SGD aggiorna i pesi del modello utilizzando un singolo esempio di addestramento alla volta. L'esempio viene scelto in modo casuale a ogni iterazione.1 La discesa del gradiente utilizza l'intero set di dati di addestramento per calcolare il gradiente prima di ogni aggiornamento dei parametri. Questa differenza nell'utilizzo dei dati è ciò che rende SGD molto meno costoso dal punto di vista computazionale e più facile da scalare per set di dati di grandi dimensioni. In alternativa, il comportamento di convergenza di SGD è più rumoroso del rumore di GD perché l'unico datapoint di esempio potrebbe non essere una buona rappresentazione del set di dati. Questa rappresentazione errata aggiorna i punti in una direzione leggermente "sbagliata". Tuttavia, questa casualità è ciò che rende SGD più veloce e talvolta migliore per i problemi di ottimizzazione non convessa perché può sfuggire ai minimi locali poco profondi o ai punti di sella.

In senso stretto, SGD è stato originariamente definito per aggiornare i parametri utilizzando esattamente un campione di allenamento alla volta. Nell'uso moderno, il termine "SGD" è usato in modo approssimativo per indicare "discesa del gradiente in minibatch", una variante di GD in cui vengono utilizzati piccoli batch di dati di addestramento alla volta. Il vantaggio principale dell'utilizzo di sottoinsiemi di dati piuttosto che di un singolo campione è un livello di rumore inferiore, perché il gradiente è uguale alla media delle perdite dal minibatch. Per questo motivo, la discesa del gradiente in minibatch è l'impostazione predefinita nel deep learning. Al contrario, l'SGD rigido è raramente utilizzato nella pratica. Inoltre, questi termini sono confusi dalla maggior parte delle librerie di machine learning come PyTorch e TensorFlow: gli ottimizzatori sono spesso chiamati "SGD", anche se in genere utilizzano minibatch.

La seguente illustrazione fornisce una descrizione più chiara di come l'aumento della dimensione del campione dei dati di addestramento riduca le oscillazioni e il "rumore".