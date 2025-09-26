Perbedaan utama antara penurunan gradien tradisional dan penurunan gradien stokastik adalah bahwa SGD memperbarui bobot model dengan menggunakan satu contoh pelatihan pada satu waktu. Contoh dipilih secara acak pada setiap iterasi.1 Penurunan gradien menggunakan seluruh kumpulan data pelatihan untuk menghitung gradien sebelum setiap pembaruan parameter. Perbedaan dalam penggunaan data inilah yang membuat SGD jauh lebih murah secara komputasi dan lebih mudah untuk diskalakan bagi kumpulan data yang besar. Atau, perilaku konvergensi SGD lebih tidak akurat daripada ketidakakuratan GD karena satu titik data contoh mungkin bukan representasi yang baik dari kumpulan data. Penyajian yang salah ini memperbarui poin ke arah yang agak “salah”. Namun, keacakan inilah yang membuat SGD lebih cepat dan terkadang lebih baik untuk masalah pengoptimalan bukan konveks karena dapat menghindari minimum lokal dangkal atau titik pelana.

Sebenarnya, SGD pada awalnya didefinisikan untuk memperbarui parameter dengan menggunakan tepat satu sampel pelatihan pada satu waktu. Dalam penggunaan modern, istilah "SGD" digunakan secara longgar yang berarti "penurunan gradien batch kecil," sebuah varian dari GD di mana sejumlah kecil data pelatihan digunakan pada satu waktu. Keuntungan utama menggunakan bagian data daripada sampel tunggal adalah tingkat ketidakakuratan yang lebih rendah, karena gradiennya sama dengan rata-rata kesalahan dari batch kecil. Karena alasan inilah penurunan gradien batch kecil merupakan default dalam pembelajaran mendalam. Sebaliknya, SGD ketat jarang digunakan dalam praktik. Semua istilah ini bahkan dirancukan oleh sebagian besar machine learning seperti PyTorch dan TensorFlow; pengoptimal sering disebut "SGD," meskipun mereka biasanya menggunakan batch mini.

Ilustrasi berikut ini memberikan gambaran yang lebih jelas mengenai bagaimana meningkatkan ukuran sampel data pelatihan akan mengurangi osilasi dan "ketidakakuratan".