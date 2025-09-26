الفارق الرئيسي بين الانحدار التدرّجي التقليدي والانحدار التدرّجي العشوائي هو أن الانحدار التدرّجي العشوائي يحدِّث أوزان النموذج باستخدام مثال تدريبي واحد في كل مرة. يتم اختيار المثال بشكل عشوائي في كل تكرار.1 يستخدم الانحدار التدرّجي مجموعة البيانات بأكملها لحساب التدرّج قبل كل تحديث للمَعلمات. وهذا الاختلاف في استخدام البيانات هو ما يجعل SGD أقل تكلفة من الناحية الحسابية وأسهل في توسيع النطاق لمجموعات البيانات الكبيرة. بالمقابل، يكون سلوك التقارب في SGD أكثر ضوضاءً من GD، لأن المثال الواحد قد لا يمثّل مجموعة البيانات تمثيلًا جيدًا. يؤدي هذا التمثيل غير الدقيق إلى تحديث النقاط في اتجاه "خطأ" قليلًا. ومع ذلك، فإن هذه العشوائية هي ما يجعل SGD أسرع وأحيانًا أفضل في مسائل التحسين غير المحدبة، لأنها تمكِّنه من الهروب من الحد الأدنى المحلي الضحل أو نقاط السرج.

من الناحية الدقيقة، تم تعريف SGD في الأصل لتحديث المَعلمات باستخدام عينة تدريب واحدة بالضبط في كل مرة. في الاستخدام الحديث، يُستخدَم مصطلح "SGD" بشكل واسع للدلالة على "الانحدار التدرّجي على دفعات صغيرة"، وهو شكل من أشكال الانحدار التدرّجي يتم فيه استخدام دفعات صغيرة من بيانات التدريب في كل مرة. الميزة الرئيسية لاستخدام مجموعات فرعية من البيانات بدلًا من عينة واحدة هي انخفاض مستوى الضوضاء، لأن التدرّج يساوي متوسط الخسائر في الدفعة الصغيرة. لهذا السبب، يُعَد الانحدار التدرجي على دفعات صغيرة هو الإعداد الافتراضي في التعلم العميق. على العكس من ذلك، نادرًا ما يتم استخدام SGD الصارم في الممارسة العملية. غالبًا ما يتم خلط هذه المصطلحات في معظم مكتبات التعلم الآلي مثل PyTorch وTensorFlow؛ فالمحسِّنات يُطلق عليها غالبًا اسم "SGD"، رغم أنها عادةً تستخدم الدفعات الصغيرة.

يوضِّح الرسم التوضيحي التالي بشكل أكبر كيف تؤدي زيادة حجم عينة بيانات التدريب إلى تقليل التذبذبات و"الضوضاء".