يستفيد التدريب الموزع من تقنيات التعلم الآلي الموزع لنشر تدريب النماذج عبر الأجهزة. على سبيل المثال، غالبًا ما تستخدم هذه التقنية مع الشبكات العصبية. عندما تكون الشبكة أو مجموعة البيانات أو كلتاهما معًا كبيرة جدًا بالنسبة لمعالج واحد، فإن التدريب الموزع ينشر أعباء العمل على عدة خوادم أو وحدات معالجة رسومات أو أجهزة متعددة.
خوارزمية الانحدار العشوائي التدريجي (SGD) هي خوارزمية تعلُّم تعمل على تقسيم مجموعة البيانات إلى دفعات صغيرة، وتحسب تدرّج دالة الخسارة بعد كل دفعة. يؤدي استخدام دفعات صغيرة بدلًا من مجموعة البيانات الكاملة إلى جَعْل التدريب أكثر كفاءة.
تقيس دالة الخسارة مقدار الخطأ في تنبؤات النموذج، ويكمن هدف خوارزمية الانحدار العشوائي التدريجي (SGD) في النزول على طول التدرج لتقليل قيمة الدالة إلى أدنى حد ممكن. كما هو الحال مع تدريب النموذج القياسي، تُعَد عملية التدريب مكتملة عندما يصل النموذج إلى التقارب: عندما تقلل خوارزمية SGD بنجاح من قيمة الدالة.
تعالج العقد الدفعات المصغّرة بالتوازي، وذلك ممكن لأن كل دفعة تتم معالجتها بشكل مستقل عن الأخرى ضمن كل دورة تكرار. تحسب كل عقدة تدرّجها، ثم تدفع قيمة التدرّج المحدَّثة إلى العُقد الأخرى في الشبكة. العُقد العاملة الأخرى تنفِّذ التحديثات التي تتلقاها في نماذجها الخاصة، ما يساعد على ضمان بقاء جميع نسخ النموذج متطابقة طوال عملية التدريب.
دالة AllReduce هي عملية اتصال جماعي تُتيح لكل عقدة مشاركة نتائجها ونشر النتائج المجمّعة عبر الشبكة. تُتيح AllReduce لجميع العُقد مزامنة تحديثات مَعلمات النموذج والحفاظ على الاتساق. تم استخدام AllReduce منذ فترة طويلة في الحوسبة عالية الأداء، وقد أصبحت شائعة في أطر عمل التعلم الآلي مثل Horovod.
يمكن تشغيل SGD بشكل متزامن أو غير متزامن. يعمل SGD المتزامن على تحديث جميع العُقد في الوقت نفسه، ما يحافظ على الاتساق على حساب التأخير المحتمل إذا تأخرت بعض العُقد. يعمل SGD غير المتزامن بتحديث المعلمات بمجرد أن يكون التحديث جاهزًا، ولكن قد تتلقى بعض العُقد تحديثات لا تتضمن أحدث القيم.
من خلال تقليل الموارد الحسابية المطلوبة لكل جهاز، يمكن للتدريب الموزع تسريع أوقات التدريب. ونظرًا لأنه كثيف الحوسبة، يُعَد التدريب إحدى حالات الاستخدام الأساسية للتعلم الآلي الموزع.