من الطبقة النهائية، يقوم "التمرير العكسي" بتمييز دالة الخسارة لحساب كيف تساهم كل معلمة من معلمات الشبكة في الخطأ الكلي لإدخال واحد.
بالعودة إلى المثال السابق لنموذج المصنف، سنبدأ بالخلايا العصبية الـ 5 في الطبقة النهائية، والتي سنسميها الطبقة L. تمثل قيمة softmax لكل خلية عصبية ناتجة احتمالًأ، من أصل 1، أن ينتمي المدخل إلى فئتها. في نموذج مدرب بشكل مثالي، سيكون للخلية العصبية التي تمثل التصنيف الصحيح قيمة مخرجات قريبة من 1، بينما سيكون للخلية العصبية الأخرى قيمة مخرجات قريبة من 0.
في الوقت الحالي، سنركز على وحدة الخرج التي تمثل التنبؤ الصحيح، والتي سنسميها Lc. دالة تنشيط Lc هي دالة مركبة، تحتوي على العديد من وظائف التنشيط المتداخلة للشبكة العصبية بأكملها من طبقة الإدخال إلى طبقة الإخراج. قد يستلزم تقليل دالة الخسارة إجراء تعديلات في جميع أنحاء الشبكة تجعل ناتج دالة تنشيط Lc أقرب إلى 1.
للقيام بذلك، سنحتاج إلى معرفة كيف سيؤدي أي تغيير في الطبقات السابقة إلى تغيير مخرجات Lc نفسها. بعبارة أخرى، علينا إيجاد المشتقات الجزئية لدالة تنشيط Lc.
تعتمد مخرجات دالة تنشيط Lc على المساهمات التي تتلقاها من الخلايا العصبية في الطبقة قبل الأخيرة، والتي سنسميها الطبقة L-1. إحدى الطرق لتغيير مخرجات Lcهي تغيير الأوزان بين الخلايا العصبية في L-1 و Lc. من خلال حساب المشتق الجزئي لكل وزن L-1 فيما يتعلق بالأوزان الأخرى، يمكننا أن نرى كيف أن زيادة أو نقصان أي منها سيجعل ناتج Lc أقرب إلى (أو بعيدًا عن) 1.
ولكن هذه ليست الطريقة الوحيدة لتغيير إخراج Lc. يتم تحديد المساهمات التي تتلقاها Lc من الخلايا العصبية L-1 ليس من خلال الأوزان المطبَّقة على قيم إخراج L-1 فحسب، بل أيضًا من خلال قيم الإخراج الفعلية (قبل الوزن) نفسها. تتأثر قيم إخراجات الخلايا العصبية L-1 بدورها بالأوزان المطبقة على الإدخالات التي تتلقاها من L-2. لذا، يمكننا تمييز دوال التنشيط في L-1 لإيجاد المشتقات الجزئية للأوزان المطبَّقة على مساهمات L-2. توضح لنا هذه المشتقات الجزئية مدى تأثير أي تغيير يحدث في وزن L-2 في إخراجات L-1، وهو ما سيؤثر لاحقًا في قيمة إخراج Lc ومن ثَمَّ يؤثر في دالة الخسارة.
وبنفس المنطق، يمكننا أيضًا التأثير على قيم المخرجات التي تتلقاها الخلايا العصبية L-1 من الخلايا العصبية L-2 عن طريق تعديل المساهمات التي تتلقاها الخلايا العصبية L-2 من الخلايا العصبية في L-3. لذلك نجد المشتقات الجزئية في L-3 ، وهكذا، نكرر هذه العملية بشكل متكرر حتى نصل إلى طبقة الإدخال. عندما ننتهي، يكون لدينا تدرج دالة الخسارة: متجه المشتق الجزئي لكل وزن ومعلمة تحيز في الشبكة.
لقد أكملنا الآن تمريرة أمامية وخلفية لمثال تدريبي واحد. ومع ذلك، فإن هدفنا هو تدريب النموذج على التعميم بشكل جيد على المدخلات الجديدة. ويتطلب ذلك التدريب على عدد كبير من العينات التي تعكس تنوع المدخلات التي سيكلف بها النموذج ونطاقها وإجراء تنبؤات بعد التدريب.