Dimulai dari lapisan terakhir, 'backward pass' membedakan fungsi kerugian untuk menghitung bagaimana setiap parameter individu jaringan berkontribusi terhadap kesalahan keseluruhan untuk satu input.
Kembali ke contoh model pengklasifikasi sebelumnya, kita akan mulai dengan 5 neuron di lapisan terakhir, yang akan kita sebut lapisan L. Nilai softmax dari setiap neuron hasil mewakili kemungkinan, dari 1, bahwa sebuah input termasuk dalam kategori. Dalam model yang terlatih dengan sempurna, neuron yang mewakili klasifikasi yang benar akan memiliki nilai hasil mendekati 1 dan neuron lainnya akan memiliki nilai hasil mendekati 0.
Untuk saat ini, kita akan fokus pada unit hasil yang mewakili prediksi yang benar, yang akan kita sebut Lc. Fungsi aktivasi Lc adalah fungsi gabungan, yang berisi banyak fungsi aktivasi bersarang dari seluruh jaringan neural dari lapisan input ke lapisan hasil. Meminimalkan fungsi kerugian akan memerlukan penyesuaian di seluruh jaringan yang membuat hasil dari fungsi aktivasi Lc mendekati 1.
Untuk melakukannya, kita perlu tahu bagaimana perubahan apa pun di layer sebelumnya akan mengubah hasil Lcsendiri. Dengan kata lain, kita perlu menemukan turunan parsial dari fungsi aktivasi Lc.
Hasil dari fungsi aktivasi Lcbergantung pada kontribusi yang diterima dari neuron-neuron di lapisan kedua dari belakang, yang akan kita sebut sebagai lapisan L-1. Salah satu cara untuk mengubah hasil Lc adalah dengan mengubah bobot antara neuron-neuron di L-1 dan Lc. Dengan menghitung turunan parsial dari setiap bobot L-1 sehubungan dengan bobot lainnya, kita dapat melihat bagaimana meningkatkan atau mengurangi salah satu dari mereka akan membawa hasil dari Lc lebih dekat ke (atau lebih jauh dari) 1.
Tapi itu bukan satu-satunya cara untuk mengubah hasil Lc. Kontribusi yang diterima Lc dari neuron L-1 tidak hanya ditentukan oleh bobot yang diterapkan pada nilai hasil L-1, tetapi juga oleh nilai hasil aktual (pra-bobot) itu sendiri. Nilai hasil neuron L-1 , pada gilirannya, dipengaruhi oleh bobot yang diterapkan pada input yang mereka terima dari L-2. Jadi kita dapat mendiferensiasikan fungsi aktivasi di L-1 untuk menemukan turunan parsial dari bobot yang diterapkan pada kontribusi L-2. Derivatif parsial ini menunjukkan kepada kita bagaimana setiap perubahan pada bobot L-2 akan memengaruhi hasil di L-1, yang kemudian akan memengaruhi nilai hasil Lc dan dengan demikian memengaruhi fungsi kerugian.
Dengan logika yang sama, kita juga dapat memengaruhi nilai hasil yang diterima neuron L-1 dari neuron L-2 dengan menyesuaikan kontribusi yang diterima neuron L-2 dari neuron di L-3. Jadi kita menemukan turunan parsial di L-3, dan seterusnya, secara rekursif mengulangi proses ini sampai kita mencapai lapisan input. Setelah selesai, kita akan mendapatkan gradien dari fungsi kerugian: vektor turunan parsialnya untuk setiap bobot dan parameter bias dalam jaringan.
Kami sekarang telah menyelesaikan forward pass dan backward pass untuk satu contoh pelatihan. Namun, tujuan kami adalah melatih model untuk menggeneralisasi dengan baik ke input baru. Untuk melakukan hal tersebut, diperlukan pelatihan pada sejumlah besar sampel yang mencerminkan keragaman dan rentang input yang akan ditugaskan oleh model untuk membuat prediksi setelah pelatihan.