마지막 계층에서 시작하는 '역방향 패스'는 손실 함수를 미분하여 네트워크의 각 매개변수가 단일 입력에 대한 전체 오차에 어떻게 기여하는지 계산합니다.

분류기 모델의 이전 예로 돌아가서, 최종 계층에 있는 5개의 뉴런으로 시작하여 레이어 L이라고 합니다 . 각 출력 뉴런의 소프트맥스 값은 입력이 해당 범주에 속할 가능성을 1점 만점으로 나타냅니다. 완벽하게 학습된 모델에서 올바른 분류를 나타내는 뉴런은 1에 가까운 출력값을 가지며, 다른 뉴런은 0에 가까운 출력값을 갖습니다.

지금은 L c 라고 부르는, 정확한 예측을 나타내는 출력 단위에 초점을 맞춥니다. L c 의 활성화 함수는 입력 계층에서 출력 계층까지 신경망 전체에 걸쳐 많은 중첩 활성화 함수를 포함하는 복합 함수입니다. 손실 함수를 최소화하려면 L c 의 활성화 함수 출력값을 1에 가깝게 만들도록 네트워크 전체를 조정해야 합니다.

이를 위해 이전 계층의 변경 사항이 L c 자체 출력을 어떻게 변경하는지 알아야 합니다. 즉, L c 활성화 함수의 편도함수를 구해야 합니다.

L c 의 활성화 함수의 출력은 L-1이라고 부르는 끝에서 두 번째 계층의 뉴런으로부터 받는 기여도에 따라 달라집니다.L c 의 출력을 변경하는 한 가지 방법은 L-1과 L c 의 뉴런 간 가중치를 변경하는 것입니다. 다른 가중치에 대한 각 L-1 가중치의 편미분을 계산하면, 가중치 하나를 증가 또는 감소시켰을 때 1에 가까운(또는 1에서 먼) L c 의 출력 값을 내는 방법을 알 수 있습니다.

그러나 L c 의 출력을 변경하는 방법은 이뿐만이 아닙니다. L c 가 L-1 뉴런으로부터 받는 기여도는 L-1 의 출력 값에 적용된 가중치만이 아니라 실제(가중치 적용 전) 출력 값 자체에 의해서도 결정됩니다. L-1 뉴런의 출력 값은 결과적으로, L-2에서 받은 입력 값에 적용된 가중치의 영향을 받습니다.따라서 L-1 의 활성화 함수를 미분하여 L-2의 기여도에 적용된 가중치의 편도함수를 찾을 수 있습니다. 이 편도함수는 L-2 가중치에 대한 변화가 L-1의 출력에 어떤 영향을 미치는지 보여주며, 이는 결과적으로 L c 의 출력 값에 영향을 미치고 이에 따라 손실 함수에 영향을 미칩니다.

동일한 논리로 L-2 뉴런이 L-3의 뉴런으로부터 받는 기여도를 조정하여 L-1 뉴런이 L-2 뉴런으로부터 받는 출력 값에도 영향을 줄 수 있습니다. 따라서 L-3에서 편도함수를 구하고, 이런 식으로 입력 계층에 도달할 때까지 이 과정을 재귀적으로 반복합니다. 이 작업이 완료되면 네트워크의 각 가중치와 편향 매개변수에 대한 편도함수의 벡터인 손실 함수의 기울기가 생성됩니다.

이제 한 학습 예제에 대한 정방향 패스와 역방향 패스를 완료했습니다. 하지만 여기서 목표는 모델이 새로운 입력에 잘 일반화되도록 학습시키는 것입니다. 이를 위해서는 모델이 학습 후 예측을 수행해야 할 입력의 다양성과 범위를 반영하는 많은 수의 샘플에 대해 학습해야 합니다.