从最后一层开始,“后向传递”对损失函数求导,以计算网络中每个参数对单个输入的整体误差的影响。

回到前面的分类器模型示例,我们将从最后一层的 5 个神经元开始,我们将其称为 L 层。每个输出神经元的 softmax 值表示输入属于其类别的可能性(满分为 1)。在完美训练的模型中,代表正确分类的神经元的输出值接近 1,其他神经元的输出值接近 0。

现在,我们会重点介绍表示正确预测的输出单元,而我们会将其称为 L c 。L c 的激活函数是一个复合函数,其中包含整个神经网络从输入层到输出层的众多嵌套激活函数。最小化损失函数需在整个网络中进行调整,以使 L c 的激活函数的输出更接近于 1。

为此,我们需知晓先前层中的任一更改会如何改变 L c 自己的输出。换言之,我们需找到 L c 的激活函数的偏导数。

L c 的激活函数的输出取决于它从倒数第二层(我们称之为 L-1 层)的神经元接收到的贡献。改变 L c 输出的方法之一是改变 L-1和L c 中神经元之间的权重。通过计算每个 L-1 权重相对于其他权重的偏导数,我们可以看到增加或减少其中任何一个权重将如何使 L c 的输出更接近(或更远离)1。

但这并不是改变L c 输出的唯一方法。L c 从 L-1 神经元获得的贡献不仅取决于应用于 L-1 输出值的权重,还取决于实际(预权重)输出值本身。反过来,L-1 神经元的输出值会受到应用于它们从 L-2 接收的输入的权重的影响。因此,我们可以对 L-1 中的激活函数进行微分,以找到应用于 L-2 贡献的权重的偏导数。这些偏导数将向我们展示 L-2 权重的任何变化会如何影响 L-1 的输出,进而影响 L c 的输出值,并因此影响损失函数。

按照同样的逻辑,我们还可以通过调整 L-2 神经元从 L-3 神经元接收到的贡献,来影响 L-1 神经元从 L-2 神经元接收的输出值。我们在 L-3 中找到偏导数,依此类推,递归重复这个过程,直到我们到达输入层。完成之后,我们会得到损失函数的梯度:网络中每个权重和偏差参数的偏导数向量。

现在,我们已完成单个训练示例的前向传播和反向传播。但是,我们的目标是训练模型以对新输入进行良好泛化。为此,需通过大量样本进行训练,而这些样本可反映输入的多样性和范围;系统会要求此模型在训练后对输入进行预测。