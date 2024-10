最終層から始めて、「バックワード・パス」によって損失関数を微分し、ネットワークの個々のパラメーターが単一の入力の全体的なエラーにどのように寄与するかを計算します。

先ほどの分類器モデルの例に戻ると、最終層の5つのニューロンから始めます。これをL層と呼びます。各出力ニューロンのソフトマックス値は、入力がそのカテゴリーに属する可能性(最大1)を表します。完璧にトレーニングされたモデルでは、正しい分類を表すニューロンの出力値は1に近くなり、他のニューロンの出力値は0に近くなります。

ここでは、正しい予測を表す出力ユニットに焦点を当てます。これをL c と呼びます。L c の活性化関数は、入力層から出力層までのニューラル・ネットワーク全体の多数のネストされた活性化関数を含む複合関数です。損失関数を最小化するには、ネットワーク全体で調整を行い、L c の活性化関数の出力を1に近づける必要があります。

そのためには、前のレイヤーの変更が L c 自身の出力をどのように変更するかを知る必要があります。言い換えれば、L c の活性化関数の偏微分を見つける必要があります。

L c の活性化関数の出力は、最後から2番目の層(ここでは層L-1と呼びます)のニューロンから受け取る寄与によって決まります。L c の出力を変更する1つの方法は、L-1とL c のニューロン間の重みを変更することです。各L-1重みを他の重みに対して偏微分計算することで、重みのいずれかを増加または減少させると、L c の出力が 1 に近づく(または遠ざかる)ことがわかります。

しかし、これはL c の出力を変更する唯一の方法ではありません。L c が L-1 ニューロンから受け取る寄与は、L-1の出力値に適用される重みだけでなく、実際の(重み付け前の)出力値自体によっても決まります。L-1ニューロンの出力値は、L-2から受信する入力に適用された重みによって影響を受けます。したがって、L-1の活性化関数を微分して、L-2の寄与に適用される重みの偏導関数を見つけることができます。これらの偏導関数は、L-2の重みへの変更がL-1の出力にどのように影響し、それがその後L c の出力値に影響し、それによって損失関数にどのように影響するかを示しています。

同じ論理で、L-2ニューロンがL-3ニューロンから受け取る寄与を調整することで、L-1ニューロンがL-2ニューロンから受け取る出力値に影響を与えることもできます。そこで、L-3の偏微分を求め、これを入力層に到達するまで再帰的にこのプロセスを繰り返します。完了すると、損失関数の勾配が得られます。これは、ネットワーク内の各重みとバイアス・パラメーターの偏導関数のベクトルです。

これで、単一のトレーニング用サンプルに対するフォワード・パスとバックワード・パスが完了しました。しかし、私たちの目標は、新しい入力に対して適切に一般化できるようにモデルをトレーニングすることです。そのためには、トレーニング後にモデルが予測を行うことになる入力の多様性と範囲を反映した、多数のサンプルでトレーニングを行う必要があります。