Weight Decay ist eine weitere Form der Regularisierung, die für tiefe Neural Networks verwendet wird. Er reduziert die Summe der quadrierten Netzwerkgewichte mithilfe eines Regularisierungsparameters, ähnlich wie die L2-Regularisierung in linearen Modellen.10 Bei der Anwendung in neuronalen Netzen hat diese Reduzierung jedoch eine ähnliche Wirkung wie die L1-Regularisierung : Die ausgewählten Neuronengewichte sinken auf null.11 Dadurch werden Knoten effektiv aus dem Netzwerk entfernt, wodurch die Netzwerkkomplexität durch Sparsity reduziert wird.12
Gewichtsverlust mag oberflächlich betrachtet dem Ausfall in tiefen neuronalen Netzen ähneln, aber die beiden Techniken unterscheiden sich.Ein Hauptunterschied besteht darin, dass bei einem Abbruch der Strafwert in der Tiefe des Netzwerks exponentiell ansteigt, während der Strafwert bei einer Gewichtsabnahme linear ansteigt.Einige glauben, dass Dropout die Komplexität des Netzwerks sinnvoller bestrafen kann als Gewichtsabnahme.13
In vielen Online-Artikeln und -Tutorials werden L2-Regularisierung und -Gewichtsabnahme fälschlicherweise miteinander vermischt. Tatsächlich ist die Wissenschaft uneinheitlich – einige unterscheiden zwischen L2 und Gewichtsabnahme,14 andere setzen sie gleich,15 und wieder andere beschreiben die Beziehung zwischen ihnen uneinheitlich.16 Die Lösung solcher terminologischer Unstimmigkeiten ist ein notwendiger, aber vernachlässigter Bereich für die zukünftige Forschung.