La caída del peso es otra forma de regularización que se utiliza en las redes neuronales profundas. Reduce la suma de los pesos cuadrados de la red mediante un parámetro de regularización, al igual que la regularización L2 en modelos lineales.10 Pero cuando se emplea en redes neuronales, esta reducción tiene un efecto similar a la regularización de L1: el peso de las neuronas seleccionadas disminuye a cero.11 Esto elimina efectivamente los nodo de la red, reduciendo la complejidad de la red a través de la escasez.12
La pérdida de peso puede parecer superficialmente similar al abandono en las redes neuronales profundas, pero las dos técnicas son diferentes. Una de las principales diferencias es que, en el abandono, el valor de penalización crece exponencialmente en la profundidad de la red en los casos, mientras que el valor de penalización por caída de peso aumenta de forma lineal. Algunos creen que esto permite que el abandono penalice de manera más significativa la complejidad de la red que la disminución del peso.13
Muchos artículos y tutoriales en línea confunden incorrectamente la regularización de L2 y la caída del peso. De hecho, la beca es incoherente: algunos distinguen entre la L2 y la caída del peso,14, otros la equiparan,15, mientras que otros son inconsistentes al describir la relación entre ellos.16 Resolver esas incoherencias en la terminología es un área necesaria pero pasada por alto para futuras becas.