La dégradation des pondérations (ou weight decay) est une autre forme de régularisation utilisée pour les réseaux neuronaux. Elle réduit la somme des carrés des poids du réseau avec un paramètre de régularisation, tout comme la régularisation L2 dans les modèles linéaires.10 Mais quand elle est utilisée dans les réseaux neuronaux, cette réduction a un effet similaire à la régularisation L1 : les poids des neurones sélectionnés diminuent jusqu’à zéro.11 Cela a pour effet la suppression des nœuds du réseau, ce qui en réduit la complexité grâce à la parcimonie.12
En surface, la dégradation des pondérations peut sembler similaire à l’abandon dans les réseaux neuronaux profonds, mais les deux techniques diffèrent. L’une des principales différences, c’est que dans le cas de l’abandon, la valeur de la pénalité croît de manière exponentielle en fonction de la profondeur du réseau, alors que la valeur de la pénalité croît de manière linéaire avec la dégradation des pondérations. D’après certains, cela signifie que l’abandon peut pénaliser la complexité du réseau de manière plus significative que la dégradation des pondérations.13
De nombreux articles et tutoriels en ligne confondent à tort la régularisation L2 et la dégradation des pondérations. En fait, les études ne sont pas cohérentes à ce sujet : certains font la distinction entre la régularisation L2 et la dégradation des pondérations,14 d’autres les mettent sur un pied d’égalité15, et d’autres encore ne décrivent pas de manière cohérente la relation qui existe entre ces deux notions.16 Si ces incohérences terminologiques sont négligées pour le moment, il serait nécessaire de les corriger dans les études futures.