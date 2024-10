Abbreviazione di "propagazione all'indietro dell'errore", la retropropagazione è un metodo elegante per calcolare in che modo le modifiche a uno qualsiasi dei pesi o dei bias di una rete neurale influiranno sull'accuratezza delle previsioni del modello. È essenziale per l'uso dell'apprendimento supervisionato, dell'apprendimento semi-supervisionato o dell'apprendimento auto-supervisionato per addestrare le reti neurali.

Sebbene gli equivalenti e i predecessori della retropropagazione siano stati proposti indipendentemente in diversi contesti risalenti agli anni '60, David E. Rumelhart, Geoffrey Hinton e Ronald J. Williams sono stati i a pubblicare primi l'algoritmo di apprendimento formale. Il loro articolo del 1986, "Learning representations by back-propagating errors", forniva la derivazione dell'algoritmo di retropropagazione così come utilizzato e compreso in un moderno contesto di machine learning.

La logica della retropropagazione è che gli strati di neuroni nelle reti neurali sono essenzialmente una serie di funzioni matematiche annidate. Durante l'allenamento, queste equazioni interconnesse sono annidate in un'altra funzione: una "funzione di perdita" che misura la differenza (o "perdita") tra l'output desiderato (o "verità di base") per un dato input e l'output effettivo delle reti neurali.

Possiamo quindi utilizzare la "regola della catena", un principio di calcolo che risale al XVII secolo , per calcolare la velocità con cui ogni neurone contribuisce alla perdita complessiva. In tal modo, possiamo calcolare l'impatto delle modifiche a qualsiasi variabile, ovvero a qualsiasi peso o bias, nelle equazioni che quei neuroni rappresentano.

Matematicamente parlando, la retropropagazione lavora a ritroso dall'output per calcolare in modo efficiente il "gradiente" della funzione di perdita: un vettore di derivate per ogni equazione nella rete. Questo gradiente indica agli algoritmi di ottimizzazione come "discesa del gradiente" quali equazioni regolare e in che direzione, per ridurre le perdite.

Questi tre processi intrecciati - una funzione di perdita che traccia l'errore del modello su diversi input, la propagazione a ritroso di quell'errore per vedere come le diverse parti della rete contribuiscono all'errore e gli algoritmi di discesa del gradiente che regolano i pesi dei modelli di conseguenza - costituiscono il modo in cui i modelli di deep learning "imparano". Per questo motivo, la retropropagazione è fondamentale per l'addestramento dei modelli di reti neurali, dai più semplici percettori multistrato alle complesse architetture di reti neurali profonde utilizzate per l'AI generativa.