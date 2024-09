Una rete neurale ricorrente (RNN - recurrent neural network) è un tipo di rete neurale artificiale che utilizza dati sequenziali o dati di serie temporali. Questi algoritmi di deep learning sono comunemente usati per problemi di tipo ordinale o temporale, come la traduzione linguistica, NLP (Natural Language Processing), il riconoscimento vocale e la sottotitolazione delle immagini; sono integrati in applicazioni popolari come Siri, la ricerca vocale e Google Translate. Come le reti neurali feedforward e convoluzionali (CNN - convolutional neural network), le reti neurali ricorrenti utilizzano dati di addestramento per imparare. Si distinguono per la loro "memoria" in quanto prelevano informazioni dagli input precedenti per influenzare l'input e l'output attuali. Mentre le reti neurali profonde tradizionali presuppongono che input e output siano indipendenti l'uno dall'altro, l'output delle reti neurali ricorrenti dipende dagli elementi precedenti all'interno della sequenza. Anche se gli eventi futuri sarebbero utili per determinare l'output di una data sequenza, le reti neurali ricorrenti unidirezionali non possono tenere conto di questi eventi nelle loro previsioni.

Prendiamo un modo di dire, come "sentirsi così così", che è comunemente usato quando qualcuno è malato, per aiutarci nella spiegazione delle RNN. Affinché l'idioma abbia senso, deve essere espresso in quell'ordine specifico. Di conseguenza, le reti ricorrenti devono tenere conto della posizione di ogni parola nell'idioma e usano questa informazione per prevedere la parola successiva nella sequenza.

Un'altra caratteristica distintiva delle reti ricorrenti è che condividono i parametri attraverso ogni livello della rete. Mentre le reti feedforward hanno pesi diversi per ogni nodo, le reti neurali ricorrenti condividono lo stesso parametro di peso all'interno di ogni livello della rete. Tuttavia, questi pesi sono ancora regolati nei processi di retropropagazione e di discesa del gradiente per facilitare l'apprendimento di rinforzo.

Le reti neurali ricorrenti sfruttano l'algoritmo di retropropagazione nel tempo (backpropagation through time, BPTT) per determinare i gradienti, che è leggermente diverso dalla retropropagazione tradizionale in quanto è specifico per i dati di sequenza. I principi della BPTT sono gli stessi della retropropagazione tradizionale, dove il modello si addestra valutando gli errori dal suo livello di output al suo livello di input. Questi calcoli ci consentono di regolare e adattare i parametri del modello in modo appropriato. BPTT differisce dall'approccio tradizionale in quanto BPTT somma gli errori ad ogni passo temporale, mentre le reti feedforward non hanno bisogno di sommare gli errori poiché non condividono i parametri in ogni livello.

Durante questo processo, le RNN tendono a riscontrare due problemi, noti come gradienti che esplodono e gradienti che svaniscono. Questi problemi sono determinati dalla dimensione del gradiente, che è la pendenza della funzione di perdita lungo la curva di errore. Quando il gradiente è troppo piccolo, continua a diventare più piccolo, aggiornando i parametri di peso finché non diventano insignificanti, ossia 0. Quando questo accade, l'algoritmo non impara più. Il fenomeno dei gradienti che esplodono si verifica invece quando il gradiente è troppo grande, creando un modello instabile. In questo caso, i pesi del modello diverranno troppo grandi fino ad essere rappresentati come NaN (Not a Number). Una soluzione a questi problemi è ridurre il numero di livelli nascosti all'interno della rete neurale, eliminando parte della complessità del modello RNN.