Le reti neurali ricorrenti (RNN) vengono generalmente utilizzate in linguaggio naturale e applicazioni di riconoscimento vocale in quanto utilizzano dati sequenziali o serie temporali. Le RNN possono essere individuate dai loro cicli di feedback. Questi algoritmi di apprendimento vengono utilizzati principalmente quando si utilizzano dati di serie temporali per fare previsioni sui risultati futuri. I casi d'uso includono previsioni di mercato azionario o previsioni di vendita oppure problemi ordinali o temporali, come la traduzione del linguaggio, l'elaborazione del linguaggio naturale (NLP), il riconoscimento vocale e l'intestazione delle immagini. Queste funzioni spesso sono incorporate in applicazioni popolari come Siri, la ricerca vocale e Google Translate.

Le reti RNN usano la loro "memoria" quando prendono informazioni dagli input precedenti per influenzare input e output correnti. Mentre le reti neurali profonde tradizionali presuppongono che gli input e gli output siano indipendenti l'uno dall'altro, l'output delle RNN dipende dagli elementi precedenti all'interno della sequenza. Sebbene anche gli eventi futuri siano utili per determinare l'output di una determinata sequenza, le reti neurali ricorrenti unidirezionali non possono tenere conto di questi eventi nelle loro previsioni.

Le reti RNN condividono i parametri su ogni livello della rete e condividono lo stesso parametro di peso all'interno di ogni livello della rete, con i pesi regolati attraverso i processi di retropropagazione e discesa del gradiente per facilitare l'apprendimento per rinforzo.

Le RNN utilizzano un algoritmo di retropropagazione nel tempo (BPTT) per determinare i gradienti, il che è leggermente diverso dalla retropropagazione tradizionale, in quanto è specifico per i dati di sequenza. I principi della BPTT sono gli stessi della retropropagazione tradizionale, in cui il modello addestra se stesso calcolando gli errori dal suo livello di output a quello di input. Il BPTT si differenzia dall'approccio tradizionale in quanto il BPTT somma gli errori in ogni fase temporale, mentre le reti feedforward non hanno bisogno di sommare gli errori, in quanto non condividono i parametri in ogni livello.

Un vantaggio rispetto ad altri tipi di reti neurali è che le RNN utilizzano sia il trattamento dei dati binari, sia la memoria. Le RNN possono pianificare più input e produzioni in modo che, invece di fornire un solo risultato per un singolo input, le RNN possono produrre output one-to-many, many-to-one o many-to-many.



Esistono inoltre opzioni all'interno delle RNN. Ad esempio, la rete long short-term memory (LSTM) è superiore alle RNN semplici, in quanto apprende e agisce sulle dipendenze a lungo termine.

Tuttavia, le RNN tendono a incontrare due problemi fondamentali, noti come gradienti esplosivi e gradienti che scompaiono. Questi problemi sono definiti dalla dimensione del gradiente, che è la pendenza della funzione di perdita lungo la curva di errore.

Quando il gradiente sta svanendo ed è troppo piccolo, continua a ridursi, aggiornando i parametri del peso fino a renderli insignificanti, ovvero zero (0). Quando ciò accade, l'algoritmo non sta più imparando.

I gradienti che esplodono si verificano quando il gradiente è troppo grande, creando un modello instabile. In questo caso, i pesi del modello diventano troppo grandi e alla fine verranno rappresentati come NaN (non come un numero). Una soluzione a questi problemi consiste nel ridurre il numero di livelli nascosti all'interno della rete neurale, eliminando parte della complessità dei modelli RNN.

Alcuni svantaggi finali: le RNN potrebbero anche richiedere lunghi tempi di addestramento ed essere difficili da usare su set di dati di grandi dimensioni. L'ottimizzazione delle RNN aggiunge complessità quando in caso di livelli e parametri numerosi.