Ognuna di queste miriadi di connessioni da neurone a neurone viene moltiplicata per un peso unico, il che amplifica (o riduce) l'influenza di ciascuna connessione. L'input fornito alla funzione di attivazione di ciascun neurone può essere inteso come la somma ponderata degli output di ciascun neurone nel livello precedente. Di solito viene aggiunto anche un termine di bias univoco a ciascuna funzione di attivazione, che funziona in modo simile al termine di bias di una funzione di regressione comune.
Durante l'allenamento, la rete neurale "impara" attraverso aggiustamenti a ciascuno di questi pesi e termini di distorsione che producono output più accurati. Questi sono i parametridel modello: quando, ad esempio, leggi di un modello linguistico di grandi dimensioni (LLM) con 8 miliardi di "parametri", quel numero riflette ogni singola connessione ponderata da neurone a neurone e ogni bias specifico del neurone nella rete neurale del modello.
I livelli intermedi, chiamati livelli nascosti della rete, sono quelli in cui avviene la maggior parte dell'apprendimento. È l'inclusione di più livelli nascosti a distinguere un modello di deep learning da una rete neurale "non profonda", come una macchina Boltzmann limitata (RBN) o una rete a percettore multistrato (MLP). La presenza di più livelli nascosti consente a un modello di deep learning di apprendere caratteristiche gerarchiche complesse dei dati, con i livelli precedenti che identificano modelli più ampi e i livelli più profondi che identificano modelli più granulari.
Per eseguire l'inferenza, la rete completa un passaggio in avanti: il livello di input riceve i dati di input, solitamente sotto forma di embedding, dove ogni neurone di input che elabora una singola caratteristica del vettore di input. Ad esempio, un modello che funziona con immagini in scala di grigi da 10x10 pixel avrà in genere 100 neuroni nel suo strato di input, con ogni neurone di input corrispondente a un singolo pixel. Solitamente, le reti neurali richiedono quindi che i vettori di input siano fissati a una certa dimensione, sebbene le tecniche di pre-elaborazione come il pooling o la normalizzazione possano fornire una certa flessibilità per quanto riguarda la dimensione dei dati di input originali stessi.
I dati vengono progressivamente trasformati e passati ai nodi di ogni livello successivo fino a quello finale. Le funzioni di attivazione dei neuroni nel livello di output calcolano la previsione finale dell'output di rete. Ad esempio, ogni nodo di output di un modello di classificazione profonda può eseguire una funzione softmax che, sostanzialmente, prende un input numerico e lo scala in una probabilità, compresa tra 0 e 1, che l'input appartenga a una potenziale categoria di classificazione. Il modello genererebbe quindi la categoria corrispondente al nodo che ha prodotto l'output più elevato.