Ogni neurone controlla la forza con cui una parte della rete influenza l'altra. I pesi determinano la forza delle connessioni tra i neuroni: il grado in cui l'output di un neurone influisce sull'input del neurone successivo.
Durante l'addestramento, la rete riceve input. Per continuare con l'esempio dei prezzi delle case, potrebbero essere metri quadrati, anno di costruzione, dati demografici del quartiere e decine di altri input.
Queste caratteristiche di input vengono trasmesse al primo livello di neuroni. Ogni input viene moltiplicato per un peso, l'ipotesi migliore della rete sull'importanza di quel neurone, e viene aggiunto un bias per migliorare la flessibilità, dando ai neuroni una certa indipendenza dall'influenza della somma ponderata degli input dei neuroni nel livello precedente. Una funzione di attivazione decide la forza con cui quel neurone "si attiva" e trasmette le informazioni allo strato successivo come input alle funzioni di attivazione di ogni singolo neurone dello strato successivo. Ognuna di queste connessioni neurone-neurone ha il proprio peso.
I pesi formano una matrice, i bias formano un vettore e il livello calcola combinazioni lineari di input + bias, quindi passa il risultato attraverso una funzione di attivazione, come una funzione sigmoid, tanh, ReLU o softmax. Il compito di questa funzione è quello di introdurre la non linearità, che consente alla rete di apprendere e modellare modelli complessi invece di semplici relazioni lineari.
I dati si spostano attraverso i successivi livelli "nascosti". Il primo strato nascosto potrebbe combinare la metratura della casa e il numero di camere da letto per arrivare allo "spazio abitativo complessivo". Un altro livello può combinare la posizione geografica della casa + la valutazione del distretto scolastico per determinare la "desiderabilità del quartiere". Il modello, che non ha la comprensione di un essere umano di cosa sia la "desiderabilità del quartiere", riconosce semplicemente i modelli nei numeri dei suoi dati di addestramento e fa correlazioni.
Da un livello all'altro, la rete inizia a "capire" quali modelli sono più rilevanti. Questi livelli sovrapposti trasformano semplici operazioni in una potente rete in grado di apprendere modelli gerarchici complessi.