Chaque neurone contrôle l’importance d’une partie du réseau qui influence l’autre. Les pondérations déterminent la force des connexions entre les neurones, c’est-à-dire dans quelle mesure la sortie d’un neurone affecte l’entrée du neurone suivant.
Pendant l’entraînement, le réseau reçoit des entrées. Pour poursuivre l'exemple des prix immobiliers, il peut s'agir de la superficie, de l'année de construction, des données démographiques du quartier et de nombreuses autres informations.
Ces fonctionnalités d'entrée sont transmises à la première couche de neurones. Chaque entrée est multipliée par une pondération, qui correspond à la meilleure estimation du réseau quant à l'importance de ce neurone, et un biais est ajouté pour améliorer la flexibilité, ce qui confère aux neurones une certaine indépendance par rapport à l'influence de la somme pondérée des entrées provenant des neurones de la couche précédente. Une fonction d'activation détermine l'intensité avec laquelle ce neurone « s'active » et transmet les informations à la couche suivante en tant qu'entrée pour les fonctions d'activation de chaque neurone individuel de la couche suivante. Chacune de ces connexions entre neurones dispose de sa propre pondération.
Les pondérations forment une matrice, les biais forment un vecteur et la couche calcule des combinaisons linéaires d'entrées + biais, puis transmet le résultat à une fonction d'activation, telle qu'une fonction sigmoïde, tanh, ReLU ou softmax. Cette fonction consiste à introduire la non-linéarité, qui permet au réseau d’apprendre et de modéliser des modèles complexes au lieu de simples relations linéaires.
Les données transitent par les couches « cachées » suivantes. La première couche cachée peut combiner la superficie de la maison et le nombre de chambres pour obtenir la « surface habitable totale ». Une autre niveau pourrait combiner la situation géographique du foyer et la note de son district scolaire pour déterminer l'« l'attractivité du quartier ». Le modèle n'a pas la capacité d'un être humain à comprendre ce qu'est l'attractivité du quartier, il se contente de reconnaître des tendances dans les chiffres de ses données d'entraînement et d'établir des corrélations.
D’une couche à l’autre, le réseau commence à « comprendre » quels modèles sont les plus pertinents. Ces couches empilées transforment des opérations simples en un réseau puissant capable d’apprendre des modèles hiérarchiques complexes.