Cada neurona controla la fuerza con la que una parte de la red influye en la otra. Los pesos determinan la fuerza de las conexiones entre neuronas: el grado en que la salida de una neurona afecta a la entrada de la siguiente neurona.
Durante el entrenamiento, la red recibe entradas. Siguiendo con el ejemplo de los precios de la vivienda, estos podrían ser los metros cuadrados, el año de construcción, los datos demográficos del barrio, etc.
Estas características de entrada se transmiten a la primera capa de neuronas. Cada entrada se multiplica por un peso, que es la mejor estimación de la red sobre la importancia de esa neurona, y se añade un sesgo para mejorar la flexibilidad y dar cierta independencia a las neuronas de la influencia de la suma ponderada de las entradas de las neuronas de la capa anterior. Una función de activación decide con qué fuerza se "dispara" esa neurona y pasa información a la siguiente capa como entrada a las funciones de activación de cada neurona individual en la siguiente capa. Cada una de estas conexiones de neurona a neurona tiene su propio peso.
Los pesos forman una matriz, los sesgos forman un vector y la capa calcula combinaciones lineales de entradas + sesgo, luego pasa el resultado a través de una función de activación, como una función sigmoidea, tanh, ReLU o softmax. El trabajo de esta función es introducir la no linealidad, lo que permite a la red aprender y modelar patrones complejos en lugar de solo relaciones lineales.
Los datos se mueven a través de las capas "ocultas" posteriores. La primera capa oculta podría combinar los metros cuadrados de la casa y su número de dormitorios para llegar al "espacio habitable general". Otra capa podría combinar la ubicación geográfica de la casa + la calificación de su distrito escolar para determinar la "conveniencia del vecindario". El modelo no tiene la comprensión humana de lo que es la "deseabilidad del vecindario", simplemente reconoce patrones en los números de sus datos de entrenamiento y hace correlaciones.
De capa a capa, la red comienza a "comprender" qué patrones son más relevantes. Estas capas apiladas convierten operaciones simples en una poderosa red capaz de aprender patrones complejos y jerárquicos.