Cada neurona controla la fuerza con la que una parte de la red influye en la otra. Los pesos determinan la fuerza de las conexiones entre neuronas: el grado en que la salida de una neurona afecta la entrada de la siguiente neurona.
Durante el entrenamiento, la red recibe entradas. Para continuar con el ejemplo de los precios de las viviendas, esto podría ser pies cuadrados, año de construcción, datos demográficos del vecindario y docenas de otras entradas.
Estas características de entrada se pasan a la primera capa de neuronas. Cada entrada se multiplica por un peso, la mejor suposición de la red sobre la importancia de esa neurona, y se agrega un sesgo para mejorar la flexibilidad, dando a las neuronas cierta independencia de la influencia de la suma ponderada de las entradas de las neuronas en la capa anterior. Una función de activación decide con qué fuerza se "dispara" esa neurona y pasa información a la siguiente capa como entrada a las funciones de activación de cada neurona individual en la siguiente capa. Cada una de estas conexiones de neurona a neurona tiene su propio peso.
Los pesos forman una matriz, los sesgos forman un vector y la capa calcula combinaciones lineales de entradas + sesgo, luego pasa el resultado a través de una función de activación, como una función sigmoide, tanh, ReLU o softmax. El trabajo de esta función es introducir la no linealidad, lo que permite a la red aprender y modelar patrones complejos en lugar de solo relaciones lineales.
Los datos se mueven a través de las capas "ocultas" posteriores. La primera capa oculta podría combinar los pies cuadrados de la casa y su número de habitaciones para llegar al "espacio habitable general". Otra capa podría combinar la ubicación geográfica de la casa + la calificación de su distrito escolar para determinar la "conveniencia del vecindario". El modelo no tiene la comprensión humana de lo que es la "conveniencia del vecindario"; simplemente reconoce patrones en los números de sus datos de entrenamiento y hace correlaciones.
De capa a capa, la red comienza a "comprender" qué patrones son más relevantes. Estas capas apiladas convierten operaciones simples en una poderosa red capaz de aprender patrones complejos y jerárquicos.