Cada neurônio controla a força com que uma parte da rede influencia a outra. Os pesos determinam a força das conexões entre os neurônios: o grau em que a saída de um neurônio afeta a entrada do próximo neurônio.
Durante o treinamento, a rede recebe entradas. Para continuar o exemplo dos preços de residências, isso pode incluir metragem quadrada, ano de construção, dados demográficos de bairros e dezenas de outras entradas.
Essas funcionalidades de entrada são passadas para a primeira camada de neurônios. Cada entrada é multiplicada por um peso, o melhor palpite da rede sobre a importância daquele neurônio, e um viés é adicionado para melhorar a flexibilidade, dando aos neurônios alguma independência em relação à influência da soma ponderada das entradas dos neurônios na camada anterior. Uma função de ativação decide com que força um neurônio "dispara" e passa informações para a próxima camada como entrada para as funções de ativação de cada neurônio individual na próxima camada. Cada uma dessas conexões de neurônio a neurônio tem seu próprio peso.
Os pesos formam uma matriz, os vieses formam um vetor, e a camada calcula combinações lineares de entradas + viés e, em seguida, passa o resultado por uma função de ativação, como uma função sigmoide, Tanh, ReLU ou softmax. A tarefa dessa função é introduzir a não linearidade, o que permite à rede aprender e modelar padrões complexos em vez de apenas relações lineares.
Os dados se movemm pelas camadas "ocultas" subsequentes. A primeira camada oculta pode combinar a metragem quadrada da casa e o número de quartos para chegar ao “espaço vital geral”. Outra camada pode combinar a localização geográfica da casa + a classificação do distrito escolar para determinar a “desejabilidade do bairro”. O modelo não tem a compreensão humana do que é "desejabilidade do bairro": ele simplesmente reconhece padrões nos números de seus dados de treinamento e faz correlações.
De camada em camada, a rede começa a "entender" quais padrões são mais relevantes. Essas camadas empilhadas transformam operações simples em uma rede poderosa capaz de aprender padrões hierárquicos complexos.