Cada uma dessas inúmeras conexões neurais a neurônio é multiplicada por um peso único, que amplifica (ou diminui) a influência de cada conexão. A entrada fornecida para a função de ativação de cada neurônio pode ser entendida como a soma ponderada das saídas de cada neurônio na camada anterior. Geralmente também há um termo de viés único adicionado a cada função de ativação, que funciona de forma semelhante ao termo de viés de uma função de regressão comum.
Durante o treinamento, a rede neural "aprende" por meio de ajustes em cada um desses pesos e termos de viés que produzem produções mais precisas. Estes são os parâmetrosdo modelo: quando você lê sobre, por exemplo, um grande modelo de linguagem (LLM) com 8 bilhões de "parâmetros", esse número reflete cada conexão neurônio a neurônio ponderada e viés específico de neurônio na rede neural do modelo.
As camadas intermediárias, chamadas de camadas ocultas da rede, são onde ocorre a maior parte do aprendizado. É a inclusão de múltiplas camadas ocultas que distingue um modelo de deep learning de uma "não profunda" rede neural, como uma máquina de Boltzmann restrita (RBN) ou um perceptron multicamadas padrão (MLP). A presença de várias camadas ocultas permite que um modelo de deep learning aprenda funcionalidades hierárquicas complexas dos dados, com camadas anteriores identificando padrões mais amplos e camadas mais profundas identificando funcionalidades mais granulares.
Para realizar a inferência, a rede completa uma passagem para a frente: a camada de entrada recebe dados de entrada, geralmente na forma de uma embedding de vetores, com cada neurônio de entrada processando uma funcionalidade individual do vetor de entrada. Por exemplo, um modelo que funciona com imagens em escala de cinza de 10x10 pixels normalmente terá 100 neurônios em sua camada de entrada, com cada neurônio de entrada correspondendo a um pixel individual. Portanto, as Neural networks normalmente exigem que as entradas sejam fixadas a um determinado tamanho, embora técnicas de pré-processamento, como pooling ou normalização, possam fornecer alguma flexibilidade em relação ao tamanho dos próprios dados de entrada originais.
Os dados são progressivamente transformados e transmitidos para os nós de cada camada subsequente até a última camada. As funções de ativação dos neurônios na camada de saída calculam a previsão de saída final da rede. Por exemplo, cada nó de saída de um modelo de classificação profunda pode executar uma função softmax , que essencialmente pega uma entrada numérica e a dimensiona para uma probabilidade, entre 0 e 1, de que a entrada pertença a uma categoria de classificação potencial. Em seguida, o modelo geraria a categoria correspondente a qualquer nó de saída que tivesse gerado a maior saída.