Cada una de estas innumerables conexiones de neurona a neurona se multiplica por un peso único, lo que amplifica (o disminuye) la influencia de cada conexión. La entrada proporcionada a la función de activación de cada neurona puede entenderse como la suma ponderada de los outputs de cada neurona en la capa anterior. Por lo general, también se añade un término de sesgo único a cada función de activación que funciona de manera similar al término de sesgo de una función de regresión común.
Durante el entrenamiento, la red neuronal "aprende" a través de ajustes en cada uno de estos términos de ponderación y sesgo que producen outputs más precisos. Estos son los parámetros del modelo: cuando se lee, por ejemplo, que un modelo de lenguaje de gran tamaño (LLM) tiene 8000 millones de "parámetros", esa cifra refleja cada una de las conexiones ponderadas entre neuronas y el sesgo específico de cada neurona en la red neuronal del modelo.
Las capas intermedias, llamadas capas ocultas de la red, son donde se produce la mayor parte del aprendizaje. Es la inclusión de múltiples capas ocultas lo que distingue un modelo de deep learning de una red neuronal "no profunda", como una máquina de Boltzmann restringida (RBN) o un perceptrón multicapa estándar (MLP). La presencia de múltiples capas ocultas permite que un modelo de deep learning aprenda características jerárquicas complejas de los datos, con capas anteriores que identifican patrones más amplios y capas más profundas que identifican patrones más granulares.
Para realizar la inferencia, la red completa una pasada hacia adelante: la capa de entrada recibe los datos de entrada, normalmente en forma de embedding vectorial, y cada neurona de entrada procesa una característica individual del vector de entrada. Por ejemplo, un modelo que trabaja con imágenes en escala de grises de 10x10 píxeles normalmente tendrá 100 neuronas en su capa de entrada, y cada neurona de entrada corresponde a un píxel individual. Por lo tanto, las redes neuronales suelen requerir que los vectores de entrada tengan un tamaño determinado, aunque las técnicas de preprocesamiento, como la agrupación o la normalización, pueden proporcionar cierta flexibilidad con respecto al tamaño de los datos de entrada originales.
Los datos se transforman progresivamente y se pasan a los nodos de cada capa posterior hasta la capa final. Las funciones de activación de las neuronas en la capa de output calculan la predicción de output final de la red. Por ejemplo, cada nodo de output de un modelo de clasificación profunda podría realizar una función softmax, que básicamente toma una entrada numérica y la escala a una probabilidad entre 0 y 1 de que la entrada pertenezca a una categoría de clasificación potencial. El modelo generaría entonces la categoría correspondiente al nodo de output que produjera el mayor rendimiento.