Cada una de estas innumerables conexiones de neurona a neurona se multiplica por una ponderación única, que amplifica (o disminuye) la influencia de cada conexión. La entrada proporcionada a la función de activación de cada neurona puede entenderse como la suma ponderada de las salidas de cada neurona en la capa anterior. Por lo general, también se agrega un término de sesgo único a cada función de activación, que funciona de manera similar al término de sesgo de una función de regresión común.
Durante el entrenamiento, la red neuronal "aprende" a través de ajustes a cada uno de estos términos de ponderación y sesgo que producen resultados más precisos. Estos son los parámetros del modelo: cuando lee, por ejemplo, sobre un modelo de lenguaje grande (LLM) que tiene 8 mil millones de "parámetros", ese número refleja cada conexión ponderada de neurona a neurona y el sesgo específico de la neurona en la red neuronal del modelo.
Las capas intermedias, llamadas capas ocultas de la red, son donde ocurre la mayor parte del aprendizaje. Es la inclusión de múltiples capas ocultas lo que distingue un modelo de aprendizaje profundo de una red neuronal "no profunda", como una máquina de Boltzmann restringida (RBN) o un perceptrón multicapa estándar (MLP). La presencia de múltiples capas ocultas permite que un modelo de aprendizaje profundo aprenda características jerárquicas complejas de los datos, con capas anteriores que identifican patrones más amplios y capas más profundas que identifican patrones más granulares.
Para realizar la inferencia, la red completa un paso hacia adelante: la capa de entrada recibe datos de entrada, generalmente en forma de incorporación vectorial, y cada neurona de entrada procesa una característica individual del vector de entrada. Por ejemplo, un modelo que trabaja con imágenes en escala de grises de 10x10 pixeles normalmente tendrá 100 neuronas en su capa de entrada, y cada neurona de entrada corresponde a un pixel individual. Por lo tanto, las redes neuronales suelen requerir que las entradas se fijen a un cierto tamaño, aunque las técnicas de preprocesamiento, como la agrupación o la normalización, pueden proporcionar cierta flexibilidad con respecto al tamaño de los datos de entrada originales en sí.
Los datos se transforman progresivamente y se pasan a los nodos de cada capa posterior hasta la capa final. Las funciones de activación de las neuronas en la capa de salida calculan la predicción de salida final de la red. Por ejemplo, cada nodo de resultados de un modelo de clasificación profundo podría realizar una función softmax que esencialmente toma una entrada numérica y la escala a una probabilidad, entre 0 y 1, de que la entrada pertenezca a una categoría de clasificación potencial. Luego, el modelo generaría la categoría correspondiente al nodo de salida que arrojara el resultado más alto.