Las funciones de pérdida no son simplemente métricas de evaluación. Su propósito explícito no es solo medir el éxito del modelo, sino también servir como entrada para un algoritmo que optimiza los parámetros del modelo para minimizar la pérdida.
Los algoritmos de optimización, como el descenso del gradiente, suelen emplear el gradiente de la función de pérdida. El gradiente es la derivada de una función con múltiples variables. Esencialmente, una derivada describe la tasa y la cantidad que cambia la salida de una función en cualquier punto. Por lo tanto, es importante que las funciones de pérdida sean diferenciables: en otras palabras, tener una derivada en todos los puntos.
Los modelos de machine learning aprenden a realizar predicciones precisas mediante ajustes a ciertos parámetros del modelo. Por ejemplo, un algoritmo de regresión simple modela datos con la función y = wx+b, donde y es la salida del modelo, x es la entrada, w es un peso y b es el sesgo. El modelo aprende actualizando los términos de peso y sesgo hasta que la función de pérdida se minimiza lo suficiente.
Por medio del gradiente de la función de pérdida, los algoritmos de optimización determinan en qué dirección "escalonar" los parámetros del modelo para moverse hacia abajo en el gradiente y, por lo tanto, reducir la pérdida.