La pérdida de entropía cruzada binaria, también llamada pérdida logarítmica, se utiliza para la clasificación binaria. Los algoritmos de clasificación binaria suelen arrojar un valor de probabilidad entre 0 y 1. Por ejemplo, en un modelo de detección de spam de correo electrónico, las entradas de correo electrónico que den lugar a salidas más cercanas a 1 podrían etiquetarse como "spam". Las entradas que produzcan salidas más cercanas a 0 se clasificarían como "no spam". Un resultado de 0,5 indicaría la máxima incertidumbre o entropía.
Aunque el algoritmo genere valores entre 0 y 1, los valores reales para las predicciones correctas son exactamente "0" o "1". Por lo tanto, minimizar la pérdida de entropía cruzada binaria implica no solo penalizar las predicciones incorrectas, sino también penalizar las predicciones con baja certeza. Esto incentiva al modelo a aprender parámetros que produzcan predicciones que no solo sean correctas sino también seguras. Además, centrarse en los logaritmos de los valores de probabilidad previstos hace que el algoritmo penalice más las predicciones que están confiada y equivocadamente.
Para mantener la convención común de valores de pérdida más bajos que significan menos errores, el resultado se multiplica por -1. La pérdida logarítmica para un solo ejemplo i se calcula como –(yi·log(p(yi))+(1-yi)·log(1-p(yi))) , donde yi es la verdadera probabilidad, ya sea 0 o 1, y p(yi) es la probabilidad predicha. Por lo tanto, la pérdida promedio en un conjunto completo de n ejemplos de entrenamiento se calcula como –1n∑i=1nyi·log(p(yi))+(1-yi)·log(1-p(yi)) .