Binärer Kreuzentropieverlust, auch Log-Verlust genannt, wird zur binären Klassifizierung verwendet.Binäre Klassifizierungsalgorithmen geben in der Regel einen Wahrscheinlichkeitswert zwischen 0 und 1 aus.In einem Modell zur Erkennung von E-Mail-Spam könnten beispielsweise E-Mail-Eingaben, die zu einer Ausgabe führen, die näher bei 1 liegt, als „Spam“ gekennzeichnet werden.Eingaben, deren Ausgabe näher bei 0 liegt, würden als „kein Spam“ eingestuft.Eine Ausgabe von 0,5 würde auf maximale Unsicherheit oder Entropie hinweisen.
Obwohl der Algorithmus Werte zwischen 0 und 1 ausgibt, sind die Ground-Truth-Werte für die richtigen Vorhersagen genau „0“ oder „1“. Die Minimierung des binären Kreuzentropieverlustes bedeutet also nicht nur, dass falsche Vorhersagen bestraft werden, sondern auch, dass Vorhersagen mit geringer Sicherheit bestraft werden.Dadurch wird dem Modell ein Anreiz gegeben, Parameter zu lernen, die Vorhersagen liefern, die nicht nur korrekt, sondern auch sicher sind.Darüber hinaus führt die Konzentration auf die Logarithmen der vorhergesagten Wahrscheinlichkeitswerte dazu, dass der Algorithmus Vorhersagen, die sicher falsch sind, stärker bestraft.
Um die allgemeine Konvention beizubehalten, dass niedrigere Verlustwerte weniger Fehler bedeuten, wird das Ergebnis mit -1 multipliziert. Der Log-Verlust für ein einzelnes Beispiel i wird daher als –(yi·log(p(yi))+(1-yi)·log(1-p(yi))) berechnet, wobei yi die wahre Wahrscheinlichkeit – entweder 0 oder 1 – und p(yi) die vorhergesagte Wahrscheinlichkeit ist. Der durchschnittliche Verlust über einen gesamten Satz von n Trainingsbeispielen wird daher wie folgt berechnet: –1n∑i=1nyi·log(p(yi))+(1-yi)·log(1-p(yi)). .