Mein IBM

Anmelden

Was ist eine Verlustfunktion?

12. Juli 2024

Autoren

Was ist eine Verlustfunktion?

Beim maschinellen Lernen (ML) wird eine Verlustfunktion verwendet, um die Modellleistung zu messen, indem die Abweichung der Vorhersagen eines Modells von den richtigen „Ground Truth“-Vorhersagen berechnet wird. Bei der Optimierung eines Modells werden die Modellparameter angepasst, um die Ausgabe einer Verlustfunktion zu minimieren.

Eine Verlustfunktion ist eine Art Zielfunktion, was im Kontext der Data Science jede Funktion bezeichnet, deren Minimierung oder Maximierung das Ziel des Modelltrainings darstellt. Der Begriff „Verlustfunktion“, der in der Regel ein Synonym für Kostenfunktion oder Fehlerfunktion ist, bezieht sich speziell auf Situationen, in denen Minimierung das Trainingsziel für ein maschinelles Lernmodell ist.

Einfach ausgedrückt: Eine Verlustfunktion verfolgt den Fehlergrad in den Ausgaben eines KI-Modells. Dazu wird die Differenz („Verlust“) zwischen einem vorhergesagten Wert – also der Ausgabe des Modells – für eine gegebene Eingabe und dem tatsächlichen Wert oder der Ground Truth quantifiziert. Wenn die Vorhersagen eines Modells genau sind, ist der Verlust gering. Wenn die Vorhersagen ungenau sind, ist der Verlust groß.

Das grundlegende Ziel des maschinellen Lernens besteht darin, Modelle so zu trainieren, dass sie gute Vorhersagen ausgeben. Verlustfunktionen ermöglichen es uns, dieses Ziel mathematisch zu definieren und zu verfolgen. Während des Trainings „lernen“ Modelle, bessere Vorhersagen auszugeben, indem sie die Parameter so anpassen, dass der Verlust verringert wird. Ein Modell für maschinelles Lernen ist ausreichend trainiert, wenn der Verlust unter einen vorgegebenen Schwellenwert minimiert wurde.

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Abonnieren Sie noch heute

Wie funktionieren Verlustfunktionen?

In einer typischen Trainingskonfiguration trifft ein Modell Vorhersagen anhand einer Reihe von Beispieldatenpunkten aus dem Trainingsdatensatz, und eine Verlustfunktion misst den durchschnittlichen Fehler für jedes Beispiel. Diese Informationen werden dann zur Optimierung der Modellparameter verwendet.

Verlustfunktionen sind spezifisch für überwachtes Lernen, dessen Trainingsaufgaben die Existenz einer richtigen Antwort annehmen: die Ground Truth. Herkömmliche unüberwachte Lernalgorithmen wie Clustering oder Assoziation enthalten keine „richtigen“ oder „falschen“ Antworten, da sie ausschließlich versuchen, intrinsische Muster in nicht gelabelten Daten zu entdecken.

Für überwachtes Lernen sind gelabelte Datensätze erforderlich, in denen manuelle Anmerkungen die Ground Truth für jedes Trainingsbeispiel liefern. Bildsegmentierungsmodelle erfordern beispielsweise Trainingsbeispiele, bei denen jedes Pixel entsprechend seiner richtigen Klasse mit Anmerkungen versehen ist. Beim selbstüberwachten Lernen, das Teile von ungekennzeichneten Datenproben und Aufgabenmodellen maskiert oder transformiert, indem sie rekonstruiert werden, dient die ursprüngliche Stichprobe selbst als Ground Truth.

Verlustfunktionen und Modelloptimierung

Verlustfunktionen sind nicht einfach Bewertungsmetriken. Sie dienen nicht nur dazu, den Erfolg des Modells zu messen, sondern auch als Eingabe für einen Algorithmus, der die Parameter des Modells optimiert, um den Verlust zu minimieren.

Optimierungsalgorithmen wie der Gradientenabstieg verwenden in der Regel den Gradienten der Verlustfunktion. Der Gradient ist die Ableitung einer Funktion mit mehreren Variablen. Im Wesentlichen beschreibt eine Ableitung die Rate und die Menge, um die sich die Ausgabe einer Funktion an jedem Punkt ändert. Daher ist es wichtig, dass Verlustfunktionen differenzierbar sind: Das heißt, sie müssen an allen Punkten eine Ableitung aufweisen.

Modelle für maschinelles Lernen lernen, durch Anpassungen bestimmter Modellparameter genaue Vorhersagen zu treffen. Ein einfacher linearer Regressions-Algorithmus modelliert Daten beispielsweise mit der Funktion y = wx+b, wobei y die Ausgabe des Modells, x die Eingabe, w eine Gewichtung und b die Verzerrung darstellt. Das Modell lernt, indem es die Gewichtungs- und Verzerrungsterme aktualisiert, bis die Verlustfunktion ausreichend minimiert wurde. 

Anhand des Gradienten der Verlustfunktion bestimmen Optimierungsalgorithmen, in welche Richtung die Modellparameter „gestuft“ werden sollen, um sich auf dem Gradienten nach unten zu bewegen und so den Verlust zu verringern.

Verlustfunktionen im Deep Learning

Deep-Learning-Modelle verwenden große künstliche neuronale Netze, die aus Schichten miteinander verbundener Neuronen bestehen, von denen jedes seine eigene nichtlineare Aktivierungsfunktion hat, anstatt sich auf eine einzelne Funktion zu verlassen. Um das gesamte Netzwerk zu differenzieren, müssen die partiellen Ableitungen von Hunderten, Tausenden oder sogar Millionen separater Variablen und Aktivierungsfunktionen in Bezug auf die anderen berechnet werden.

 Dazu verwenden neuronale Netze Backpropagation, um den Gradienten der Verlustfunktion nach einem Vorwärtsdurchlauf zu finden, der mit einer Vorhersage für einen Datenpunkt aus dem Trainingsdatensatz endet. Die Backpropagation, kurz für Rückwärtsausbreitung des Fehlers, beginnt mit der Ausgabe der Verlustfunktion. Bei einem Rückwärtsdurchlauf durch das Netz von der Ausgabeschicht zur Eingabeschicht verwendet die Backpropagation die Kettenregel, um zu berechnen, wie jede einzelne Gewichtung und jede Verzerrung im Netz zum Gesamtverlust beigetragen hat.

Der resultierende Gradient partieller Ableitungen für das gesamte Netz kann dann von Gradientenabstiegs-Algorithmen verwendet werden, um die Netzgewichtungen iterativ zu aktualisieren, bis der Verlust ausreichend minimiert wurde.

Regularisierung

Obwohl Modelle trainiert und validiert werden, indem Vorhersagen auf Grundlage eines Trainingsdatensatzes getroffen werden, besteht das ultimative Ziel nicht darin, anhand der Trainingsbeispiele gute Ergebnisse zu erzielen. Das eigentliche Ziel des maschinellen Lernens besteht darin, Modelle zu trainieren, die sich gut auf neue Beispiele verallgemeinern lassen.

Sich ausschließlich auf die Minimierung einer einzelnen Verlustfunktion zu verlassen, wird als „empirische Risikominimierung“ bezeichnet. Obwohl sie einen offensichtlichen, einfachen Reiz hat, birgt sie die Gefahr einer Überanpassung des Modells an die Trainingsdaten und somit eine schlechte Generalisierung. Um dieses Risiko zu verringern, führen viele Algorithmen und Architekturen Regularisierungsterme ein, die die primäre Verlustfunktion modifizieren.

So kann beispielsweise der mittlere absolute Fehler (Mean Absolute Error, MAE) – der in diesem Kontext als L1-Regularisierung bezeichnet wird – verwendet werden, um Knappheit (Sparsity) zu erzwingen, indem die Anzahl der aktivierten Neuronen in einem neuronalen Netz oder das Ausmaß ihrer Aktivierung bestraft wird.

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Folgen ansehen

Arten von Verlustfunktionen

Es gibt eine Vielzahl verschiedener Verlustfunktionen, die jeweils für unterschiedliche Ziele, Datentypen und Prioritäten geeignet sind. Auf der höchsten Ebene werden die am häufigsten verwendeten Verlustfunktionen in Regressionverlustfunktionen und Klassifikationsverlustfunktionen unterteilt.

Regressionsverlustfunktionen messen Fehler in Vorhersagen mit kontinuierlichen Werten. Obwohl sie am intuitivsten auf Modelle zutreffen, die quantifizierbare Konzepte wie Preis, Alter, Größe oder Zeit direkt schätzen, gibt es für Regressionsverlust ein breites Anwendungsspektrum. Beispielsweise kann eine Regressionsverlustfunktion zur Optimierung eines Bildmodells verwendet werden, dessen Aufgabe darin besteht, den Farbwert einzelner Pixel zu schätzen.
Klassifikationsverlustfunktionen messen Fehler bei Vorhersagen mit diskreten Werten, wie z. B. der Kategorie, zu der ein Datenpunkt gehört, oder ob eine E-Mail Spam ist oder nicht. Die Arten von Klassifizierungsverlusten können weiter unterteilt werden in solche, die für die binäre Klassifizierung geeignet sind, und solche, die für die Klassifizierung mit mehreren Klassen geeignet sind.

Auswahl der richtigen Verlustfunktion

Die Auswahl einer Verlustfunktion aus diesen beiden allgemeinen Kategorien sollte von der Art des jeweiligen Anwendungsfalls abhängen. Einige Algorithmen für maschinelles Lernen erfordern eine spezifische Verlustfunktion, die zu ihrer mathematischen Struktur passt, aber für die meisten Modellarchitekturen gibt es, zumindest theoretisch, mehrere Optionen.

Verschiedene Verlustfunktionen priorisieren unterschiedliche Fehlertypen. So könnten einige zum Beispiel Sonderfälle hart bestrafen, während andere eine geringe Varianz kontrollieren. Einige bieten eine höhere Genauigkeit, allerdings auf Kosten komplexerer Berechnungen und damit mehr Zeit und Rechenressourcen für die Berechnung.

Letztendlich sollte die Wahl einer Verlustfunktion die spezifische Lernaufgabe, die Art der vom Modell analysierten Daten, die Arten von Ungenauigkeiten, die am kostspieligsten sind, und die verfügbaren Rechenressourcen widerspiegeln.

Regressionsverlustfunktionen

Regressionsprobleme wie die lineare Regression oder die polynomiale Regression geben kontinuierliche Werte aus, indem sie die Beziehung zwischen einer oder mehreren unabhängigen Variablen (x) und einer abhängigen Variablen (y) bestimmen: Sag für x den Wert von y voraus. Der Regressionsverlust muss daher nicht nur darauf reagieren, ob eine Ausgabe falsch ist, sondern auch auf das Ausmaß, in dem sie von der Ground Truth abweicht.

Mittlerer quadratischer Fehler (Mean Squared Error, MSE)

Die mittlere quadratische Fehlerverlustfunktion, auch L2-Verlust oder quadratischer Verlust genannt, ist im Allgemeinen die Standardeinstellung für die meisten Regressionsalgorithmen. Wie der Name schon sagt, wird MSE (mean squared error, dt. mittlerer quadratischer Fehler) als Durchschnitt der quadratischen Differenzen zwischen dem vorhergesagten Wert und dem wahren Wert über alle Trainingsbeispiele hinweg berechnet. Die Formel zur Berechnung des MSE über n Datenpunkte lautet 1n∑i=1n(yi-yi^)2, wobei yder wahre Wert und ŷ der vorhergesagte Wert ist.

Die Quadrierung des Fehlers bedeutet, dass der resultierende Wert immer positiv ist: der MSE bewertet also nur die Größe des Fehlers und nicht seine Richtung. Durch die Quadrierung des Fehlers haben große Fehler zudem einen unverhältnismäßig großen Einfluss auf den Gesamtverlust, wodurch Sonderfälle stark bestraft werden und das Modell einen Anreiz hat, sie zu reduzieren. MSE ist also geeignet, wenn man davon ausgeht, dass die Zielausgaben eine normale (Gaußsche) Verteilung haben.

MSE ist immer differenzierbar, was ihn für die Optimierung von Regressionsmodellen durch Gradientenabstieg praktisch macht.

Mittlerer quadratischer logarithmischer Fehler (Mean Squared Logarithmic Error, MSLE)

Bei Regressionsproblemen, bei denen die Zielausgaben ein sehr breites Spektrum an potenziellen Werte aufweisen, (z. B. bei solchen mit exponentiellem Wachstum), kann eine starke Bestrafung großer Fehler kontraproduktiv sein. Der mittlere quadratische logarithmische Fehler (MSLE) gleicht dieses Problem aus, indem er die Quadrate des natürlichen Logarithmus der Differenzen zwischen den vorhergesagten und den Durchschnittswerten mittelt. Es ist jedoch erwähnenswert, dass MSLE eine größere Strafe für zu niedrige Vorhersagen als für zu hohe Vorhersagen zuweist.

Die Formel für MSLE lautet: 1n∑i=1n(loge(1+yi)-loge(1+yi^))2

Quadratwurzel des mittleren quadratischen Fehlers (Root Mean Squared Error, RMSE)

RMSE ist die Quadratwurzel des MSE und ist daher eng mit der Formel für Standardabweichungen verwandt.Konkret wird RMSE wie folgt berechnet:

$\sqrt{\frac{\sum_{i = 1}^{n} (y_{i} - \hat{y_{i}})^{2}}{n}}$ .

RMSE spiegelt somit weitgehend die Eigenschaften von MSE in Bezug auf die Sensitivität gegenüber Sonderfällen wider, ist aber einfacher zu interpretieren, da sie den Verlust in denselben Einheiten wie den Ausgabewert selbst ausdrückt. Dieser Vorteil wird dadurch etwas abgeschwächt, dass die Berechnung von RSME im Vergleich zur Berechnung von MSE einen weiteren Schritt erfordert, was die Rechenkosten erhöht.

Mittlerer absoluter Fehler (Mean Absolute Error, MAE)

Mittlerer absoluter Fehler oder L1-Verlust misst die durchschnittliche absolute Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Wert. Wie MSE ist MAE immer positiv und unterscheidet nicht zwischen zu hohen oder zu niedrigen Schätzungen. Er wird als Summe des Absolutwerts aller Fehler geteilt durch den Stichprobenumfang berechnet: $\frac{1}{n} \sum_{i = 1}^{n} | y_{i} - \hat{y_{i}} |$

Da nicht jeder Verlustwert quadriert wird, ist der MAE robuster gegenüber Sonderfällen als der MSE. MAE ist daher ideal, wenn die Daten einige extreme Werte enthalten können, die das Modell nicht übermäßig beeinflussen sollten. L1-Verlust bestraft kleine Fehler auch stärker als L2-Verlust.

Die MAE-Verlustfunktion ist nicht differenzierbar, wenn die vorhergesagte Ausgabe mit der tatsächlichen Ausgabe übereinstimmt. Daher erfordert MAE während der Optimierung mehr Workaround-Schritte.

Huber-Verlust

Der Huber-Verlust, auch ausgeglichener L1-Verlust genannt, zielt darauf ab, die Stärken von MAE und MSE auszugleichen. Er enthält einen anpassbaren Hyperparameter, δ, der als Übergangspunkt fungiert: Für Verlustwerte unter oder gleich δ ist der Huber-Verlust quadratisch (z. B. MSE); für Verlustwerte größer als δ ist der Huber-Verlust linear (z. B. MAE).

$L_{δ} = {\begin{matrix} \frac{1}{2} (y - \hat{y})^{2} & i F | (y - \hat{y}) | < δ \\ δ (| (y - \hat{y}) | - \frac{1}{2} δ) & o t h e r w i s e \end{matrix}$

Der Huber-Verlust bietet somit eine vollständig differenzierbare Funktion mit der Robustheit von MAE gegenüber Sonderfällen und der einfachen Optimierung von MSE durch Gradientenabstieg. Der Übergang von quadratischem zu linearem Verhalten bei δ führt auch zu einer Optimierung, die im Vergleich zum MSE-Verlust weniger anfällig für Probleme wie verschwindende oder explodierende Gradienten ist.

Diese Vorteile werden durch die Notwendigkeit abgeschwächt, δ sorgfältig zu definieren, was die Modellentwicklung komplexer macht. Ein Huber-Verlust ist am besten geeignet, wenn weder MSE noch MAE zufriedenstellende Ergebnisse liefern können, z. B. wenn ein Modell robust gegenüber Sonderfällen sein sollte, aber dennoch extreme Werte, die außerhalb eines bestimmten Schwellenwerts liegen, hart bestrafen sollte.

Klassifizierungsverlustfunktionen

Klassifizierungsprobleme, und die Verlustfunktionen, die zur Optimierung von Modellen verwendet werden, die sie lösen, werden in binäre Klassifizierung – zum Beispiel „Spam“ oder „kein Spam“, „genehmigen“ oder „ablehnen“ – oder in Mehrklassen-Klassifizierung unterteilt.

Mehrklassen-Klassifizierungsprobleme können auf zwei Arten angegangen werden. Ein Ansatz besteht darin, die relative Wahrscheinlichkeit zu berechnen, dass ein Datenpunkt zu jeder potenziellen Kategorie gehört, und dann die Kategorie auszuwählen, der die höchste Wahrscheinlichkeit zugewiesen wird. Dieser Ansatz wird typischerweise von neuronalen Netzen verwendet, die eine Softmax-Aktivierungsfunktion für Neuronen in der Output-Schicht verwenden. Der alternative Ansatz besteht darin, das Problem in eine Reihe von binären Klassifizierungsproblemen zu unterteilen.

Kreuzentropie-Verlustfunktionen

In den meisten Fällen wird der Klassifikationsverlust in Bezug auf die Entropie berechnet.Entropie ist im Klartext ein Maß für die Unsicherheit innerhalb eines Systems. Vergleichen Sie als intuitives Beispiel einen Münzwurf mit einem Würfelwurf: Ersterer hat eine geringere Entropie, da es bei einem Münzwurf weniger mögliche Ergebnisse (2) gibt als bei einem Würfelwurf (6).

Beim überwachten Lernen werden Modellvorhersagen mit den durch Datenkennzeichnungen bereitgestellten Ground-Truth-Klassifizierungen verglichen. Diese Ground-Truth-Labels sind sicher und haben daher eine geringe oder keine Entropie. Somit können wir den Verlust in Form der Differenz zwischen der Sicherheit messen, die wir mit den Ground-Truth-Labels hätten, und der Sicherheit der vom Modell vorhergesagten Labels.

Die Formel für den Kreuzentropieverlust (Cross-Entropy Loss, CEL) leitet sich von der Formel der Kullback-Leibler-Divergenz (KL-Divergenz) ab, die den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen misst. Letztendlich bedeutet die Minimierung von Verlusten die Minimierung der Differenz zwischen der tatsächlichen Verteilung der Wahrscheinlichkeiten, die jedem potenziellen Label zugewiesen werden, und den relativen Wahrscheinlichkeiten für jedes vom Modell vorhergesagte Label.

Binäre Kreuzentropie (Log-Verlust)

Binärer Kreuzentropieverlust, auch Log-Verlust genannt, wird zur binären Klassifizierung verwendet.Binäre Klassifizierungsalgorithmen geben in der Regel einen Wahrscheinlichkeitswert zwischen 0 und 1 aus.In einem Modell zur Erkennung von E-Mail-Spam könnten beispielsweise E-Mail-Eingaben, die zu einer Ausgabe führen, die näher bei 1 liegt, als „Spam“ gekennzeichnet werden.Eingaben, deren Ausgabe näher bei 0 liegt, würden als „kein Spam“ eingestuft.Eine Ausgabe von 0,5 würde auf maximale Unsicherheit oder Entropie hinweisen. 

Obwohl der Algorithmus Werte zwischen 0 und 1 ausgibt, sind die Ground-Truth-Werte für die richtigen Vorhersagen genau „0“ oder „1“. Die Minimierung des binären Kreuzentropieverlustes bedeutet also nicht nur, dass falsche Vorhersagen bestraft werden, sondern auch, dass Vorhersagen mit geringer Sicherheit bestraft werden.Dadurch wird dem Modell ein Anreiz gegeben, Parameter zu lernen, die Vorhersagen liefern, die nicht nur korrekt, sondern auch sicher sind.Darüber hinaus führt die Konzentration auf die Logarithmen der vorhergesagten Wahrscheinlichkeitswerte dazu, dass der Algorithmus Vorhersagen, die sicher falsch sind, stärker bestraft.

Um die allgemeine Konvention beizubehalten, dass niedrigere Verlustwerte weniger Fehler bedeuten, wird das Ergebnis mit -1 multipliziert. Der Log-Verlust für ein einzelnes Beispiel i wird daher als –(yi·log(p(yi))+(1-yi)·log(1-p(yi))) berechnet, wobei y_i die wahre Wahrscheinlichkeit – entweder 0 oder 1 – und p(y_i) die vorhergesagte Wahrscheinlichkeit ist. Der durchschnittliche Verlust über einen gesamten Satz von n Trainingsbeispielen wird daher wie folgt berechnet: –1n∑i=1nyi·log(p(yi))+(1-yi)·log(1-p(yi)) .

Kategorischer Kreuzentropieverlust

Der kategorische Kreuzentropieverlust (Categorical Cross-Entropy Loss, CCEL) wendet dasselbe Prinzip auf die Mehrklassen-Klassifizierung an.Ein Klassifizierungsmodell mit mehreren Klassen gibt in der Regel einen Wert für jede potenzielle Klasse aus, der die Wahrscheinlichkeit darstellt, dass eine Eingabe zu der jeweiligen Kategorie gehört.Mit anderen Worten: Sie geben die Vorhersagen als Wahrscheinlichkeitsverteilung aus.

Beim Deep Learning verwenden die Klassifikatoren neuronaler Netze in der Regel eine Softmax-Aktivierungsfunktion für Neuronen in der Ausgabeschicht. Der Wert jedes Ausgabeneurons wird auf eine Zahl zwischen 0 und 1 abgebildet, wobei die Werte insgesamt die Summe 1 ergeben.

In einem Datenpunkt, der beispielsweise nur eine potenzielle Kategorie enthält, umfassen die Ground-Truth-Werte für jede Vorhersage daher „1“ für die wahre Klasse und „0“ für jede falsche Klasse. Die Minimierung von CCEL beinhaltet eine Erhöhung des Ausgabewerts für die richtige Klasse und eine Verringerung des Ausgabewerts für falsche Klassen, wodurch die Wahrscheinlichkeitsverteilung näher an die der Ground Truth gebracht wird. Für jedes Beispiel muss der Log-Verlust für jede potenzielle, vom Modell vorhergesagte Klassifizierung berechnet werden.

Scharnierverlust

Scharnierverlust ist eine alternative Verlustfunktion für binäre Klassifikationsprobleme und eignet sich besonders gut für die Optimierung von Support Vector Machine (SVM)-Modellen. Konkret handelt es sich um eine effektive Verlustfunktion zur Optimierung einer Entscheidungsgrenze, die zwei Klassen trennt: Punkte können anschließend danach klassifiziert werden, auf welche Seite der Entscheidungsgrenze sie fallen.

In Algorithmen, die Scharnierverlust verwenden, wird der Ground-Truth-Wert für jedes binäre Label auf {-1, 1} und nicht auf {0,1} abgebildet. Die Scharnierverlustfunktion ℓ ist definiert als ℓ(𝑦)=max(0,1−𝑡⋅𝑦), wobei t das wahre Label und y die Ausgabe des Klassifikators ist. Das Ergebnis dieser Gleichung ist immer nicht-negativ: Wenn 1−𝑡⋅𝑦 negativ ist – was nur möglich ist, wenn t und y dasselbe Vorzeichen haben, weil das Modell die richtige Klasse vorhergesagt hat – ist der Verlust stattdessen als 0 definiert.

Daraus ergeben sich verschiedene Möglichkeiten und Anreize:

Wenn die Modellvorhersagen korrekt und sicher sind, d. h. wenn y das richtige Vorzeichen hat und |y| ≥ 1 ist, ist der Wert von 1–t⋅𝑦 negativ und somit ist ℓ = 0.
Wenn die Modellvorhersagen korrekt, aber nicht sicher sind, d. h. wenn y das richtige Vorzeichen hat, aber |y| < 1 ist, ist der Wert von ℓ positiv, zwischen 0 und 1. Dies schafft einen negativen Anreiz für unsichere Vorhersagen.
Wenn die Modellvorhersagen falsch sind, d. h. wenn y das falsche Vorzeichen hat, ist der Wert von ℓ größer als 1 und nimmt linear mit dem Wert von |y| zu. Dies schafft einen starken negativen Anreiz für falsche Vorhersagen.

Spezialisierte Verlustfunktionen

Einige Modellarchitekturen, insbesondere jene, die im Deep Learning verwendet werden, nutzen mutmaßlich einzigartige, spezialisierte Verlustfunktionen. Obwohl solche Zielfunktionen hinsichtlich ihres Kontexts und ihrer Logik einzigartig sind, handelt es sich dabei häufig (aber nicht immer) lediglich um die spezialisierte Anwendung einer allgemeinen Verlustfunktion auf ein bestimmtes Trainingsziel.

Einige Beispiele:

Autoencoder sind unbeaufsichtigte Modelle, die lernen, eine komprimierte Darstellung von Eingabedaten effizient zu kodieren, indem sie die Daten durch einen „Engpass“ zwängen und dann diese komprimierte Darstellung verwenden, um die ursprüngliche Eingabe zu rekonstruieren. Autoencoder lernen durch Minimieren des Rekonstruktionsverlusts: der Unterschied zwischen der ursprünglichen und der rekonstruierten Eingabe, normalerweise berechnet durch den mittleren quadrierten Fehler (MSE). Variational Autoencoder integrieren KL-Divergenz als Regularisierungsterm.
Objekterkennungsmodelle minimieren zwei Arten von Verlust: Begrenzungsrahmenregressions- und Kreuzentropieverlust. Ersterer verwendet MSE, MAE oder einen spezialisierten Verlust wie Intersection over Union (IoU), um die Koordinaten des vorhergesagten Begrenzungsrahmens mit denen der Ground Truth zu vergleichen. Letzterer misst die Klassifizierung des Objekts selbst.
Kontrastives Lernen, eine Form des selbstüberwachten Lernens, trainiert ein Modell darauf, ähnliche Vektoreinbettungen für ähnliche Datenpunkte auszugeben. Ziel ist die Reduzierung von Kontrastverlust oder spezialisierten Varianten wie Triplettverlust.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Ressourcen

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Zu mehr KI-Know-how

Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.

IBM AI Academy

Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Was ist eine Verlustfunktion?

12. Juli 2024

Autoren

Dave Bergmann

Cole Stryker

Was ist eine Verlustfunktion?

Die neuesten Erkenntnisse und Insights zu KI

Wie funktionieren Verlustfunktionen?

Verlustfunktionen und Modelloptimierung

Verlustfunktionen im Deep Learning

Regularisierung

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Arten von Verlustfunktionen

Auswahl der richtigen Verlustfunktion

Regressionsverlustfunktionen

Mittlerer quadratischer Fehler (Mean Squared Error, MSE)

Mittlerer quadratischer logarithmischer Fehler (Mean Squared Logarithmic Error, MSLE)

Quadratwurzel des mittleren quadratischen Fehlers (Root Mean Squared Error, RMSE)

Mittlerer absoluter Fehler (Mean Absolute Error, MAE)

Huber-Verlust

Klassifizierungsverlustfunktionen

Kreuzentropie-Verlustfunktionen

Binäre Kreuzentropie (Log-Verlust)

Kategorischer Kreuzentropieverlust

Scharnierverlust

Spezialisierte Verlustfunktionen

Ressourcen

Weiterführende Lösungen