Startseite
Think
Themen
Verlustfunktion
Veröffentlicht: 12. Juli 2024
Mitwirkende: Dave Bergmann, Cole Stryker
Beim Machine Learning (ML) wird eine Loss Function verwendet, um die Modellleistung zu messen, indem die Abweichung der Vorhersagen eines Modells von den richtigen „Ground Truth“-Vorhersagen berechnet wird. Bei der Optimierung eines Modells werden die Modellparameter angepasst, um die Ausgabe einer Verlustfunktion zu minimieren.
Eine Loss Function ist eine Art Zielfunktion, was im Kontext der Data Science jede Funktion bezeichnet, deren Minimierung oder Maximierung das Ziel des Modelltrainings darstellt. Der Begriff „Loss Function“, der in der Regel ein Synonym für Kostenfunktion oder Fehlerfunktion ist, bezieht sich speziell auf Situationen, in denen Minimierung das Trainingsziel für ein Machine Learning Modell ist.
Einfach ausgedrückt: Eine Loss Function verfolgt den Fehlergrad in den Ausgaben eines KI-Modells. Dazu wird die Differenz („Verlust“) zwischen einem vorhergesagten Wert – also der Ausgabe des Modells – für eine gegebene Eingabe und dem tatsächlichen Wert oder der Ground Truth quantifiziert. Wenn die Vorhersagen eines Modells genau sind, ist der Verlust gering. Wenn die Vorhersagen ungenau sind, ist der Verlust groß.
Das grundlegende Ziel des Machine Learnings besteht darin, Modelle so zu trainieren, dass sie gute Vorhersagen ausgeben. Loss Functions ermöglichen es uns, dieses Ziel mathematisch zu definieren und zu verfolgen. Während des Trainings „lernen“ Modelle, bessere Vorhersagen auszugeben, indem sie die Parameter so anpassen, dass der Verlust verringert wird. Ein Modell für Machine Learning ist ausreichend trainiert, wenn der Verlust unter einen vorgegebenen Schwellenwert minimiert wurde.
Während die meisten Unternehmen sich über die Ergebnisse, die sie von generativer KI erwarten, im Klaren sind, kann die Wahl des falschen Modells Ihr Unternehmen stark beeinträchtigen. Erkunden Sie in diesem E-Book ein Framework für die Modellauswahl, um Leistungsanforderungen mit Kosten, Risiken, Bereitstellungs- sowie Stakeholder-Anforderungen in Einklang zu bringen.
In einer typischen Trainingskonfiguration trifft ein Modell Vorhersagen anhand einer Reihe von Beispieldatenpunkten aus dem Trainingsdatensatz, und eine Verlustfunktion misst den durchschnittlichen Fehler für jedes Beispiel. Diese Informationen werden dann zur Optimierung der Modellparameter verwendet.
Loss Functions sind spezifisch für Supervised Learning, dessen Trainingsaufgaben die Existenz einer richtigen Antwort annehmen: die Ground Truth. Herkömmliche Unsupervised Learning Algorithmen wie Clustering oder Assoziation enthalten keine „richtigen“ oder „falschen“ Antworten, da sie ausschließlich versuchen, intrinsische Muster in nicht gelabelten Daten zu entdecken.
Für Supervised Learning sind gelabelte Datensätze erforderlich, in denen manuelle Anmerkungen die Ground Truth für jedes Trainingsbeispiel liefern. Bildsegmentierungsmodelle erfordern beispielsweise Trainingsbeispiele, bei denen jedes Pixel entsprechend seiner richtigen Klasse mit Anmerkungen versehen ist. Beim Self Supervised Learning, das Teile von ungekennzeichneten Datenproben und Aufgabenmodellen maskiert oder transformiert, indem sie rekonstruiert werden, dient die ursprüngliche Stichprobe selbst als Ground Truth.
Loss Functions sind nicht einfach Bewertungsmetriken. Sie dienen nicht nur dazu, den Erfolg des Modells zu messen, sondern auch als Eingabe für einen Algorithmus, der die Parameter des Modells optimiert, um den Verlust zu minimieren.
Optimierungsalgorithmen wie der Gradientenabstieg verwenden in der Regel den Gradienten der Loss Function. Der Gradient ist die Ableitung einer Funktion mit mehreren Variablen. Im Wesentlichen beschreibt eine Ableitung die Rate und die Menge, um die sich die Ausgabe einer Funktion an jedem Punkt ändert. Daher ist es wichtig, dass Verlustfunktionen differenzierbar sind: Das heißt, sie müssen an allen Punkten eine Ableitung aufweisen.
Modelle für Machine Learning lernen, durch Anpassungen bestimmter Modellparameter genaue Vorhersagen zu treffen. Ein einfacher linearer Regressions-Algorithmus modelliert Daten beispielsweise mit der Funktion y = wx+b, wobei y die Ausgabe des Modells, x die Eingabe, w eine Gewichtung und b die Verzerrung darstellt. Das Modell lernt, indem es die Gewichtungs- und Verzerrungsterme aktualisiert, bis die Verlustfunktion ausreichend minimiert wurde.
Anhand des Gradienten der Loss Function bestimmen Optimierungsalgorithmen, in welche Richtung die Modellparameter „gestuft“ werden sollen, um sich auf dem Gradienten nach unten zu bewegen und so den Verlust zu verringern.
Deep-Learning-Modelle verwenden große künstliche neuronale Netze, die aus Schichten miteinander verbundener Neuronen bestehen, von denen jedes seine eigene nichtlineare Aktivierungsfunktion hat, anstatt sich auf eine einzelne Funktion zu verlassen. Um das gesamte Netzwerk zu differenzieren, müssen die partiellen Ableitungen von Hunderten, Tausenden oder sogar Millionen separater Variablen und Aktivierungsfunktionen in Bezug auf die anderen berechnet werden.
Dazu verwenden neuronale Netze Backpropagation, um den Gradienten der Verlustfunktion nach einem Vorwärtsdurchlauf zu finden, der mit einer Vorhersage für einen Datenpunkt aus dem Trainingsdatensatz endet. Die Backpropagation, kurz für Rückwärtsausbreitung des Fehlers, beginnt mit der Ausgabe der Verlustfunktion. Bei einem Rückwärtsdurchlauf durch das Netz von der Ausgabeschicht zur Eingabeschicht verwendet die Backpropagation die Kettenregel, um zu berechnen, wie jede einzelne Gewichtung und jede Verzerrung im Netz zum Gesamtverlust beigetragen hat.
Der resultierende Gradient partieller Ableitungen für das gesamte Netz kann dann von Gradientenabstiegs-Algorithmen verwendet werden, um die Netzgewichtungen iterativ zu aktualisieren, bis der Verlust ausreichend minimiert wurde.
Obwohl Modelle trainiert und validiert werden, indem Vorhersagen auf Grundlage eines Trainingsdatensatzes getroffen werden, besteht das ultimative Ziel nicht darin, anhand der Trainingsbeispiele gute Ergebnisse zu erzielen. Das eigentliche Ziel des Machine Learnings besteht darin, Modelle zu trainieren, die sich gut auf neue Beispiele verallgemeinern lassen.
Sich ausschließlich auf die Minimierung einer einzelnen Verlustfunktion zu verlassen, wird als „empirische Risikominimierung“ bezeichnet. Obwohl sie einen offensichtlichen, einfachen Reiz hat, birgt sie die Gefahr eines Overfittings des Modells an die Trainingsdaten und somit eine schlechte Generalisierung. Um dieses Risiko zu verringern, führen viele Algorithmen und Architekturen Regularisierungsterme ein, die die primäre Verlustfunktion modifizieren.
So kann beispielsweise der mittlere absolute Fehler (Mean Absolute Error, MAE) – der in diesem Kontext als L1-Regularisierung bezeichnet wird – verwendet werden, um Knappheit (Sparsity) zu erzwingen, indem die Anzahl der aktivierten Neuronen in einem neuronalen Netz oder das Ausmaß ihrer Aktivierung bestraft wird.
Es gibt eine Vielzahl verschiedener Loss Functions, die jeweils für unterschiedliche Ziele, Datentypen und Prioritäten geeignet sind. Auf der höchsten Ebene werden die am häufigsten verwendeten Verlustfunktionen in Regression Loss Functions und Classification Loss Functions unterteilt.
Regression Loss Functions messen Fehler in Vorhersagen mit kontinuierlichen Werten. Obwohl sie am intuitivsten auf Modelle zutreffen, die quantifizierbare Konzepte wie Preis, Alter, Größe oder Zeit direkt schätzen, gibt es für Regressionsverlust ein breites Anwendungsspektrum. Beispielsweise kann eine Regression Loss Function zur Optimierung eines Bildmodells verwendet werden, dessen Aufgabe darin besteht, den Farbwert einzelner Pixel zu schätzen.
Classification Loss Functions messen Fehler bei Vorhersagen mit diskreten Werten, wie z. B. der Kategorie, zu der ein Datenpunkt gehört, oder ob eine E-Mail Spam ist oder nicht. Die Arten von Klassifizierungsverlusten können weiter unterteilt werden in solche, die für die binäre Klassifizierung geeignet sind, und solche, die für die Klassifizierung mit mehreren Klassen geeignet sind.
Die Auswahl einer Loss Function aus diesen beiden allgemeinen Kategorien sollte von der Art des jeweiligen Anwendungsfalls abhängen. Einige Algorithmen für Machine Learning erfordern eine spezifische Loss Function, die zu ihrer mathematischen Struktur passt, aber für die meisten Modellarchitekturen gibt es, zumindest theoretisch, mehrere Optionen.
Verschiedene Loss Functionen priorisieren unterschiedliche Fehlertypen. So könnten einige zum Beispiel Sonderfälle hart bestrafen, während andere eine geringe Varianz kontrollieren. Einige bieten eine höhere Genauigkeit, allerdings auf Kosten komplexerer Berechnungen und damit mehr Zeit und Rechenressourcen für die Berechnung.
Letztendlich sollte die Wahl einer Verlustfunktion die spezifische Lernaufgabe, die Art der vom Modell analysierten Daten, die Arten von Ungenauigkeiten, die am kostspieligsten sind, und die verfügbaren Rechenressourcen widerspiegeln.
Regressionsprobleme wie die lineare Regression oder die polynomiale Regression geben kontinuierliche Werte aus, indem sie die Beziehung zwischen einer oder mehreren unabhängigen Variablen (x) und einer abhängigen Variablen (y) bestimmen: Sag für x den Wert von y voraus. Der Regressionsverlust muss daher nicht nur darauf reagieren, ob eine Ausgabe falsch ist, sondern auch auf das Ausmaß, in dem sie von der Ground Truth abweicht.
Die Mean Squared Error Loss Function, auch L2-Verlust oder quadratischer Verlust genannt, ist im Allgemeinen die Standardeinstellung für die meisten Regressionsalgorithmen. Wie der Name schon sagt, wird MSE (mean squared error, dt. mittlerer quadratischer Fehler) als Durchschnitt der quadratischen Differenzen zwischen dem vorhergesagten Wert und dem wahren Wert über alle Trainingsbeispiele hinweg berechnet. Die Formel zur Berechnung des MSE über n Datenpunkte lautet: , wobei y der wahre Wert und ŷ der vorhergesagte Wert ist.
Die Quadrierung des Fehlers bedeutet, dass der resultierende Wert immer positiv ist: der MSE bewertet also nur die Größe des Fehlers und nicht seine Richtung. Durch die Quadrierung des Fehlers haben große Fehler zudem einen unverhältnismäßig großen Einfluss auf den Gesamtverlust, wodurch Sonderfälle stark bestraft werden und das Modell einen Anreiz hat, sie zu reduzieren. MSE ist also geeignet, wenn man davon ausgeht, dass die Zielausgaben eine normale (Gaußsche) Verteilung haben.
MSE ist immer differenzierbar, was ihn für die Optimierung von Regressionsmodellen durch Gradientenabstieg praktisch macht.
Mean Squared Logarithmic Error (MSLE)
Bei Regressionsproblemen, bei denen die Zielausgaben ein sehr breites Spektrum an potenziellen Werte aufweisen, (z. B. bei solchen mit exponentiellem Wachstum), kann eine starke Bestrafung großer Fehler kontraproduktiv sein. Der mittlere quadratische logarithmische Fehler (MSLE) gleicht dieses Problem aus, indem er die Quadrate des natürlichen Logarithmus der Differenzen zwischen den vorhergesagten und den Durchschnittswerten mittelt. Es ist jedoch erwähnenswert, dass MSLE eine größere Strafe für zu niedrige Vorhersagen als für zu hohe Vorhersagen zuweist.
Die Formel für MSLE lautet:
Quadratwurzel des mittleren quadratischen Fehlers (Root Mean Squared Error, RMSE)
RMSE ist die Quadratwurzel des MSE und ist daher eng mit der Formel für Standardabweichungen verwandt. Konkret wird RMSE wie folgt berechnet: .
RMSE spiegelt somit weitgehend die Eigenschaften von MSE in Bezug auf die Sensitivität gegenüber Sonderfällen wider, ist aber einfacher zu interpretieren, da sie den Verlust in denselben Einheiten wie den Ausgabewert selbst ausdrückt. Dieser Vorteil wird dadurch etwas abgeschwächt, dass die Berechnung von RSME im Vergleich zur Berechnung von MSE einen weiteren Schritt erfordert, was die Rechenkosten erhöht.
Mean Absolute Erorr oder L1-Verlust misst die durchschnittliche absolute Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Wert. Wie MSE ist MAE immer positiv und unterscheidet nicht zwischen zu hohen oder zu niedrigen Schätzungen. Er wird als Summe des Absolutwerts aller Fehler geteilt durch den Stichprobenumfang berechnet:
Da nicht jeder Verlustwert quadriert wird, ist der MAE robuster gegenüber Sonderfällen als der MSE. MAE ist daher ideal, wenn die Daten einige extreme Werte enthalten können, die das Modell nicht übermäßig beeinflussen sollten. L1-Verlust bestraft kleine Fehler auch stärker als L2-Verlust.
Die MAE Loss Function ist nicht differenzierbar, wenn die vorhergesagte Ausgabe mit der tatsächlichen Ausgabe übereinstimmt. Daher erfordert MAE während der Optimierung mehr Workaround-Schritte.
Der Huber-Verlust, auch ausgeglichener L1-Verlust genannt, zielt darauf ab, die Stärken von MAE und MSE auszugleichen. Er enthält einen anpassbaren Hyperparameter, δ, der als Übergangspunkt fungiert: Für Verlustwerte unter oder gleich δ ist der Huber-Verlust quadratisch (z. B. MSE); für Verlustwerte größer als δ ist der Huber-Verlust linear (z. B. MAE).
Der Huber-Verlust bietet somit eine vollständig differenzierbare Funktion mit der Robustheit von MAE gegenüber Sonderfällen und der einfachen Optimierung von MSE durch Gradientenabstieg. Der Übergang von quadratischem zu linearem Verhalten bei δ führt auch zu einer Optimierung, die im Vergleich zum MSE-Verlust weniger anfällig für Probleme wie verschwindende oder explodierende Gradienten ist.
Diese Vorteile werden durch die Notwendigkeit abgeschwächt, δ sorgfältig zu definieren, was die Modellentwicklung komplexer macht. Ein Huber-Verlust ist am besten geeignet, wenn weder MSE noch MAE zufriedenstellende Ergebnisse liefern können, z. B. wenn ein Modell robust gegenüber Sonderfällen sein sollte, aber dennoch extreme Werte, die außerhalb eines bestimmten Schwellenwerts liegen, hart bestrafen sollte.
Klassifizierungsprobleme, und die Loss Functions, die zur Optimierung von Modellen verwendet werden, die sie lösen, werden in binäre Klassifizierung – zum Beispiel „Spam“ oder „kein Spam“, „genehmigen“ oder „ablehnen“ – oder in Mehrklassen-Klassifizierung unterteilt.
Mehrklassen-Klassifizierungsprobleme können auf zwei Arten angegangen werden. Ein Ansatz besteht darin, die relative Wahrscheinlichkeit zu berechnen, dass ein Datenpunkt zu jeder potenziellen Kategorie gehört, und dann die Kategorie auszuwählen, der die höchste Wahrscheinlichkeit zugewiesen wird. Dieser Ansatz wird typischerweise von neuronalen Netzen verwendet, die eine Softmax-Aktivierungsfunktion für Neuronen in der Output-Schicht verwenden. Der alternative Ansatz besteht darin, das Problem in eine Reihe von binären Klassifizierungsproblemen zu unterteilen.
In den meisten Fällen wird der Klassifikationsverlust in Bezug auf die Entropie berechnet. Entropie ist im Klartext ein Maß für die Unsicherheit innerhalb eines Systems. Vergleichen Sie als intuitives Beispiel einen Münzwurf mit einem Würfelwurf: Ersterer hat eine geringere Entropie, da es bei einem Münzwurf weniger mögliche Ergebnisse (2) gibt als bei einem Würfelwurf (6).
Beim Supervised Learning werden Modellvorhersagen mit den durch Datenkennzeichnungen bereitgestellten Ground-Truth-Klassifizierungen verglichen. Diese Ground-Truth-Labels sind sicher und haben daher eine geringe oder keine Entropie. Somit können wir den Verlust in Form der Differenz zwischen der Sicherheit messen, die wir mit den Ground-Truth-Labels hätten, und der Sicherheit der vom Modell vorhergesagten Labels.
Die Formel für den Kreuzentropieverlust (Cross-Entropy Loss, CEL) leitet sich von der Formel der Kullback-Leibler-Divergenz (KL-Divergenz) ab, die den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen misst. Letztendlich bedeutet die Minimierung von Verlusten die Minimierung der Differenz zwischen der tatsächlichen Verteilung der Wahrscheinlichkeiten, die jedem potenziellen Label zugewiesen werden, und den relativen Wahrscheinlichkeiten für jedes vom Modell vorhergesagte Label.
Binäre Kreuzentropie (Log-Verlust)
Binärer Kreuzentropieverlust, auch Log-Verlust genannt, wird zur binären Klassifizierung verwendet. Binäre Klassifizierungsalgorithmen geben in der Regel einen Wahrscheinlichkeitswert zwischen 0 und 1 aus. In einem Modell zur Erkennung von E-Mail-Spam könnten beispielsweise E-Mail-Eingaben, die zu einer Ausgabe führen, die näher bei 1 liegt, als „Spam“ gekennzeichnet werden. Eingaben, deren Ausgabe näher bei 0 liegt, würden als „kein Spam“ eingestuft. Eine Ausgabe von 0,5 würde auf maximale Unsicherheit oder Entropie hinweisen.
Obwohl der Algorithmus Werte zwischen 0 und 1 ausgibt, sind die Ground-Truth-Werte für die richtigen Vorhersagen genau „0“ oder „1“. Die Minimierung des binären Kreuzentropieverlustes bedeutet also nicht nur, dass falsche Vorhersagen bestraft werden, sondern auch, dass Vorhersagen mit geringer Sicherheit bestraft werden. Dadurch wird dem Modell ein Anreiz gegeben, Parameter zu lernen, die Vorhersagen liefern, die nicht nur korrekt, sondern auch sicher sind. Darüber hinaus führt die Konzentration auf die Logarithmen der vorhergesagten Wahrscheinlichkeitswerte dazu, dass der Algorithmus Vorhersagen, die sicher falsch sind, stärker bestraft.
Um die allgemeine Konvention beizubehalten, dass niedrigere Verlustwerte weniger Fehler bedeuten, wird das Ergebnis mit -1 multipliziert. Der logarithmische Verlust für ein einzelnes Beispiel i wird somit wie folgt berechnet: , wobei yi die wahre Wahrscheinlichkeit ist – entweder 0 oder 1 – und p(yi) die vorhergesagte Wahrscheinlichkeit. Der durchschnittliche Verlust über einen ganzen Satz von n Trainingsbeispielen wird daher wie folgt berechnet: .
Kategorischer Kreuzentropieverlust
Der kategorische Kreuzentropieverlust (Categorical Cross-Entropy Loss, CCEL) wendet dasselbe Prinzip auf die Mehrklassen-Klassifizierung an. Ein Klassifizierungsmodell mit mehreren Klassen gibt in der Regel einen Wert für jede potenzielle Klasse aus, der die Wahrscheinlichkeit darstellt, dass eine Eingabe zu der jeweiligen Kategorie gehört. Mit anderen Worten: Sie geben die Vorhersagen als Wahrscheinlichkeitsverteilung aus.
Beim Deep Learning verwenden die Klassifikatoren neuronaler Netze in der Regel eine Softmax-Aktivierungsfunktion für Neuronen in der Ausgabeschicht. Der Wert jedes Ausgabeneurons wird auf eine Zahl zwischen 0 und 1 abgebildet, wobei die Werte insgesamt die Summe 1 ergeben.
In einem Datenpunkt, der beispielsweise nur eine potenzielle Kategorie enthält, umfassen die Ground-Truth-Werte für jede Vorhersage daher „1“ für die wahre Klasse und „0“ für jede falsche Klasse. Die Minimierung von CCEL beinhaltet eine Erhöhung des Ausgabewerts für die richtige Klasse und eine Verringerung des Ausgabewerts für falsche Klassen, wodurch die Wahrscheinlichkeitsverteilung näher an die der Ground Truth gebracht wird. Für jedes Beispiel muss der Log-Verlust für jede potenzielle, vom Modell vorhergesagte Klassifizierung berechnet werden.
Scharnierverlust ist eine alternative Loss Function für binäre Klassifikationsprobleme und eignet sich besonders gut für die Optimierung von Support Vector Machine (SVM)-Modellen. Konkret handelt es sich um eine effektive Loss Fuction zur Optimierung einer Entscheidungsgrenze, die zwei Klassen trennt: Punkte können anschließend danach klassifiziert werden, auf welche Seite der Entscheidungsgrenze sie fallen.
In Algorithmen, die Scharnierverlust verwenden, wird der Ground-Truth-Wert für jedes binäre Label auf {-1, 1} und nicht auf {0,1} abgebildet. Die Scharnierverlustfunktion ℓ ist definiert als ℓ(𝑦)=max(0,1−𝑡⋅𝑦), wobei t das wahre Label und y die Ausgabe des Klassifikators ist. Das Ergebnis dieser Gleichung ist immer nicht-negativ: Wenn 1−𝑡⋅𝑦 negativ ist – was nur möglich ist, wenn t und y dasselbe Vorzeichen haben, weil das Modell die richtige Klasse vorhergesagt hat – ist der Verlust stattdessen als 0 definiert.
Daraus ergeben sich verschiedene Möglichkeiten und Anreize:
Wenn die Modellvorhersagen korrekt und sicher sind, d. h. wenn y das richtige Vorzeichen hat und |y| ≥ 1 ist, ist der Wert von 1–t⋅𝑦 negativ und somit ist ℓ = 0.
Wenn die Modellvorhersagen korrekt, aber nicht sicher sind, d. h. wenn y das richtige Vorzeichen hat, aber |y| < 1 ist, ist der Wert von ℓ positiv, zwischen 0 und 1. Dies schafft einen negativen Anreiz für unsichere Vorhersagen.
Wenn die Modellvorhersagen falsch sind, d. h. wenn y das falsche Vorzeichen hat, ist der Wert von ℓ größer als 1 und nimmt linear mit dem Wert von |y| zu. Dies schafft einen starken negativen Anreiz für falsche Vorhersagen.
Einige Modellarchitekturen, insbesondere jene, die im Deep Learning verwendet werden, nutzen mutmaßlich einzigartige, spezialisierte Verlustfunktionen. Obwohl solche Zielfunktionen hinsichtlich ihres Kontexts und ihrer Logik einzigartig sind, handelt es sich dabei häufig (aber nicht immer) lediglich um die spezialisierte Anwendung einer allgemeinen Loss Function auf ein bestimmtes Trainingsziel.
Einige Beispiele:
Autoencoder sind unbeaufsichtigte Modelle, die lernen, eine komprimierte Darstellung von Eingabedaten effizient zu kodieren, indem sie die Daten durch einen „Engpass“ zwängen und dann diese komprimierte Darstellung verwenden, um die ursprüngliche Eingabe zu rekonstruieren. Autoencoder lernen durch Minimieren des Rekonstruktionsverlusts: der Unterschied zwischen der ursprünglichen und der rekonstruierten Eingabe, normalerweise berechnet durch den mittleren quadrierten Fehler (MSE). Variational Autoencoder integrieren KL-Divergenz als Regularisierungsterm.
Objekterkennungsmodelle minimieren zwei Arten von Verlust: Begrenzungsrahmenregressions- und Kreuzentropieverlust. Ersterer verwendet MSE, MAE oder einen spezialisierten Verlust wie Intersection over Union (IoU), um die Koordinaten des vorhergesagten Begrenzungsrahmens mit denen der Ground Truth zu vergleichen. Letzterer misst die Klassifizierung des Objekts selbst.
Kontrastives Lernen, eine Form des selbstüberwachten Lernens, trainiert ein Modell darauf, ähnliche Vektoreinbettungen für ähnliche Datenpunkte auszugeben. Ziel ist die Reduzierung von Kontrastverlust oder spezialisierten Varianten wie Triplettverlust.
Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.
Stellen Sie sich die Art und Weise, wie Sie mit KI arbeiten, neu vor: Unser vielfältiges, globales Team von mehr als 20.000 KI-Experten kann Ihnen dabei helfen, KI und Automatisierung in Ihrem Unternehmen schnell und sicher zu entwerfen und zu skalieren, indem es mit unserer eigenen IBM watsonx-Technologie und einem offenen Ökosystem von Partnern arbeitet, um jedes KI-Modell in jeder Cloud bereitzustellen, geleitet von Ethik und Vertrauen.
Beschleunigen Sie verantwortungsvolle, transparente und erklärbare KI-Workflows sowohl für generative KI als auch Modelle für maschinelles Lernen. Bewerten und überwachen Sie den Zustand des Modells, die Genauigkeit, die Drift, die Verzerrungen und die Qualität von Gen AI.
Multiplizieren Sie mit unserer KI- und Datenplattform der nächsten Generation die Leistungsfähigkeit von KI.
Erfahren Sie, wie Verlustfunktionen beim Training und der Optimierung neuronaler Netze – dem Rückgrat von Deep Learning und generativer KI – durch Backpropagation verwendet werden.
Erlernen Sie die Grundlagen zum Aufbau neuronaler Netze, auch ohne die Hilfe von Frameworks, die die Verwendung möglicherweise erleichtern.
Erkunden Sie einige der wichtigsten Aspekte von KI und ihrer Teilbereiche, einschließlich einer kurzen Geschichte und grundlegender Konzepte, die Sie von den Anfängen prädiktiver Algorithmen bis hin zu Meilensteinen des modernen Deep Learning führen.