Was ist Modelltraining?

Was ist Modelltraining?

Beim Modelltraining wird ein Modell für maschinelles Lernen „unterrichtet“, um die Leistung anhand eines Trainingsdatensatzes von Beispielaufgaben zu optimieren, die für die späteren Anwendungsfälle des Modells relevant sind. Wenn die Trainingsdaten den realen Problemen, mit denen das Modell konfrontiert wird, sehr ähnlich sind, kann das trainierte Modell durch das Erlernen seiner Muster und Korrelationen genaue Vorhersagen zu neuen Daten treffen.

Der Trainingsprozess ist der kritischste Schritt im Lebenszyklus von KI-Modellen, von Prognosesystemen, die auf grundlegenden linearen Regressionsalgorithmen basieren, bis hin zu komplexen neuronalen Netzen, die generative KI antreiben.

Das Modelltraining ist der Schritt des maschinellen Lernens (ML), bei dem das „Lernen“ stattfindet. Beim maschinellen Lernen werden die Parameter eines ML-Modells angepasst. Zu diesen Parametern gehören die Gewichtungen und Verzerrungen in den mathematischen Funktionen, aus denen sich ihre Algorithmen zusammensetzen. Das Ziel dieser Anpassung ist es, genauere Ergebnisse zu erzielen. Die spezifischen Werte für diese Gewichtungen und Verzerrungen, die das Endergebnis des Modelltrainings sind, sind die greifbare Manifestation des „Wissens“ eines Modells.

Mathematisch gesehen besteht das Ziel dieses Lernens darin, eine Verlustfunktion zu minimieren, die den Fehler der Modellausgaben bei Trainingsanfragen quantifiziert. Wenn die Ausgabe der Verlustfunktion unter einen vorgegebenen Schwellenwert fällt – was bedeutet, dass der Modellfehler bei Trainingsaufgaben ausreichend klein ist – gilt das Modell als „trainiert“. Beim verstärkenden Lernen ist das Ziel umgekehrt: Anstatt eine Verlustfunktion zu minimieren, werden die Modellparameter optimiert, um eine Belohnungsfunktion zu maximieren.

In der Praxis umfasst das Modelltraining einen Zyklus aus dem Sammeln und Kuratieren von Daten, dem Ausführen des Modells mit diesen Schulungsdaten, dem Messen von Verlusten, dem entsprechenden Optimieren von Parametern und dem Testen der Modellleistung anhand von Validierungsdatensätzen. Dieser Workflow wird so lange wiederholt, bis zufriedenstellende Ergebnisse erzielt wurden. Ein angemessenes Training könnte auch die Anpassung von Hyperparametern erfordern – strukturelle Entscheidungen, die den Lernprozess beeinflussen, aber selbst nicht „lernbar“ sind – in einem Prozess, der als Hyperparameter-Tuning bezeichnet wird.

Manchmal kann ein bereits trainiertes Modell durch weiteres Lernen mit neuen Trainingsdaten für spezifischere Aufgaben oder Bereiche feinabgestimmt werden. Obwohl sowohl das ursprüngliche Training von Grund auf als auch die anschließende Feinabstimmung „Training“ sind, wird Ersteres in diesem Zusammenhang in der Regel als „Vortraining“ bezeichnet (zur Klarstellung). Die Feinabstimmung ist einer von mehreren Typen des Transferlernens, einem Oberbegriff für maschinelle Lerntechniken, die vorab trainierte Modelle für neue Verwendungszwecke anpassen.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Modelle vs. Algorithmen

Obwohl die Begriffe „Modell“ und „Algorithmus“ im Bereich der künstlichen Intelligenz oft synonym verwendet werden, handelt es sich nicht um dasselbe. Der Unterschied liegt hauptsächlich in der Beziehung jedes Begriffs zum Modelltraining.

  • Algorithmen sind Verfahren, die in der Regel in mathematischer Sprache oder Pseudocode beschrieben werden und dazu dienen, auf der Grundlage der ihnen zur Verfügung gestellten Eingaben Vorhersagen zu treffen oder Entscheidungen zu treffen.

  • Modelle sind das Ergebnis des Prozesses der Optimierung der Parameter eines Algorithmus, um seine Leistung auf einem bestimmten Trainingsdatensatz zu verbessern – und dann auf neuen Daten, die diesen Trainingsbeispielen ähneln. In der Data Science wird dieser Prozess als „Anpassung“ eines Algorithmus an einen Datensatz bezeichnet.

Mit anderen Worten: Ein KI-Modell wird verwendet, um Vorhersagen oder Entscheidungen zu treffen, und ein Algorithmus ist die mathematische Logik, nach der dieses Modell arbeitet. Zwei Modelle können denselben zugrunde liegenden Algorithmus verwenden, aber unterschiedliche Werte für die Gewichte und Verzerrungen innerhalb dieses Algorithmus aufweisen, da sie mit unterschiedlichen Daten trainiert wurden.

Deep Learning ist eine Unterart des maschinellen Lernens, bei der die Modelle aus neuronalen Netzen mit vielen Schichten bestehen – daher der Begriff „deep“ (tief) – und nicht aus explizit entwickelten Algorithmen wie logistischer Regression oder Naive-Bayes-Verfahren. Zwei Deep-Learning-Modelle können dieselbe Struktur aufweisen, wie z. B. ein Autoencoder, unterscheiden sich jedoch in der Anzahl der Schichten, der Anzahl der Neuronen pro Schicht oder den Aktivierungsfunktionen der einzelnen Neuronen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Typen des Modelltrainings

In den meisten Situationen ist Training fast gleichbedeutend mit Lernen: Ein Datenwissenschaftler trainiert, ein Modell lernt. Beim Lernen werden die Parameter eines maschinellen Lernalgorithmus so lange angepasst, bis die Ergebnisse des resultierenden Modells bestimmte Metriken für Genauigkeit oder Nützlichkeit erfüllen. Das Training umfasst das Sammeln von Trainingsdaten und das Anpassen von Hyperparametern, wie z. B. die Auswahl einer Verlustfunktion, die Festlegung der Aktualisierungsrate von Parametern oder die Änderung der Architektur eines neuronalen Netzwerks, um das Lernen zu erleichtern.

KI-Modelle werden in der Regel einem von drei verschiedenen Paradigmen des maschinellen Lernens zugeordnet: überwachtes Lernen, unüberwachtes Lernen oder verstärkendes Lernen. Jeder Typ des maschinellen Lernens hat seine eigenen Anwendungsfälle, Hyperparameter, Algorithmen und Trainingsprozesse.

  • Überwachtes Lernen wird eingesetzt, wenn ein Modell darauf trainiert wird, die „richtige“ Ausgabe für eine Eingabe vorherzusagen. Es gilt für Aufgaben, die ein gewisses Maß an Genauigkeit in Bezug auf eine externe „Ground Truth“ erfordern, wie z. B. Klassifizierung oder Regression.

  • Unüberwachtes Lernen wird eingesetzt, wenn ein Modell darauf trainiert wird, intrinsische Muster und Korrelationen in Daten zu erkennen. Im Gegensatz zum überwachten Lernen wird beim unüberwachten Lernen nicht davon ausgegangen, dass es eine externe Grundwahrheit gibt, mit der die Ergebnisse verglichen werden sollten.

  • Verstärkendes Lernen wird eingesetzt, wenn ein Modell darauf trainiert wird, seine Umgebung zu bewerten und die Maßnahmen zu ergreifen, die die größte Belohnung bringen.

Hierbei ist zu beachten, dass die Definitionen und Unterscheidungen zwischen den einzelnen Paradigmen des maschinellen Lernens nicht immer formal oder absolut sind. Zum Beispiel kann selbstüberwachtes Lernen (SSL) sowohl als überwachtes als auch als unüberwachtes Lernen eingestuft werden, je nachdem, auf welchen Aspekt der Definitionen dieser Begriffe man sich konzentriert. Halbüberwachtes Lernen kombiniert unüberwachtes und überwachtes Lernen.

Es ist auch erwähnenswert, dass manchmal mehrere Typen des maschinellen Lernens verwendet werden können, um ein einzelnes KI-System zu trainieren. Die Versionen von Large Language Models (LLMs), die für Konversationsanwendungen wie Chatbots verwendet werden, durchlaufen in der Regel ein selbstüberwachtes Vortraining, gefolgt von einer überwachten Feinabstimmung und anschließendem verstärkendem Lernen aus menschlichem Feedback (RLHF).

Überwachtes Lernen

Als die vorherrschende Form des Trainings für die neuronalen Netze, aus denen Deep Learning-Modelle bestehen, bildet überwachtes Lernen die Grundlage für die meisten modernen KI-Modelle von heute. Überwachtes Lernen ist das primäre Trainingsparadigma für Aufgaben, die Genauigkeit erfordern, wie z. B. Klassifizierung oder Regression.

Um ein Modell auf Genauigkeit zu trainieren, müssen seine Ausgabevorhersagen für eine bestimmte Eingabe mit den „korrekten“ Vorhersagen für diese Eingabe verglichen werden – in der Regel als „Ground Truth“ bezeichnet. Beim herkömmlichen überwachten Lernen wird diese Grundwahrheit durch gekennzeichnete Datenpaare bereitgestellt. Beispielsweise kombinieren Trainingsdaten für Modelle zur Objekterkennung Rohbilder (die Eingabe) mit kommentierten Versionen der Bilder, die den Standort und die Klassifizierung jedes Objekts in ihnen angeben (die Ausgabe).

Da bei dieser Trainingsmethode ein Mensch die Kontrolle über den Prozess hat und die Grundwahrheit liefert, wird sie als „überwachtes“ Lernen bezeichnet. Das entscheidende Merkmal des überwachten Lernens ist jedoch nicht die Beteiligung von Menschen, sondern vielmehr die Verwendung einer Grundwahrheit und die Minimierung einer Verlustfunktion, die die Abweichung davon misst. Diese Unterscheidung wurde wichtig, als innovative neue Lerntechniken Wege fanden, implizit „Pseudolabels“ aus nicht gekennzeichneten Daten abzuleiten.

Um einem vielseitigeren Konzept des überwachten Lernens zu entsprechen, verwendet die moderne ML-Terminologie „Überwachung“ oder „Überwachungssignale“, um sich auf jede Quelle der Grundwahrheit zu beziehen. Beim selbstüberwachten Lernen, das eigentlich „unüberwacht“ ist, da es nicht gekennzeichnete Daten verwendet, werden Überwachungssignale aus der Struktur der nicht gekennzeichneten Daten selbst abgeleitet. Zum Beispiel werden LLM durch SSL vortrainiert, indem sie maskierte Wörter in Textbeispielen vorhersagen, wobei der Originaltext als Grundwahrheit dient.

Unüberwachtes Lernen

Anders als beim überwachten Lernen wird beim unüberwachten Lernen nicht von der Existenz „richtiger“ Antworten ausgegangen, weshalb es auch keine Überwachungssignale oder konventionellen Verlustfunktionen gibt. Unüberwachte Lernalgorithmen versuchen, intrinsische Muster in nicht gekennzeichneten Daten zu entdecken, wie z. B. Ähnlichkeiten, Korrelationen oder potenzielle Gruppierungen, und sind besonders nützlich, wenn solche Muster für menschliche Beobachter nicht unbedingt offensichtlich sind.

Zu den bekanntesten Kategorien von Algorithmen für unüberwachtes Lernen gehören:

  • Clustering-Algorithmen unterteilen nicht gekennzeichnete Datenpunkte in „Cluster“ oder Gruppierungen, basierend auf ihrer Nähe oder Ähnlichkeit zueinander. Zum Beispiel wird das K-Means-Clustering, ein beliebter Clustering-Algorithmus, in der Marktsegmentierung eingesetzt, um Kunden mit ähnlichen Eigenschaften k Gruppen.

  • Assoziationsalgorithmen erkennen Korrelationen, z. B. zwischen einer bestimmten Handlung und bestimmten Bedingungen. Beispielsweise verwenden E-Commerce-Unternehmen wie Amazon unbeaufsichtigte Assoziationsmodelle, um Empfehlungsmaschinen zu betreiben.

  • Algorithmen zur Reduzierung der Dimensionalität sind darauf ausgelegt, die Komplexität von Daten zu reduzieren, indem sie diese mit einer geringeren Anzahl von Merkmalen darstellen – d. h. sie in weniger Dimensionen darstellen –, während ihre aussagekräftigen Merkmale erhalten bleiben. Sie haben mehrere Anwendungsfälle, darunter Datenkomprimierung, Datenvisualisierung und Feature Engineering.

Wie ihr Name schon sagt, können unüberwachte Lernalgorithmen allgemein als eine Art „Selbstoptimierung“ verstanden werden. Diese Animation des Professors der University of Utah, Andrey Shabalin, Ph.D., zeigt beispielsweise, wie ein k-Means-Clustering-Algorithmus den Schwerpunkt jedes Clusters iterativ optimiert.

Daher ist das Training von KI-Modellen, die unüberwachte Lernalgorithmen verwenden, in der Regel eine Frage der Hyperparameter-Abstimmung. Zum Beispiel ist bei einem Clustering-Algorithmus die ideale Anzahl von Clustern (k) nicht immer offensichtlich und es kann manuelle Experimente erfordern, um optimale Ergebnisse zu erzielen.

Verstärkendes Lernen

Während überwachtes Lernen Modelle trainiert, indem es sie optimiert, um sie an ideale Muster anzupassen, und unüberwachte Lernalgorithmen sich an einen Datensatz anpassen, werden Modelle des verstärkenden Lernens ganzheitlich durch Versuch und Irrtum trainiert. Bei Verstärkungsproblemen gibt es keine einzig richtige Antwort, sondern es geht um „gute“ und „schlechte“ (oder vielleicht neutrale) Entscheidungen.

Statt der unabhängigen Paare von Eingabe-Ausgabe-Daten, die beim überwachten Lernen verwendet werden, arbeitet das bestärkende Lernen (Reinforcement Learning, RL) mit voneinander abhängigen Daten-Tupeln aus Zustand, Aktion und Belohnung. Ein mathematisches Framework für verstärkendes Lernen basiert hauptsächlich auf diesen Komponenten:

  • Der Zustandsraum enthält alle verfügbaren Informationen, die für Entscheidungen relevant sind, die das Modell treffen könnte. Sie ändert sich normalerweise mit jeder Aktion, die das Modell ausführt.

  • Der Aktionsraum enthält alle Entscheidungen, die das Modell zu einem bestimmten Zeitpunkt treffen darf. In einem Brettspiel umfasst das Aktionsfeld alle zu diesem Zeitpunkt zulässigen Züge. Bei der Textgenerierung umfasst der Aktionsraum das gesamte „Vokabular“ der Token, die einem LLM zur Verfügung stehen.

  • Die Belohnungsfunktion bestimmt das positive (oder negative) Feedback, das dem Modell als Ergebnis jeder Aktion in Form eines Belohnungssignals bereitgestellt wird: eine skalare Quantifizierung dieses Feedbacks. Wenn man beispielsweise ein Schachprogramm mit RL trainiert, könnte eine Belohnungsfunktion Züge fördern, die die Gewinnwahrscheinlichkeit erhöhen, und Züge verhindern, die die Wahrscheinlichkeit eines Sieges verringern. Beim Training eines selbstfahrenden Autos könnte eine Belohnungsfunktion von Manövern abhalten, die gegen Gesetze verstoßen oder die Wahrscheinlichkeit der Sicherheit verringern.

  • Eine Richtlinie ist der „Denkprozess“, der das Verhalten eines RL-Agenten bestimmt. Mathematisch gesehen ist eine Richtlinie (π) eine Funktion, die einen Zustand (s) als Eingabe verwendet und eine Aktion (a) zurückgibt:  π(s)a.

Das Ziel eines RL-Algorithmus ist es, eine Strategie so zu optimieren, dass eine maximale Belohnung erzielt wird. Beim Deep Reinforcement Learning wird die Richtlinie als neuronales Netz dargestellt, dessen Parameter kontinuierlich aktualisiert werden, um die Belohnungsfunktion zu maximieren (anstatt eine Verlustfunktion zu minimieren).

So trainieren Sie ein Modell für maschinelles Lernen

Der Lebenszyklus der Modellentwicklung umfasst mehrere Prozesse, von denen einige zyklisch und iterativ wiederholt werden, bis zufriedenstellende Ergebnisse erzielt werden.

Obwohl das verstärkende, überwachte und unüberwachte Lernen jeweils Elemente des Trainings aufweisen, die für ihr Paradigma einzigartig sind, besteht der allgemeine Workflow, der zum Trainieren eines Modells erforderlich ist, aus diesen Schritten:

  • Modellauswahl

  • Datensammlung

  • Datenaufbereitung

  • Auswählen von Hyperparametern

  • Leistung bei Trainingsdaten

  • Berechnung des Verlustes (oder der Belohnung)

  • Optimierung von Parametern 

  • Modellevaluierung

Modellauswahl

Die Auswahl des richtigen Algorithmus (oder der richtigen neuronalen Netzwerkarchitektur) hängt nicht nur von dem Problem ab, das Sie lösen müssen, und von den Typen der Daten, mit denen das Modell arbeiten wird. Der ideale Modelltyp hängt auch davon ab, ob Sie Geschwindigkeit und Effizienz über Genauigkeit und Leistung stellen (oder umgekehrt), sowie vom Budget und den Ihnen zur Verfügung stehenden Hardware- oder Rechenressourcen. Das Training oder die Feinabstimmung eines LLM erfordert beispielsweise oft mehrere Grafikprozessoren (GPUs).

Datenerfassung

Es ist nicht einfach, qualitativ hochwertige Trainingsdaten für Ihren Anwendungsfall zu erhalten, insbesondere für Deep Learning-Modelle, die oft viele Tausende, wenn nicht Millionen von Beispielen für ein optimales Training benötigen. Obwohl eine proprietäre Datenpipeline einzigartige Möglichkeiten zur Anpassung und Wettbewerbsvorteile bietet, gibt es für die meisten Bereiche und Aufgaben seriöse Open-Source-Datensätze. In einigen Bereichen, insbesondere bei der Verarbeitung natürlicher Sprache (NLP), ist die Generierung synthetischer Daten eine zunehmend praktikable Option.

Datenaufbereitung

Rohdaten, die für das Training verwendet werden sollen, müssen in der Regel vorverarbeitet werden, insbesondere wenn sie aus erster Hand erhoben oder aus mehreren Datenquellen zusammengetragen wurden. Dies kann die Bereinigung der Daten, die Normalisierung von Werten und die Standardisierung der Formatierung umfassen. Es gibt viele Dienste, die diesen Prozess teilweise oder vollständig automatisieren, wie z. B. Docling, ein Open-Source-Tool, das PDFs und andere Dateiformate in maschinenlesbareren Text umwandelt, wobei wichtige Strukturelemente erhalten bleiben.

Für das überwachte Lernen müssen Daten gekennzeichnet und mit detaillierten Anmerkungen versehen werden. Beispielsweise müssen Bilder, die für das Training von Bildsegmentierungsmodellen verwendet werden, bis auf Pixelebene beschriftet werden. Diese Kennzeichnung kann mit einem erheblichen Zeit- und Arbeitsaufwand verbunden sein, der in den Zeitplänen und im Budget berücksichtigt werden sollte.

Hyperparameter auswählen

Selbst wenn Sie sich für einen Algorithmus oder eine Modellarchitektur entschieden haben, müssen Sie noch weitere Entscheidungen treffen. Konventionelle ML-Algorithmen sind selten universell einsetzbar, und neuronale Netze sind noch weniger standardisiert. Die Auswahl der richtigen Hyperparameter, der modularen Elemente eines Algorithmus, die außerhalb der Parameteroptimierung liegen, ist für ein effizientes und erfolgreiches Training unerlässlich.

Wenn das Training nicht zufriedenstellend verläuft – oder wenn mit unbeaufsichtigten Lernalgorithmen oder nichtparametrischen überwachten Lernalgorithmen wie Decision Trees gearbeitet wird – kann die Modellleistung durch Hyperparameter-Tuning optimiert und verbessert werden. Es kann sein, dass einige Anläufe und Fehlversuche notwendig sind, um die optimale Lernrate, Batch-Größe, Verlustfunktion (und Regularisierungsterms) oder den optimalen Optimierungsalgorithmus zu ermitteln.

Ein solcher Parameter ist die Initialisierung der lernfähigen Parameter. Sie sind in der Regel randomisiert, aber selbst die Randomisierung von Parametern hat mehrere Strategien. Optimale Anfangsparameter können auch durch eine Technik namens Meta-Learning „erlernt“ werden.

Leistung anhand von Trainingsdaten

Nachdem die Anfangs- und Hyperparameter festgelegt wurden, verarbeitet das Modell eine Reihe von Eingabedatenbeispielen, die aus dem Trainingsdatensatz stammen. Da die Anfangsparameter zufällig sind, liefert das Modell in der Regel noch keine „guten“ Ergebnisse. Das Ziel des ersten Trainingsdurchlaufs besteht lediglich darin, eine Ausgangsbasis zu schaffen, die dann optimiert werden kann. Die Batch-Größe – die Anzahl der Beispiele, die in jedem „Batch“ verarbeitet werden, bevor der Verlust berechnet und die Parameter optimiert werden – ist selbst ein wichtiger Hyperparameter.

Es gibt viele Open-Source-Frameworks für die Konfiguration und Ausführung von Modellen für maschinelles Lernen für Trainingszwecke, wie z. B. PyTorch, Keras oder TensorFlow. Die meisten arbeiten mit Python oder JavaScript und bieten als Community-Projekte umfangreiche Bibliotheken mit Lerninhalten für Anfänger.

Berechnung des Verlustes (oder der Belohnung)

Während Ihr Modell Trainingsbeispiele durchläuft, verfolgt die von Ihnen gewählte Verlustfunktion die Diskrepanz zwischen den Ausgaben des Modells und den „korrekten“ Aktualisierungen für jede Eingabe. Beim Deep Learning, bei dem Modelle neuronale Netze sind, die aus verschiedenen ineinander verschachtelten Gleichungen bestehen, wird die Backpropagation verwendet, um zu berechnen, wie jeder Knoten des neuronalen Netzes zum Gesamtverlust beiträgt.

Beim überwachten Lernen besteht das formale Ziel des Trainings in der Regel darin, diese Verlustfunktion zu minimieren. Einige Modellarchitekturen, wie z. B. Variational Autoencoder (VAE), formulieren das Problem stattdessen neu, indem sie einen Proxy für die Verlustfunktion maximieren. RL-Algorithmen versuchen in der Regel, eine Belohnungsfunktion zu maximieren und manchmal gleichzeitig einen Regularisierungsterm zu minimieren, der unerwünschte Verhaltensweisen bestraft.

Optimierung der Parameter

Die Optimierung eines ML-Algorithmus wird in der Regel durch einen separaten Algorithmus durchgeführt. In der Mathematik dient ein Optimierungsalgorithmus dazu, eine andere Funktion – in diesem Fall eine Verlust- oder Belohnungsfunktion – zu minimieren oder zu maximieren, indem optimale Werte für Variablen in dieser Funktion bestimmt werden. Bei ML sind diese Variablen die Gewichte und Verzerrungen in einem Algorithmus oder zwischen verschiedenen Knoten eines neuronalen Netzwerks.

Der ideale Optimierungsalgorithmus hängt vom Typ des zu trainierenden Modells ab. Viele ML-Algorithmen und insbesondere auf neuronalen Netzen basierende Modelle verwenden Variationen des Gradientenabstiegs. Bestimmte Algorithmen mit quadratischen Funktionen, wie z. B. Support-Vector-Machines (SVMs), könnten besser durch quadratische Programmierung bedient werden. Lineare Regressionsalgorithmen werden in der Regel durch Algorithmen der kleinsten Quadrate optimiert. Das verstärkende Lernen verfügt über eigene Optimierungsalgorithmen, wie die proximale Richtlinienoptimierung (PPO), die direkte Richtlinienoptimierung (DPO) oder die Vorteils-Akteur-Kritiker-Methode (A2C).

Diese Abfolge von Trainingsschritten – Abstimmung der Hyperparameter, Ausführung des Modells auf einer Reihe von Trainingsdaten, Berechnung des Verlusts und Optimierung der Parameter – wird über mehrere Iterationen hinweg wiederholt, bis der Verlust ausreichend minimiert wurde.

Modellevaluierung

Eine gute Leistung der Trainingsdaten ist an sich kein schlüssiger Beweis dafür, dass das Modell erfolgreich trainiert und für die Bereitstellung in der Praxis bereit ist. Es muss darauf geachtet werden, eine Überanpassung zu vermeiden, bei der ein Modell die Trainingsdaten im Wesentlichen auswendig gelernt hat, aber nicht gut auf neue Daten verallgemeinern kann (wodurch der Zweck des Trainings verfehlt wird). Überanpassung kann als das maschinelle Lernäquivalent zu „Teaching to the test“ verstanden werden.

Um eine Überanpassung zu vermeiden, wird üblicherweise ein Teil des Trainingsdatensatzes in einem Prozess namens Kreuzvalidierung separat behandelt. Dieser Prozess ermöglicht es, das Modell mit neuen, unbekannten Daten zu testen und stellt so sicher, dass es richtig trainiert wurde.

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen