Was sind Modellparameter?

Was sind Modellparameter?

Modellparameter sind die gelernten Werte innerhalb eines maschinellen Lernmodells, die bestimmen, wie es Eingabedaten auf Ausgaben, wie z. B. generierten Text oder eine vorhergesagte Klassifizierung, abbildet. Der Zweck eines Algorithmus für maschinelles Lernen besteht darin, die Parameter so lange anzupassen, bis die Ergebnisse eines Modells der künstlichen Intelligenz (KI) mit den erwarteten Ergebnissen übereinstimmen.

Die Werte dieser Parameter bestimmen die Vorhersagen eines Modells und letztendlich die Leistung des Modells bei einer bestimmten Aufgabe. Die Anzahl der Parameter in einem Modell hat direkten Einfluss auf die Fähigkeit des Modells, Muster über Datenpunkte hinweg zu erfassen. Große Modelle, wie sie in der generativen KI verwendet werden, können Milliarden von Parametern haben, so dass sie sehr anspruchsvolle Ergebnisse erzeugen können. Mehr Parameter ermöglichen es den Modellen, nuanciertere Datenmuster genauer zu erfassen, aber bei zu vielen Parametern besteht die Gefahr der Überanpassung.

Verschiedene Algorithmen für maschinelles Lernen haben unterschiedliche Arten von Parametern. Regressionsmodelle haben beispielsweise Koeffizienten, neuronale Netze haben Gewichte und Verzerrungen und einige Algorithmen, wie Support-Vektor-Maschinen oder Zustandsraummodelle, haben einzigartige Arten von Parametern.

Modellparameter, Variablen, die während des Trainings gelernt wurden, sollten nicht mit Hyperparametern verwechselt werden, die im Voraus festgelegt werden. Beide Arten von Parametern beeinflussen die Leistung und das Verhalten eines Modells, jedoch auf deutlich unterschiedliche Weise. 

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Modellparameter vereinfacht

Modellparameter sind in einfachen Modellen vorhanden – selbst in dem einfachsten mathematischen Modell, das eine sich mit konstanter Geschwindigkeit verändernde Größe beschreibt.

Lineare Regression

Um herauszufinden, wie sich die Quadratmeterzahl auf den Preis eines Hauses auswirken kann, könnte man ein einfaches Regressions-Modell verwenden, das die Gleichung y=mx+bnutzt, wobei m (die Neigung) und b (der Achsenabschnitt) Parameter sind. Wenn Sie sie anpassen, wird die resultierende Linie verschoben und geneigt, bis sie am besten zu den Daten passt.

Klassifikation

Ein etwas komplexeres Beispiel wäre die Verwendung eines logistischen Regressionsmodells, um zu bestimmen, ob ein Haus verkauft wird oder nicht, je nachdem, wie viele Tage das Haus auf dem Markt ist.

Die logistische Regression verwendet die Formel:  p=11+e-(wx+b) , wobei p = „Wahrscheinlichkeit eines Verkaufs“ und x = „Tage auf dem Markt“. Auch hier sind w und b Parameter, die das Modell „lernt“. Die Gleichung ist etwas komplexer geworden, aber es sind immer noch nur 2 Parameter im Spiel.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Arten von Modellparametern

Beim maschinellen Lernen gibt es hauptsächlich 2 Arten von Modellparametern: Gewichtungen und Verzerrungen. Im Beispiel eines einfachen linearen Regressionsmodells y=mx+b entspricht die Gewichtung der Steigung m und steuert, wie stark die Eingabe die Ausgabe beeinflusst. Je größer das Gewicht, desto größer ist die Wirkung der Eingabe. Die Verzerrung entspricht dem Schnittpunkt b. Auf diese Weise kann das Modell die gesamte Linie nach oben oder unten verschieben.

Gewichte

Gewichtungen sind die grundlegenden Bedienelemente oder Einstellungen für ein Modell und bestimmen, wie ein Modell neue Daten bewertet und Vorhersagen trifft.

In linearen Regressionsmodellen bestimmen die Gewichtungen den relativen Einfluss der einzelnen Merkmale, die zur Darstellung der einzelnen Eingabedatenpunkte verwendet werden. In neuronalen Netzwerken bestimmen die Gewichtungen den relativen Einfluss der Ausgabe jedes Neurons auf die Ausgabe der Neuronen in der folgenden Schicht. 

In dem Beispiel eines Modells, das versucht vorherzusagen, ob ein Haus verkauft wird, basierend auf Faktoren wie „Tage auf dem Markt“, hat jeder dieser Faktoren ein Gewicht, das widerspiegelt, wie stark dieser Faktor die Wahrscheinlichkeit eines Verkaufs beeinflusst.

Verzerrungen

Verzerrungen ermöglichen es den Modellen, die Ergebnisse unabhängig von den Modellgewichten und den Eingaben anzupassen, indem sie als Schwellenwerte oder Offsets fungieren. Verzerrungen helfen Modellen, größere Muster und Trends in einem Datensatz zu verallgemeinern und zu erfassen. 

Um beim Modell des Hausverkaufs zu bleiben: Historisch gesehen werden vielleicht 60 % aller Häuser in der Gegend verkauft, unabhängig davon, wie viele Tage sie auf dem Markt sind, selbst wenn ein bestimmtes Haus seit vielen Tagen auf der Liste steht oder nur selten gezeigt wird. Die Verzerrung ermöglicht es dem Modell, mit dieser realistischen Basiswahrscheinlichkeit zu beginnen und dann auf der Grundlage der anderen Eingaben nach oben oder unten anzupassen.

Diese Verwendung des Begriffs „Verzerrung“ unterscheidet sich vom Konzept der algorithmischen Verzerrung, bei der ein Modell diskriminierende Ergebnisse liefert. Verzerrung ist auch der Begriff für die Art von Fehler, der dadurch entsteht, dass das Modell falsche Annahmen über die Daten trifft, was zu einer Abweichung zwischen vorhergesagten und tatsächlichen Werten führt. Beide haben nichts mit einer Parameterverzerrung zu tun.

Weitere Parameter

In der Welt des maschinellen Lernens gibt es noch andere Arten von Parametern. Die oben genannten einfachen Modelle verwenden Gewichte und Verzerrungen, ebenso wie weitaus komplexere neuronale Netzwerke, zusammen mit Verstärkungs- und Verschiebungsparametern zur Normalisierung.

Konvolutionale neuronale Netze haben zum Beispiel Filter (auch Kernel genannt), die räumliche Muster erkennen. Rekurrente neuronale Netze mit einem langen Kurzzeitgedächtnis verwenden Gating-Parameter, die den Informationsfluss durch das Netzwerk steuern. Probabilistische Modelle wie Naive Bayes verwenden Parameter, um bedingte Wahrscheinlichkeiten oder die Eigenschaften von Wahrscheinlichkeitsverteilungen zu definieren. Support Vector Machines definieren Parameter, die „Hyperebenen“ zur Trennung von Klassen im Merkmalsraum positionieren und ausrichten. Zustandsraummodelle verfügen über Beobachtungs- und Rauschparameter.

Dies ist eine begrenzte Liste von Beispielen, und die Parameter der verschiedenen Modelle funktionieren auf unterschiedliche Weise. Aber bei allen bestimmen die Parameter, wie die Modelle die Eingabedaten den Ausgaben zuordnen.

Modellparameter im Vergleich zu Hyperparametern

Parameter sind im Wesentlichen die Antworten auf die Frage, die das Modell stellt (z. B. „Was ist die bestmögliche Steigung der Gleichung, die uns mit der größten Genauigkeit sagt, wie hoch der Preis des Hauses sein wird, basierend auf der Quadratmeterzahl?“)

Hyperparameter hingegen können als die Spielregeln betrachtet werden, die dem Modell sagen, wie es die Antwort finden soll. Die Data Scientists, die das Modell trainieren, verwenden ihr Verständnis des Problems, um Grenzen festzulegen, die bestimmen, wie das Modell nach Antworten suchen wird.

Die Modellparameter sind modellintern und werden vom Modell über mehrere Iterationen des Lernprozesses als Reaktion auf die Trainingsdaten aktualisiert. Das Modell aktualisiert die Parameterwerte während des Trainings. Parameter steuern, wie ein Modell auf ungesehene Daten reagiert.

Die Hyperparameter eines Modells liegen außerhalb des Modells und werden vor dem Training durch die Abstimmung der Hyperparameter festgelegt. Einige Hyperparameter bestimmen das Verhalten des Modells während des Trainings, wie z. B. die Lernrate beim Gradientenabstieg oder die Anzahl der Epochen des Trainingsprozesses. 

Andere Hyperparameter sind für die Form und Struktur des Modells verantwortlich, wie z. B. die Anzahl der Entscheidungsbäume in einem Random Forest, der Cluster im k-means Clustering oder der versteckten Schichten in einem neuronalen Netz

Modellparameter in Neural Networks

Modelle für maschinelles Lernen können weitaus komplexer sein als die vorherigen Beispiele. In einem Neural Networks wie z. B. einem Large Language Model (LLM) trifft ein Modell Entscheidungen ähnlich der Art und Weise, wie biologische Neuronen im menschlichen Gehirn zusammenarbeiten. Jedes neuronale Netzwerk besteht aus Schichten von künstlichen Neuronen, wobei jedes Neuron eine mathematische Funktion darstellt, die Zahlen verarbeitet. Beim Deep Learning bestehen neuronale Netze aus vielen dieser Schichten.

Von Schicht zu Schicht

Jedes Neuron kontrolliert, wie stark ein Teil des Netzwerks den anderen beeinflusst. Die Gewichtungen bestimmen die Stärke der Verbindungen zwischen den Neuronen: das Ausmaß, in dem die Ausgabe eines Neurons die Eingabe des nächsten Neurons beeinflusst. 

Während des Trainings erhält das Netzwerk Eingaben. Um das Beispiel der Immobilienpreise fortzusetzen, könnten dies die Quadratmeterzahl, das Baujahr, demografische Daten zur Nachbarschaft und Dutzende anderer Faktoren sein.

Diese Eingabefunktionen werden an die erste Schicht von Neuronen weitergeleitet. Jede Eingabe wird mit einem Gewicht multipliziert, der besten Schätzung des Netzwerks darüber, wie wichtig dieses Neuron ist. Zur Verbesserung der Flexibilität wird eine Verzerrung hinzugefügt, der den Neuronen eine gewisse Unabhängigkeit vom Einfluss der gewichteten Summe der Eingaben der Neuronen in der vorherigen Schicht verleiht. Eine Aktivierungsfunktion entscheidet darüber, wie stark dieses Neuron „feuert“ und gibt die Informationen an die nächste Schicht als Eingabe für die Aktivierungsfunktionen jedes einzelnen Neurons in der nächsten Schicht weiter. Jede dieser Verbindungen von Neuron zu Neuron hat ihr eigenes Gewicht.

Die Gewichtungen bilden eine Matrix, die Verzerrungen einen Vektor und die Schicht berechnet lineare Kombinationen von Eingaben + Verzerrungen und leitet das Ergebnis dann durch eine Aktivierungsfunktion, wie z. B. eine Sigmoid-, Tanh-, ReLU- oder Softmax-Funktion. Die Aufgabe dieser Funktion ist es, Nichtlinearität einzuführen, die es dem Netzwerk ermöglicht, komplexe Muster zu lernen und zu modellieren, anstatt nur lineare Beziehungen.

Die Daten wandern durch die nachfolgenden „verborgenen“ Schichten. Die erste versteckte Schicht könnte die Quadratmeterzahl des Hauses und die Anzahl der Schlafzimmer kombinieren, um die „Gesamtwohnfläche“ zu ermitteln. Eine andere Ebene könnte die geografische Lage des Hauses + die Bewertung des Schulbezirks kombinieren, um die „Attraktivität der Nachbarschaft“ zu bestimmen. Das Modell hat kein menschliches Verständnis davon, was „Nachbarschaftswünsche“ sind. Es erkennt lediglich Muster in den Zahlen seiner Trainingsdaten und stellt Korrelationen her.

Von Schicht zu Schicht beginnt das Netzwerk zu „verstehen“, welche Muster am relevantesten sind. Diese gestapelten Schichten verwandeln einfache Abläufe in ein leistungsstarkes Netz, das komplexe, hierarchische Muster erlernen kann.

Verlust und Backpropagation

In der nächsten Phase berechnet das Netzwerk den Verlust (die Differenz zwischen der Ausgabe des Netzwerks und der Ground Truth – der Struktur der Daten im Trainingsdatensatz). Dadurch wird eine einzelne Zahl bereitgestellt, die angibt, wie weit das Modell entfernt ist.

Dann, während der Backpropagation, berechnet das Netzwerk den Gradienten des Verlustes in Bezug auf die Gewichtungen und Verzerrungen, was dem Netzwerk mitteilt, welche Parameter den Verlust beeinflussen und wie sie angepasst werden müssen, um ihn zu minimieren. Dies geschieht in umgekehrter Reihenfolge, Schicht für Schicht, mit einem Gradientenabstiegsalgorithmus. Optimierungsalgorithmen wie der Gradientenabstieg minimieren eine Verlustfunktion, indem sie dem Modell mitteilen, wie es seine Parameter effizient ändern kann, um den Verlust zu reduzieren.

Die oben genannten Prozesse wiederholen sich so lange, bis das Modell in der Lage ist, Ergebnisse (in diesem Fall den vorhergesagten Immobilienpreis) auf einem gewünschten Leistungsniveau zu liefern.

Das Beispiel der Vorhersage von Immobilienpreisen verdeutlicht, wie neuronale Netzwerke viele Merkmale auf einmal aufnehmen, sie auf nichtlineare Weise kombinieren und eine nützliche Vorhersage ausgeben. Dies hätte jedoch auch mit einem einfacheren linearen Regressionsmodell erreicht werden können. Neuronale Netze kommen besonders gut zur Geltung, wenn die Daten unstrukturiert sind oder wenn die Muster zu komplex oder hochdimensional für herkömmliche Modelle sind. Ein neuronales Netzwerk könnte zum Beispiel Satellitenfotos und Kartendaten aus der Nachbarschaft verarbeiten, um den Verkaufspreis vorherzusagen. Oder ein neuronales Netzwerk könnte darauf trainiert werden, Schlüsselbegriffe in Angebotsbeschreibungen wie „ruhige Straße“ oder „neues Dach“ zu erkennen.

Feinabstimmung

Wenn das anfängliche Training abgeschlossen ist, können die KI-Modelle weiter an spezifische Aufgaben oder Themenbereiche angepasst werden. Feinabstimmung ist der Prozess der Anpassung eines vorab trainierten Modells für bestimmte Anwendungsfälle. Zu diesem Zweck werden die Parameter des Modells durch zusätzliches Training mit neuen Daten aktualisiert.

Andere Arten des Lernens

Das obige Beispiel des neuronalen Netzwerks, das zur Vorhersage von Immobilienpreisen verwendet wird, beschreibt das überwachte Lernen, bei dem Modelle anhand von markierten Daten lernen. In diesem Zusammenhang erhält das Modell sowohl Eingaben als auch die richtigen Ausgaben. Das Modell vergleicht seine Vorhersagen mit der Grundwahrheit (in diesem Fall mit markierten Daten). Die Feinabstimmung erfolgt oft in einem überwachten Kontext.

Unüberwachtes Lernen ermöglicht es Modellen, Parameter zu erlernen, indem sie Muster oder Strukturen in nicht beschrifteten Daten finden, ohne dass ihnen die „richtige Antwort“ mitgeteilt wird. Anstatt die Vorhersagen mit den tatsächlichen Kennzeichnungen zu vergleichen (wie beim überwachten Lernen), optimieren diese Modelle Ziele, die messen, wie gut das Modell die Daten selbst erklärt. Beim Clustering beispielsweise werden Parameter (wie die Clusterzentren bei k-means) iterativ aktualisiert, sodass ähnliche Punkte näher zusammen gruppiert werden. Bei der Dimensionalitätsreduktion werden die Parameter durch die Suche nach den Richtungen gelernt, die die meiste Varianz in den Daten erfassen.

Beim Reinforcement Learning interagiert ein Modell (oder ein von einem Modell gesteuerter Agent) mit einer Umgebung und erhält Belohnungen für korrekte Aktionen. Die Parameter definieren in der Regel eine Strategie oder eine Wertfunktion, die die erwartete Belohnung schätzt. Die Parameter werden aktualisiert, indem die vorhergesagten Belohnungen mit den tatsächlich erhaltenen Belohnungen verglichen werden.

Validierung der Leistung von Modellparametern

Die Verbesserung der Leistung bei Trainingsdaten ist das Ziel des Trainings, aber das ist nur ein Mittel zum Zweck. Das primäre Ziel ist die Generalisierung, die dadurch erreicht wird, dass das Modell so trainiert wird, dass es sich gut auf reale Aufgaben verallgemeinern lässt, die es nicht in seinen Trainingsdaten gesehen hat.

Es muss darauf geachtet werden, Fallstricke wie Überanpassung zu vermeiden, wenn Parameter Rauschen oder zufällige Schwankungen in den Trainingsdaten erfassen, was zu einer schlechten Generalisierung neuer Daten führt. Die Parameter müssen flexibel genug sein, um aussagekräftige Muster zu erlernen, jedoch nicht so flexibel, dass sie irrelevante Details speichern.

Zur Bewertung der Modellleistung werden verschiedene Data Science-Techniken verwendet. Die Kreuzvalidierung ist eine Technik zur Evaluierung von Modellen, bei der der Datensatz in mehrere Teile (Folds) aufgeteilt wird. Das Modell wird auf einigen Faltungen trainiert und auf der verbleibenden Falte getestet. Dieser Vorgang wird so lange wiederholt, bis jede Falte als Testsatz verwendet wurde. Dadurch wird das Risiko einer Überanpassung verringert, da das Modell an mehreren Partitionen der Daten getestet wird. Bei der Kreuzvalidierung werden die Parameter nicht direkt geändert, sondern es wird getestet, wie gut die gelernten Parameter auf ungesehene Daten verallgemeinert werden können. Wenn die Leistung über alle Ebenen hinweg konsistent ist, sind die Parameter wahrscheinlich gut optimiert. Ist dies nicht der Fall, könnten die Modellparameter zu stark an die Untermenge der Trainingsdaten angepasst sein, die es bereits gesehen hat. Weiteres Training mit vielfältigeren Daten kann die Generalisierung verbessern.

Eine weitere Technik ist das Bootstrapping, eine statistische Methode, bei der neue Datensätze durch zufällige Stichproben mit Ersetzung aus dem ursprünglichen Datensatz erstellt werden. Bootstrapping erzeugt viele Parametersätze, da jede Bootstrap-Stichprobe leicht unterschiedlich ist. Wenn Sie sich die Variation zwischen diesen Bootstrap-Modellen ansehen, können Sie messen, wie zuverlässig die Parameter sind, wenn sie auf leicht unterschiedlichen Daten trainiert wurden.

Praktiker verlassen sich auch auf Metriken, die die Leistung des Modells quantifizieren, wie z. B. Genauigkeit, Präzision, Wiedererkennung oder mittlerer quadratischer Fehler. Diese liefern objektives Feedback darüber, ob die aktuellen Parameter das Modell in die richtige Richtung lenken.

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen