Was ist Prompt-Tuning?

Autor(en):

Vrunda Gadesha

AI Advocate | Technical Content Author

Prompt Tuning ist eine parametereffiziente Feinabstimmungstechnik (PEFT), die große vortrainierte Modelle an neue Aufgaben anpasst, ohne ihre Milliarden von Parametern zu aktualisieren. Stattdessen lernt es einen kleinen Satz von trainierbaren Vektoren – sogenannte Prompts oder virtuelle Tokens –, die in die Eingabe des Modells eingefügt werden. Diese Vektoren wirken als kontinuierliche Signale, die das eingefrorene Modell in Richtung des erwarteten Verhaltens steuern und das Rückgrat intakt halten. Diese Perspektive reduziert die Rechen- und Speicherkosten erheblich und ist daher ideal für Unternehmen, die große Modelle für verschiedene Anwendungsfälle anpassen müssen. 1, 2

Wie unterscheidet es sich von „Prompting“ und „Feinabstimmung“?

Prompt Engineering beruht auf der Erstellung intelligenter Textanweisungen (harte Prompts), um einem Modell das richtige Verhalten zu verleihen. Hard Prompts sind zwar in manchen Fällen effektiv, aber unzuverlässig und schwer im großen Maßstab zu optimieren. Das bedeutet, dass beim Prompt Engineering bereits geringfügige Änderungen am Wortlaut zu erheblichen und unvorhersehbaren Abweichungen in der Leistung führen können, weshalb eine systematische Optimierung schwierig ist. Jedoch werden bei der vollständigen Feinabstimmung alle Modellparameter aktualisiert, was rechen- und speicherintensiv ist – insbesondere bei Modellen mit Hunderten von Milliarden von Gewichten. Prompt-Tuning schafft ein Gleichgewicht: Es verwendet kontinuierliche Einbettungen anstelle von diskretem Text, trainiert nur diese kleinen Vektoren und erreicht bei vielen Aufgaben eine Leistung, die nahezu der vollständigen Feinabstimmung entspricht, und ist dabei weitaus effizienter. 2, 3

Denken Sie über Prompts hinaus und erfassen Sie den gesamten Kontext 

Bleiben Sie mit dem Think-Newsletter über die neuesten Branchennachrichten, KI-Tools und aufkommende Trends im Bereich Prompt Engineering auf dem Laufenden. Außerdem erhalten Sie Zugang zu neuen Erläuterungen, Tutorials und Experteneinblicken – direkt in Ihrem Posteingang. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Schlüsselkomponenten

Der Prompt-Tuning-Ansatz basiert auf Kernkomponenten, die zusammenarbeiten, um große vortrainierte Modelle anzupassen. Die Methode verwendet ein eingefrorenes Modell, lernt eine Reihe von Soft Prompt-Einbettungen durch gradientenbasierte Optimierung und wird von einem aufgabenspezifischen Datensatz geleitet. Diese Elemente ermöglichen eine parametereffiziente Anpassung, ohne das gesamte Modell neu zu trainieren. 1, 2

Vortrainiertes, eingefrorenes Modell: Ein großes Sprachmodell (Large Language Model, LLM) oder ein Vision-Transformator dient als Backbone. Es bleibt während des Trainings eingefroren, wobei das allgemeine Wissen erhalten bleibt und gleichzeitig die Rechen- und Speicherkosten gesenkt werden.4

Einbetten von Soft Prompts: Diese Prompts sind trainierbare Vektoren, auch als virtuelle Token bekannt, die an die tokenisierte Eingabe angehängt oder eingefügt werden. Sie fungieren als kontinuierliche Signale, die das Modell in Richtung der Ausgabeaufgabe steuern, ohne seine internen Gewichtungen zu verändern.4

Aufgabenspezifischer Datensatz: Ein beschrifteter Datensatz, der auf die nachgelagerte Aufgabe ausgerichtet ist, ist für die überwachte Optimierung der Soft Prompts unerlässlich.

Gradientenbasierte Optimierung: Nur die Soft-Prompt-Parameter und der leichtgewichtige Head (optional) werden mithilfe von Optimierern aktualisiert, während der Backbone eingefroren bleibt. Diese Methode gewährleistet Effizienz und Stabilität während der Aufgabe.4

Wie in der Abbildung gezeigt, funktioniert das Prompt-Tuning so, dass ein kleiner Satz trainierbarer Vektoren in die Eingabe eines eingefrorenen, vortrainierten Modells eingefügt wird. Diese Prompts funktionieren als versteckte Anweisungen, die das Modell zur Zielaufgabe führen, ohne Milliarden von Parametern zu aktualisieren.

Neben diesen Kernkomponenten beeinflussen mehrere Designentscheidungen die Leistung erheblich:

Länge des Prompts: Die Anzahl der virtuellen Token im Soft Prompt ist ein entscheidend Hyperparameter. Verschiedene Forscher führten Experimente durch und leiteten daraus ab, dass die optimale Länge je nach Aufgabe variiert. So können einfache Klassifizierungsaufgaben beispielsweise mit kürzeren Prompts (z. B. unter 20 Token) am besten funktionieren, während komplexe Sequenzkennzeichnungsaufgaben längere Prompts (z. B. etwa 100 Token) erfordern könnten.5

Prompt-Platzierung: Dieses Element optimiert die Platzierung der Prompts, unabhängig davon, ob sie als Präfix, Suffix oder verschachtelt innerhalb der Eingabesequenz erscheinen.

Initialisierungsstrategie: Das Starten von Soft Prompts mit zufälligen Werten, abgetasteten Einbetten oder aufgabenspezifischen Tokens kann sich auf die Geschwindigkeit und Genauigkeit der Konvergenz auswirken.4

Diese zusätzlichen Elemente sind nicht obligatorisch, werden aber empfohlen, um optimale Ergebnisse zu erzielen.

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

Beispiel: Stimmungsanalyse mit Prompt-Tuning

Lassen Sie uns die Aufgabe der Stimmungsanalyse verstehen, die eine klare Erklärung der Mechanismen und Vorteile des Prompt-Tunings liefert. Angenommen, das Ziel besteht darin, ein Modell mit 175 Milliarden Parametern anzupassen, um Film-Reviews als „positiv“ oder „negativ“ zu klassifizieren. Eine vollständige Feinabstimmung wäre unverhältnismäßig teuer und langsam. Beim Prompt-Tuning sieht der Prozess wie folgt aus:

Beginnen Sie mit einem eingefrorenen, vortrainierten Modell: Das 175B-Parameter-Backbone bleibt völlig unangetastet und bewahrt seinen umfangreichen Bestand an allgemeinem Wissen, das während des Vortrainings erlernt wurde.5

Soft Prompts hinzufügen: Ein kleiner Satz trainierbarer Vektoren (z. B. 20 virtuelle Token) wird an die Eingabeeinbettungen von jedem Film-Review angehängt. Diese Vektoren sind kein für Menschen lesbarer Text; sie sind kontinuierliche Einbettungen, die im selben hochdimensionalen Raum wie das Vokabular des Modells existieren (z. B. ein 12.288-dimensionaler Raum für ein Modell dieser Größenordnung). Durch Optimierung lernen diese Vektoren, ein kontinuierliches, aufgabenspezifisches Signal zu kodieren, das das Verhalten des Modells steuert.

Geben Sie die Eingabe ein: Zum Beispiel

[Soft Prompt] Der Film war absolut fantastisch!

In diesem Beispiel nehmen wir an, dass wir 20 Soft-Prompt-Token für eine Stimmungsanalyseaufgabe initialisieren. Nach dem Training könnte die Eingabe intern so aussehen:

[<v1>, <v2>, <v3>, ... <v20>, The, movie, was, absolutely, fantastic, !]

Hier ist jedes v1 ein erlernter, hochdimensionaler Prompt-Vektor. Das Ziel des Trainings ist es, die optimalen Werte für die Vektoren zu finden, die das eingefrorene Modell dazu bringen, die Stimmung des nachfolgenden Textes korrekt zu klassifizieren.

Nur die Soft Prompts trainieren: Durch die Verwendung eines gekennzeichneten Datensatzes von Film-Reviews wird der Trainingsprozess eingeleitet. Durch Backpropagation wird der Fehlergradient berechnet, aber der Optimierungsschritt aktualisiert nur die Parameter der weichen Prompt-Einbettungen. Bei diesem Ansatz werden nur wenige tausend Parameter anstelle der 175 Milliarden Gewichte des Modells abgestimmt.5

Mit Modularität bereitstellen: Sobald das Training abgeschlossen ist, stellt der resultierende Satz von 20 Vektoren die gesamte aufgabenspezifische Anpassung dar. Um dasselbe Basismodell für eine andere Aufgabe, z. B. die Spam-Erkennung, anzupassen, trainiert man einfach einen neuen Satz von Soft Prompts auf einen Spam-Datensatz und tauscht sie zur Inferenzzeit ein.
Diese Technik bietet erhebliche Effizienzvorteile. Anstatt für jede Aufgabe eine separate, vollständige Kopie des Modells zu speichern – ein 175B-Parametermodell kann bis zu 350 GB benötigen –, muss man die aufgabenspezifischen Prompt-Parameter speichern, die möglicherweise nur wenige KB groß sind.1 Diese Modularität macht Prompt-Tuning zu einer praktischen und kostengünstigen Lösung für groß angelegte Modellanpassungen.2

Vergleichende Analyse mit anderen PEFT-Methoden

Die auf Prompts basierende Optimierung ist eine von mehreren Familien innerhalb des breiteren Spektrums parametereffizienter Feinabstimmung (PEFT) von Methoden und Ansätzen. Das Verständnis der Überschneidungen der Methode mit anderen Methoden ist für Anwender unerlässlich, um die am besten geeignete Technik auszuwählen. Sie haben die Wahl zwischen Leistung, Ausdruckskraft, Effizienz und Komplexität der Implementierung.

MethodeArchitektonische ModifikationAusdruckskraft oder KraftTrainierbare GrößeVorteileNachteile

Deep Prompt-Tuning (P-Tuning v2)3

Fügt jeder Schicht des Modells trainierbare Vektoren („Prompts“) hinzu und beeinflusst so den Aufmerksamkeits- mechanismus.

Hoch. Ruft vorhandene Modell- fähigkeiten ab und kombiniert sie effektiv.

~0,1–3 % der Modell-parameter.

Universell einsetzbar über alle Modellskalen hinweg; einfacher als LoRA für viele NLU/NLG-Aufgaben.

Weniger ausdrucks- stark als LoRA für wirklich neuartige Aufgaben; kann empfindlich auf Hyperparameter reagieren.

LoRA (Low-Rank-Adaptation)6

Fügt trainierbare Low-Rank-Matrizen parallel zu bestehenden Gewichtungs-matrizen ein (z. B. in Aufmerksam-keitsebenen).

Sehr hoch. Kann völlig neue Aufmerksam-keitsmuster und Verhaltensweisen erlernen, was es leistungsfähiger macht als Prompt-basierte Methoden.

~0,1–1 % der Modell-parameter.

Die ausdrucks-starkste PEFT-Methode; keine zusätzliche Latenz, da Gewichtungen zusammengeführt werden können.

Komplexer in der Implementierung und der Abstimmung des Rang-Hyperparameters.

Adapter

Fügt neue, kleine neuronale Netzwerke seriell in jede Transforma-torebene ein.

Hoch. Fügt dem Modell neue Rechen-kapazität hinzu.

~1–4 % der Modell-parameter

Stabil und etabliert, hochmodular.

Kann aufgrund der seriellen Verarbeitung und der höheren Parameteranzahl als bei LoRA oder Prompts eine leichte Latenz einführen.

Vorteile und Einschränkungen

Prompt-Tuning hat in Echtzeitanwendungen viele Vorteile, aber es ist wichtig, seine Grenzen zu kennen.

Vorteile

Die wichtigsten Stärken des Prompt-Tunings sind Effizienz, Modularität und Beibehaltung des Wissens des Basismodells.

Außergewöhnliche Parameter- und Kosteneffizienz: Der wichtigste Vorteil ist die drastische Reduzierung der trainierbaren Parameter. Durch die Aktualisierung nur eines kleinen Satzes von Soft-Prompt-Vektoren, die oft weniger als 1 % des gesamten Modells ausmachen, werden die Rechen- und Speicherkosten erheblich gesenkt. Diese Strategie macht die Anpassung von massiven Foundation Models für Unternehmen mit begrenzten Rechenressourcen möglich.

Modularität und skalierbare Bereitstellung: Da jede Aufgabe in einem kleinen, unabhängigen Satz von Prompt-Parametern gekapselt ist, kann ein einzelnes eingefrorenes Backbone-Modell für zahlreiche Aufgaben angepasst werden, indem einfach diese leichtgewichtigen Prompt-Dateien zur Inferenzzeit ausgetauscht werden. Diese „Plug-and-Play“-Architektur ist hochgradig modular und macht es überflüssig, für jede Anwendung separate, mehrere Gigabyte große Modellkopien zu speichern und zu verwalten.

Eindämmung von katastrophalem Vergessen: Eine vollständige Feinabstimmung birgt das Risiko, dass das vortrainierte Wissen eines Modells beim Erlernen einer neuen Aufgabe überschrieben oder beeinträchtigt wird. Da die Gewichte des Backbone-Modells vollständig eingefroren bleiben, bleibt das umfangreiche allgemeine Wissen, das während des Vortrainings erlernt wurde, erhalten.

Dateneffizienz: Im Vergleich zur vollständigen Feinabstimmung, die oft große, beschriftete Datensätze für jede neue Aufgabe erfordert, kann Prompt-Tuning auch mit kleineren, bescheideneren Datensätzen eine starke Leistung erzielen.

Begrenzungen

Trotz seiner Stärken hat das Prompt-Tuning seine Nachteile, z. B. Einschränkungen der Ausdruckskraft, Schwierigkeiten beim Training und mangelnde Interpretierbarkeit.

Begrenzte Ausdruckskraft: Eine zentrale theoretische Einschränkung besteht darin, dass Prompt- und Präfix-Tuning weniger aussagekräftig sind als Methoden wie LoRA oder vollständige Feinabstimmung. Die formale Analyse hat gezeigt, dass diese Methoden zwar funktionieren, indem sie eine Verzerrung zur Ausgabe von Aufmerksamkeitsblöcken hinzufügen, aber die erlernten Aufmerksamkeitsmuster des Modells nicht grundlegend verändern können. Das bedeutet, dass Prompt-Tuning sehr effektiv ist, wenn es darum geht, bereits im Modell vorhandene Fähigkeiten zu erlernen und zu kombinieren, aber es kann daran scheitern, wirklich neue Aufgaben zu lernen, die neue Denkmuster erfordern.

Trainingsinstabilität und Hyperparameter-Sensibilität: Eine der größten praktischen Herausforderungen ist die Sensibilität der Methode gegenüber Hyperparametern. Der Trainingsprozess kann schwierig zu konvergieren sein und hängt stark von der Wahl der Lernrate und der Prompt-Initialisierungsstrategie sowie der Länge ab, sodass oft eine sorgfältige und umfangreiche Anpassung erforderlich ist, um optimale Ergebnisse zu erzielen.

Das „Blackbox“-Problem der Interpretierbarkeit: Eine wesentliche und anhaltende Einschränkung ist die inhärente mangelnde Interpretierbarkeit von Soft Prompts. Da es sich um kontinuierliche, hochdimensionale Vektoren handelt, die durch einen Gradientenabstieg optimiert sind, entsprechen sie keinem von Menschen lesbaren Text.

Diese „Blackbox“-Natur macht es schwierig zu verstehen, was der Prompt gelernt hat, warum er das Modell in eine bestimmte Weise steuert und wie er Fehler beheben kann, wenn er ausfällt. Abhängigkeit vom Maßstab des Modells: Die Effektivität der ursprünglichen Prompt-Tuning-Methode auf Eingabeebene hängt vom Maßstab des Backbone-Modells ab. Bei Modellen mit über 10 Milliarden Parametern kann es zwar mit der vollständigen Feinabstimmung mithalten, seine Leistung ist jedoch bei kleineren, häufiger verwendeten Modellen deutlich geringer.

Anwendungsfälle

Die Prinzipien des Prompt-Tunings haben sich als äußerst anpassungsfähig erwiesen und reichen weit über ihre ursprünglichen Anwendungen in der Verarbeitung natürlicher Sprache hinaus. Die Technik ist heute eine wichtige Voraussetzung für die effiziente Anpassung von Modellen in multimodalen Domänen, der Sprachverarbeitung und für fortgeschrittene Lernparadigmen.

Multimodales Prompt-Tuning (Vision-Sprache-Modelle): Prompt-Tuning ist eine entscheidende Technik zur Anpassung vortrainierter Vision-Sprache-Modelle (VLMs) wie CLIP an nachfolgende visuelle Aufgaben. In diesem Kontext können Prompts für eine oder beide Modalitäten entwickelt werden.7

Anwendungen in der Sprachverarbeitung: Das Prompt-Tuning-Paradigma wurde erfolgreich auf den Bereich der Sprachverarbeitung ausgeweitet. Bei dieser Anwendung wird eine rohe Sprachäußerung in diskrete akustische Einheiten kodiert und eine Reihe von lernbaren, aufgabenspezifischen Soft Prompts an diese Sequenz angehängt. Dieses Framework ist einheitlich und ermöglicht die Anpassung eines einzelnen vortrainierten Sprachmodells für eine Vielzahl von Aufgaben. Dazu gehören das Erkennen von Schlüsselwörtern, die Klassifizierung gesprochener Absichten und sogar die automatische Spracherkennung (ASR), während nur ein kleiner, aufgabenspezifischer Prompt trainiert wird.

Multitasking und mehrsprachiges Lernen: Um die Effizienz und Generalisierung weiter zu steigern, haben Forscher den Fokus vom isolierten Training von Einzelaufgaben auf Prompts verlagert. Fortschrittliche Methoden konzentrieren sich nun auf das Erlernen von gemeinsamen Prompts, die auf mehrere Aufgaben oder Sprachen übertragen werden können.

  • Multitasking-Prompt-Tuning (MPT): Dieser Ansatz destilliert Wissen aus mehreren Quellaufgaben in einen einzigen, übertragbaren gemeinsamen Prompt. Dieser gemeinsame Prompt kann dann effizient an neue Zielaufgaben angepasst werden, wobei nur 0,035 % der Modellparameter pro Aufgabe erforderlich sind und in Few-Shot-Lernszenarien eine starke Leistung erzielt werden kann.
  • Mehrsprachige Feinabstimmung: Studien zu mehrsprachigen Modellen haben ergeben, dass die Multitask-Feinabstimmung an einer Sammlung von ausschließlich englischen Datensätzen und Prompts die Zero-Shot-Leistung eines Modells bei Aufgaben in anderen Sprachen als Englisch erheblich verbessern kann. Diese Methode zeigt, dass das Modell Fähigkeiten zur Aufgabenlösung erlernt, die bis zu einem gewissen Grad sprachunabhängig sind.

Zusammenfassung

Im Forschungsbereich der künstlichen Intelligenz, des maschinellen Lernens und der generativen KI hat sich Prompt-Tuning als eine entscheidende Methode für die effiziente Modelloptimierung von KI-Modellen herausgestellt. Im Gegensatz zum vollständigen Modelltraining, bei dem alle Modellgewichtungen verändert werden und das Risiko einer Überanpassung mit begrenzten Trainingsdaten besteht, konzentriert sich diese Technik auf die Optimierung der Eingabe-Prompts, die an den Eingabetext angehängt sind. Durch einen Prozess der Automatisierung und Iteration soll ein optimaler Prompt gefunden werden, der effektive Prompts für bestimmte Aufgaben erzeugt, ein Prozess, dessen Erfolg oft von der Modellgröße abhängt. Dieser Ansatz bietet eine skalierbare Alternative zu umfangreichen Umschulungen und ergänzt andere Strategien wie RAG, wodurch seine Rolle als Eckpfeiler für die Anpassung von Foundation Models gefestigt wird.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

KI-Services entdecken
Machen Sie den nächsten Schritt

Mithilfe von KI liefert IBM Concert wichtige Erkenntnisse über Ihre Abläufe und gibt anwendungsspezifische Empfehlungen zur Verbesserung. Entdecken Sie, wie Concert Ihr Unternehmen voranbringen kann.

Entdecken Sie Concert Erkunden Sie Lösungen zur Geschäftsprozessautomatisierung
Fußnoten

[1] Li, Z., Su, Y., & Collier, N. (2025). A Survey on Prompt Tuning. arXiv preprint arXiv:2507.06085.

[2] Lester, B., Al-Rfou, R., & Constant, N. (2021, November). The Power of Scale for Parameter-Efficient Prompt Tuning. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 3045-3059).

[3]Liu, X., Ji, K., Fu, Y., Tam, W., Du, Z., Yang, Z., & Tang, J. (2022, May). P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (pp. 61-68).

[4] Lei, S., Hua, Y., & Zhihao, S. (2025). Revisiting Fine-Tuning: A Survey of Parameter-Efficient Techniques for Large AI Models.

[5] Bian, J., Peng, Y., Wang, L., Huang, Y., & Xu, J. (2025). A survey on parameter-efficient fine-tuning for foundation models in federated learning. arXiv preprint arXiv:2504.21099.

[6] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., ... & Chen, W. (2022). Lora: Low-rank adaptation of large language models. ICLR, 1(2), 3.

[7] Tian, Q., & Zhang, M. (2025). Enhancing visual-language prompt tuning through sparse knowledge-guided context optimization. Entropy, 27(3), 301.