Was ist Directional Stimulus Prompting (DSP)?

Autor

Shalini Harkar

Lead AI Advocate

Was ist Directional Stimulus Prompting (DSP)?

Directional Stimulus Prompting (DSP) ist eine neue Prompting-Methode in der Verarbeitung natürlicher Sprache (NLP), bei der einem Modell eine Richtlinie oder ein strukturierter Stimulus präsentiert wird, um die gewünschten Ausgaben zu erzeugen.

Im Gegensatz zum Standard-Prompting wie dem One-Shot-, Zero-Shot- oder Few-Shot-Prompting zeichnet sich dieser Ansatz dadurch aus, dass er eine direkte Kontrolle über die Ausgabe des Modells ermöglicht, indem Kriterien festgelegt oder Anweisungen gegeben werden. Bei diesem Ansatz fungiert ein leitender Stimulus als Kontrollmechanismus für den generativen Prozess des Modells entlang von Linien, die durch ein bestimmtes Kriterium definiert sind.

Directive Stimulus Prompting (DSP) ist nützlich, wenn eine Aufgabe eine bestimmte Reihe von Antworten erfordert, die sehr kontextsensitiv sind, aber immer noch ohne gekennzeichnete Daten sind.

Im Falle von Zusammenfassungsaufgaben beispielsweise, bei denen die Beibehaltung wesentlicher Informationen entscheidend ist, liefert DSP einen Leitstimulus, der das Modell dazu anregt, auf eine bestimmte Weise zu produzieren. Dies führt dazu, dass insgesamt genauere und kontextuell angemessenere Zusammenfassungen erstellt werden.1

Denken Sie über Prompts hinaus und erfassen Sie den gesamten Kontext 

Bleiben Sie mit dem Think-Newsletter über die neuesten Branchennachrichten, KI-Tools und aufkommende Trends im Bereich Prompt Engineering auf dem Laufenden. Außerdem erhalten Sie Zugang zu neuen Erläuterungen, Tutorials und Experteneinblicken – direkt in Ihrem Posteingang. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Notwendigkeit einer direktionalen Stimulierung von Prompts

Große Sprachmodelle (LLMs) wie GPT-3, -4 und PaLM werden gemeinhin als „Blackbox“-Modelle bezeichnet, da Benutzer keinen Zugriff auf ihre Interna wie Parameter, Abstimmungsmethoden oder Entscheidungsfindung haben.

Eine solche Interaktion erfolgt im Wesentlichen über Text-Prompts, die API-Aufrufe (Application Programming Interface) als wichtigste Eingabe- und Ausgabemechanismen verwenden. Diese Modelle sind zwar hervorragend, aber ihre Fähigkeit, präzise aufgabenspezifische Ergebnisse zu erzeugen, hängt oft in hohem Maße von der Qualität der Prompts ab. 2, 3

Mit diesem Hintergrund ist Prompt Engineering zur Entwicklung gezielter Prompts zur Steuerung des Modellverhaltens relevant. Sowohl manuelle als auch automatisierte Ansätze für das Prompt Engineering haben zu bemerkenswerten Erfolgen geführt. Sie haben jedoch einige Nachteile, insbesondere bei Aufgaben, die eine starke Kontrolle oder viele instanzspezifische Ausgaben erfordern.

Beispielsweise erfordern Aufgaben wie die Zusammenfassung oder die Erstellung von Dialogen, dass das Modell den Zielverhaltensweisen systematisch folgt, z. B. wichtige Details einbezieht oder sich an ein strenges Argumentationsmuster oder vorgeschriebene stilistische Richtlinien hält. Herkömmliche Techniken reichen oft nicht aus, um eine konsequente Einhaltung dieser nuancierten Anforderungen zu gewährleisten.

Directional Stimulus Prompting (DSP) schließt diese Lücke. DSP ist ein kleines zusätzliches Richtlinienmodell und erzeugt instanzspezifische, direktionale Prompts, die das LLM bei seinen Entscheidungen unterstützen.

Die ausgegebenen Prompts dienen einem bestimmten Kontext für jede Instanz und sollen das LLM dazu bringen, besser abgestimmte und wünschenswertere Ausgaben zu liefern. Durch die Integration von DSP in den Prozess verfügen Benutzer über ein leistungsstarkes Werkzeug, um das Verhalten von Blackbox-LLMs zu korrigieren, um mehr Konsistenz, Relevanz und Genauigkeit bei Arbeiten zu erzielen, die Präzision erfordern.1

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

So funktioniert DSP

Training des Richtlinienmodells mit überwachter Feinabstimmung (SFT, supervised fine-tuning)

Der Prozess des Trainings des Richtlinienmodells beginnt mit einer überwachten Feinabstimmung (Supervised Fine-Tuning, SFT) anhand eines vortrainierten Modells wie T5, GPT-2 oder einem anderen geeigneten LLM. Der Schlüsselgedanke besteht darin, ein kleineres Richtlinienmodell auf der Grundlage von Trainingsdaten abzustimmen, das direktionale Stimuli erzeugt, anstatt das LLM direkt zu verändern.

Dieser Prozess ist effizient, weil die Feinabstimmung eines kleineren, aufgabenspezifischen Richtlinienmodells die Herausforderungen und Rechenkosten vermeidet, die mit dem direkten Training großer, komplexer Modelle verbunden sind.

Um dieses Richtlinienmodell zu schulen, wird ein kleiner gekennzeichneter Datensatz erstellt, in dem jede Eingabe mit einem Pseudoreiz gepaart wird. Diese Pseudosreize sollen die Antworten des LLM je nach Aufgabe in die gewünschte Richtung lenken.

In einer Zusammenfassungsaufgabe könnte der Pseudoreiz beispielsweise aus Schlüsselwörtern oder Phrasen bestehen, die aus einer Referenzzusammenfassung stammen. In ähnlicher Weise können Dialoghandlungen wie Bitten, Fragen oder Aussagen als Pseudoreize für Aufgaben zur Dialoggenerierung verwendet werden.

Diese Stimuli dienen als Signale, die das Richtlinienmodell verwendet, um aufgabenspezifische Eingaben zu generieren, die die Ausgaben des LLM effektiv auf das Zielverhalten ausrichten.

Der für SFT verwendete beschriftete Datensatz ist möglicherweise relativ klein, da der Schwerpunkt darauf liegt, das Policy-Language-Modell mit dem notwendigen Wissen zur Generierung von Reizen auszustatten und nicht darauf, ein umfangreiches LLM von Grund auf neu zu trainieren. Dies macht SFT zu einer ressourceneffizienten Möglichkeit, das Richtlinienmodell mit grundlegendem Wissen über die aufgabenspezifischen Anforderungen zu versorgen.4

Verfeinerung durch verstärkendes Lernen (RL)

Nach der ersten Feinabstimmung mit SFT wird das Richtlinienmodell durch Reinforcement Learning (RL) optimiert. RL ermöglicht es dem Richtlinienmodell, seine Fähigkeit zur Erzeugung von Stimuli, die zu qualitativ hochwertigeren LLM-Ausgaben führen, zu erkunden und zu verfeinern. Die Kernidee in dieser Phase besteht darin, eine Belohnungsfunktion zu verwenden, um die Effektivität der generierten Stimuli zu bewerten.

Bei Zusammenfassungsaufgaben könnte die Belohnungsfunktion beispielsweise auf Metriken wie ROUGE- oder BLEU-Scores basieren, die Qualität der erstellten Zusammenfassung im Vergleich zur Referenz messen. 

Indem DSP sich auf das Training des Richtlinienmodells und nicht auf das direkte LLM konzentriert, überwindet es die Herausforderungen, die mit der Feinabstimmung von Blackbox-Modellen verbunden sind, und führt zu einer effizienteren und skalierbaren Methode. 

Abbildung 1: Architektur des DSP-Frameworks 

 

Vor- und Nachteile von DSP

Die gerichtete Reizaufforderung hat bemerkenswerte Vorteile und einige Herausforderungen, was sie zu einer faszinierenden, aber auch komplizierten Technik macht. Hier ist eine genauere Untersuchung ihrer Vor- und Nachteile.5

Vorteile:

Gezielter Aufmerksamkeitsmechanismus: Der gezielte Aufmerksamkeitsmechanismus in DSP hebt relevante Token oder Informationen hervor und verbessert so die Genauigkeit und Effizienz, indem er die Verarbeitung auf wesentliche Komponenten konzentriert.

Optimierte Ressourcennutzung: Durch die Konzentration auf relevante Stimuli reduziert das Directional Stimulus Prompting die Anforderungen an den Datensatz, was zu schnelleren Verarbeitungszeiten und geringeren Rechenkosten führt.

Verbesserte Präzision: Durch die Isolierung und Hervorhebung der relevantesten Eingabe-Token erhöht das Directional Stimulus Prompting die Genauigkeit der Antworten und Interpretationen des Sprachmodells.

Anpassungsfähigkeit: Dieser Ansatz kann für verschiedene Sprachaufgaben angepasst werden, die von der Texterstellung bis zur Stimmungsanalyse reichen, und bietet Vielseitigkeit für verschiedene Anwendungen zur Verarbeitung natürlicher Sprache.

Nachteile:

Abhängigkeit von präzisen Hinweisen: Der Erfolg von richtungsweisenden Stimuli hängt stark von präzisen Stimuli ab, was in komplexen oder verrauschten Umgebungen schwierig zu erreichen sein kann. Wenn sich der Kontext oder die Stimuli signifikant verändern, kann die Wirksamkeit der Methode abnehmen, was zu einer geringeren Zuverlässigkeit führt.

Komplexität der Konfiguration: Das Einrichten von gerichteten Reizen erfordert ein sorgfältiges Design und eine sorgfältige Kalibrierung, was den anfänglichen Konfigurationsprozess komplizierter machen kann.

Eingeschränkte Generalisierung: Die Fähigkeit, über verschiedene Signaltypen oder unerwartete Eingabevariationen hinweg zu verallgemeinern, ist begrenzt, was die Anwendbarkeit in weiteren Kontexten einschränkt.

Anwendungsfälle

Directive Stimulus Prompting (DSP) zeigt bei verschiedenen NLP-Aufgaben großes Potenzial und leitet Modelle effektiv an, um ihre Leistung zu verbessern.

Zusammenfassung: DSP wird verwendet, um gewünschte Zusammenfassungen zu erstellen, die besser mit den Referenz-Zusammenfassungen übereinstimmen. In einem experimentellen Ergebnis verbesserte DSP mit einem kleinen Datensatz mit nur 4.000 Proben aus dem CNN/Daily Mail-Datensatz die Leistung von Benchmarks wie ROUGE und BLEU oder andere Messgrößen, einschließlich der Bewertung menschlicher Präferenzen, um 4–13 % und übertraf damit einige vollüberwachte Modelle.6

Generierung von Dialogantworten: Bei der aufgabenorientierten Dialoggenerierung unterstützte DSP ChatGPT dabei, genauere und relevantere Antworten zu erzeugen. Mit nur 80 Dialogen aus dem MultiWOZ-Datensatz erreichte DSP beispielsweise eine Leistungssteigerung von 41,4 % und übertraf damit mehrere hochmoderne Modelle (wie ChatGPT, Codex und InstructGPT), die auf größeren Datensätzen trainiert wurden.7

Chain-of-Thought Reasoning: DSP verbessert auch die Gedankenketten-Argumentation, indem es instanzspezifische Prompts generiert, die von Menschen entworfene und automatisch generierte aufgabenspezifische Prompts übertreffen, was zu einer verbesserten Argumentationsgenauigkeit führt. Diese Beispiele veranschaulichen, wie DSP gezielte Anleitungen bieten und die Modellleistung in einer Reihe von NLP-Anwendungen verbessern kann.8

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

KI-Services entdecken
Machen Sie den nächsten Schritt

Mithilfe von KI liefert IBM Concert wichtige Erkenntnisse über Ihre Abläufe und gibt anwendungsspezifische Empfehlungen zur Verbesserung. Entdecken Sie, wie Concert Ihr Unternehmen voranbringen kann.

Entdecken Sie Concert Erkunden Sie Lösungen zur Geschäftsprozessautomatisierung
Fußnoten

1 Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Xifeng Yan, jianfeng gao,(Microsoft, 22. Feb. 2023), Guiding Large Language Models via Directional Simulus Prompting, arXiv:2302.11520.
https://github.com/Leezekun/Directional-Stimulus-Prompting. 

2 Sun, T., et.al, Black-box tuning for language-model as-a-service. In International Conference on Machine Learning, S. 20841–20855. PMLR, 2022.

3 OpenAI. Gpt-4 technical report, 2023.

4 Wanwei He et al., Galaxy: A generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection. In Proceedings of the AAAI Conference on Artificial Intelligence, S. 10749–10757, 2022.

5 Fei Liu (11. Oktober 2024), A Systematic Survey on Large Language Models for Algorithm Design. arXiv: 2410.14716.

6 Goyal, T., Li, J. J. und Durrett, G. News summarization and evaluation in the era of GPT-3. arXiv preprint arXiv: 2209.12356, 2022.

7 Khattab, O., Santhanam, K., Li, X. L., Hall, D., Liang, P., Potts, C. und Zaharia, M. Demonstrate-search-predict: Composing retrieval and language models for knowledge-intensive nlp. arXiv preprint arXiv: 2212.14024, 2022.

8 Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L. und Yih, W.-t. Replug: Retrieval-augmented black-box language models. arXiv Preprint arXiv: 2301,12652, 2023.