Der Einsatz von künstlichen Intelligenzmodellen (KI) für komplexe Aufgaben wie das Zusammenfassen von Berichten, das Beantworten von Anfragen oder das Übersetzen von Dokumenten ist oft mit erheblichen Herausforderungen verbunden. Diese Modelle erfordern in der Regel ein umfangreiches Neutraining mit großen Datensätzen mit Anmerkungen und kostspielige Feinabstimmungsprozesse. Jede neue Aufgabe erhöht die Komplexität, bremst Innovationen aus, erhöht die Kosten und schränkt die Skalierbarkeit von KI über verschiedene Anwendungsfälle hinweg ein.
Stellen Sie sich nun einen anderen Ansatz vor. Was wäre, wenn ein KI-Modell sich sofort an neue Aufgaben anpassen könnte, ohne dass ein Umtrainieren oder zusätzliche Daten benötigt werden? Dies ist das Versprechen des kontextbezogenen Lernens (In Context Learning, ICL), das es KI-Modellen ermöglicht, Aufgaben dynamisch zu erlernen, indem einfach Beispiele in einem Prompt angegeben werden. Es beseitigt die Engpässe des traditionellen maschinellen Lernens (ML) und bietet schnellere, anpassungsfähigere und kostengünstigere Lösungen.
In-Context-Learning (ICL) ist eine fortschrittliche KI-Fähigkeit, die in der bahnbrechenden Forschungsarbeit „Language Models are Few-Shot Learners“ behandelt wurde, in der GPT-3 vorgestellt wurde.1 Im Gegensatz zum überwachten Lernen, bei dem ein Modell eine Trainingsphase mit Backpropagation durchläuft, um seine Parameter zu ändern, verlässt sich ICL vollständig auf vortrainierte Sprachmodelle und behält deren Parameter unverändert bei.
Das KI-Modell verwendet den Prompt als vorläufige Orientierungshilfe, um die Aufgabe abzuleiten und die erwartete Ausgabe zu generieren. ICL erkennt Beziehungen zwischen den Beispielen im Prompt, auch bekannt als Eingabe-/Ausgabepaare, und wendet dieselbe Zuordnung auf neue Eingaben an. Dieser Prozess ahmt das menschliche Denken nach, bei dem wir neue Probleme lösen, indem wir Analogien aus früheren Erfahrungen ziehen. Es nutzt Muster und Kenntnisse, die während des Vortrainings erlernt wurden, und passt sich dynamisch an neue Aufgaben an, was es äußerst flexibel und effizient macht.
Im Kern basiert kontextbezogenes Lernen auf der Konditionierung eines Large Language Models (LLM) auf einem Prompt, der eine Reihe von Beispielen (Eingabe/Ausgabe oder Beispiele im Kontext) enthält, die typischerweise in natürlicher Sprache als Teil der Eingabesequenz geschrieben sind. Diese Beispiele, die oft aus einem Datensatz stammen, werden nicht verwendet, um das Modell neu zu trainieren, sondern werden direkt in sein Kontextfenster eingegeben. Dieses Fenster zeigt die Textmenge an, die ein LLM auf einmal verarbeiten kann, und dient als temporärer Speicher zum Generieren kohärenter Antworten und ist der Teil des Modells, der sequenzielle Eingaben verarbeitet.
Formal gesehen besteht der Prompt aus k Beispielen in Form von Eingabe-/Ausgabepaaren:
C={(x1 ,y1 ),(x2 ,y2 ),...,(xk ,yk )}
Bei einer neuen Eingabe x und einem Kandidaten-Ausgaberaum Y={y1,...,ym} berechnet das Modell die Wahrscheinlichkeit jeder möglichen Ausgabe, die auf dem Prompt konditioniert wird:
P(yj ∣ x,C)
Die Vorhersage wird durch die Auswahl der Option mit der höchsten Wahrscheinlichkeit bestimmt:
Das Modell aktualisiert seine Gewichtungen während dieses Prozesses nicht. Stattdessen lernt das Modell mithilfe seiner Deep Learning Transformer-Architektur das Muster dynamisch, indem es nur die Beispiele im aktuellen Prompt verwendet.
Um diese Methode in der Praxis kennenzulernen, betrachten wir eine Aufgabe zur Stimmungsklassifizierung. Der Prompt könnte so aussehen:
Kritiken: Der Film war fantastisch → Stimmung: Positiv
Kritik: Ich habe die Handlung gehasst → Stimmung: Negativ
Kritik: Die Musik war angenehm → Stimmung:
Das Modell vervollständigt die letzte Zeile mit der Vorhersage „Positiv“ und setzt die in den früheren Eingabe-Label-Zuordnungen beobachtete Struktur fort. Dieses Beispiel zeigt Few-Shot-Learning, bei dem das Modell die Aufgabe ableitet und anhand einiger Beispiele entsprechende Antworten generiert.
Da der Erfolg des KI-Modells davon abhängt, was in der Aufforderung dargestellt wird, spielt Prompt-Engineering eine entscheidende Rolle im ICL. Prompt Engineering bezieht sich auf die Erstellung hochwertiger, informativer und gut strukturierter Prompts, die das Modell effektiv leiten. Prompts verwenden häufig Vorlagen für natürliche Sprache, die sorgfältig ausgewählt werden, um dem zu entsprechen, was das Modell während der Datenexposition vor dem Training gesehen hat. Abweichungen in der Formulierung, dem Labelformat, der Beispielreihenfolge und sogar der Interpunktion können die Leistung des Modells beeinflussen, insbesondere bei kleineren Modellen oder Grenzfällen.
Wichtig ist, dass Prompt Engineering kein separater Mechanismus ist, sondern eine Reihe von Techniken, die innerhalb des umfassenderen Konzepts des kontextbezogenen Lernens eingesetzt werden. Einige Beispiele:
Zero-Shot-Prompting: Die Aufgabe wird ohne Angabe von Beispielen erklärt
One-Shot-Prompting: Es ist nur ein Beispiel enthalten, um die Aufgabe zu veranschaulichen
Few-Shot-Prompting: Es werden mehrere Beispiele bereitgestellt
Chain-of-Thought Prompting: Jedes Beispiel enthält Zwischenschritte, um die Logik des Modells zu leiten
Diese Prompting-Srategien werden oft mit Few-Shot-Prompt-Designs kombiniert und anhand von Benchmarks bewertet, die die Generalisierung testen. Selbst Eingabe-/Ausgabepaare mit zufälligen Labels können die Leistung verbessern, was unterstreicht, dass das Format und die Verteilung des Prompts ebenso wichtig sind wie die Labels selbst.
Wenn wir uns über kontrollierte Prompts hinaus in komplexe, reale Systeme bewegen, verlagert sich die Herausforderung von der Erstellung statischer Eingaben zu Kontext-Engineering. Es handelt sich um eine neu entstehende Disziplin, die sich auf die systematische Gestaltung aller Eingaben konzentriert, die ein LLM benötigt, um in realen Szenarien zuverlässig zu funktionieren.
Context Engineering ist die Praxis, dynamische Systeme zu entwerfen, die die richtigen Informationen, Tools und Anweisungen zusammenstellen und im richtigen Format an ein LLM liefern, damit es eine Aufgabe zuverlässig ausführen kann. Im Gegensatz zu statischem Prompt Engineering konzentriert sich Context Engineering auf die Erstellung vollständiger, aufgabenrelevanter Eingaben aus mehreren Quellen wie Benutzereingabe, früheren Interaktionen, Tool-Ausgabe und externen Daten zur Laufzeit. Es stellt sicher, dass LLMs nicht nur die notwendigen Daten erhalten, sondern auch in einer Struktur, die sie effektiv interpretieren können. Dieser Ansatz ist in komplexen, agentbasierten Systemen von entscheidender Bedeutung, da Fehler oft auf fehlenden oder schlecht formatierten Kontext und nicht auf Modellbeschränkungen zurückzuführen sind. Durch die Integration von Tools, Abrufmechanismen und Gedächtnis in den Prompt-Erstellungsprozess schließt Context Engineering die Lücke zwischen dem Potenzial eines Modells und seiner Leistung in der realen Welt.
Während in den ersten Erklärungen die ICL als Musterwiederholung auf Oberflächenebene oder als Vorhersage des nächsten Tokens betrachtet wurde, deuten neuere Forschungen auf tiefer liegende Prozesse hin. Eine überzeugende Erklärung beschreibt ICL als eine Form der Bayes'schen Inferenz, einer Methode zur Schätzung von Wahrscheinlichkeiten durch die Aktualisierung von Überzeugungen durch Belege.2 In dieser Ansicht betrachtet das Modell Few-Shot- oder One-Shot-Beispiele und leitet aus dem Prompt ein latentes Konzept (eine unsichtbare Aufgabe oder Struktur, wie z. B. „Das ist eine Stimmungsklassifizierung“) ab. Je mehr Beispiele aus dem Kontext hinzugefügt werden, desto sicherer wird das Modell in Bezug auf die Aufgabe, die es ausführt, und verbessert seine Vorhersagen, ohne die Modellparameter zu ändern.
Eine weitere Erklärung verbindet ICL mit Gradient Descent, der zentralen Optimierungsmethode, die hinter den meisten maschinellen Lernsystemen steckt, um Fehler zu minimieren. Neuere Studien haben gezeigt, dass Transformer-Modelle den Lernprozess insbesondere bei einfachen Aufgaben wie der linearen Regression intern simulieren können. Auch wenn keine tatsächlichen Parameteraktualisierungen stattfinden, verhält sich das Modell so, als ob es sich mithilfe einer inneren Argumentationsschleife an den Prompt anpassen würde. Dieser Prozess findet vollständig innerhalb des Kontextfensters des Modells statt.
Diese Ergebnisse deuten darauf hin, dass ICL internes, lernähnliches Verhalten während der Inferenz beinhaltet, selbst in Zero-Shot- oder Few-Shot-Setups. LLMs sind keine statischen Prädiktoren, sondern passen sich in Echtzeit an die Aufgabenstruktur an, indem sie Prompts in natürlicher Sprache verwenden. Diese Mischung aus Inferenz und implizitem Lernen macht ICL zu einer leistungsstarken Möglichkeit, neue Aufgaben ohne Umtrainieren zu bewältigen.
1. Modellmaßstab und Parameterempfindlichkeit
Die Wirksamkeit von ICL wird stark vom Umfang und der Gestaltung von LLMs beeinflusst. Größere Modelle zeigen stärkere aufkommende Fähigkeiten in ICL. Kleinere Modelle hingegen haben oft Schwierigkeiten, die Funktionalitäten zu erreichen, da ihnen die Parameterkapazität fehlt, um komplexe Aufgaben effektiv zu modellieren.
2. Datenqualität und Verzerrung vor dem Training
Die Effektivität des kontextbezogenen Lernens hängt von der Vielfalt und Qualität der Vortrainingsdaten ab. Modelle, die auf schmalen oder voreingenommenen Datensätzen trainiert wurden, können diese Einschränkungen während der Inferenz replizieren, was zu schlechter Generalisierung und Fairness-Problemen führt.
3. Domänenübertragung und Generalisierung
Während LLMs eine beeindruckende Anpassungsfähigkeit zeigen, kann ihre Leistung bei hochgradig domänenspezifischen Aufgaben abnehmen. In spezialisierten Bereichen wie Recht oder Medizin können dennoch fachspezifische Demonstrationen oder sogar traditionelle Feinabstimmungen erforderlich sein.
4. Ethik und Fairness
ICL kann unbeabsichtigt soziale Vorurteile, die in den Trainingsdaten vorhanden sind, übertragen und verstärken. Da Prompts das Modellverhalten beeinflussen können, bleibt die Gewährleistung ethischer und fairer Ausgaben bei dynamischen Echtzeit-Interaktionen eine große Herausforderung.
5. Datenschutz und Sicherheitsbedenken
ICL-basierte Systeme, die in realen Anwendungen betrieben werden, können versehentlich sensible Informationen speichern oder reproduzieren, wenn solche Daten im Vortraining-Korpus vorhanden waren. Diese Möglichkeit wirft entscheidende Datenschutzfragen auf, insbesondere in den Bereichen Gesundheitswesen, Recht und personalisierte Assistenten.
6. Prompt-Sensibilität und Stabilität
ICL reagiert empfindlich auf das Prompt-Design. Kleine Änderungen an der Anzahl, Reihenfolge oder Formatierung von kontextbezogenen Beispielen können zu großen Veränderungen in der Ausgabe führen, wodurch eine konstante Leistung nur schwer gewährleistet werden kann.
1. Trainingsmodelle
Damit LLMs von Natur aus kontextbezogenes Lernen zu verbessern, untersuchen Forscher Verbesserungen während oder unmittelbar nach dem Modelltraining.3 Eine Hauptrichtung ist das Vortraining mit strukturierten Daten, bei dem Eingabe-/Ausgabepaare oder Aufgabencluster explizit organisiert werden. Dieser Ansatz hilft Modellen, sensibler für Aufgabenmuster und -beziehungen zu werden, anstatt sich nur auf breite Sprachverteilungen zu verlassen.
Ein weiterer effektiver Ansatz ist die Metadestillation, bei der das Modell destillierten, abstrahierten Formen von Wissen ausgesetzt wird: kurze, sehr informative Beispielpaare, die das Wesen einer Aufgabe vermitteln (z. B. „starke Handlung → positiv“, „schwache Handlung → negativ“). Diese Methode ermöglicht es den Modellen, während der Inferenz schnell und mit minimalem Demonstrationsaufwand zu verallgemeinern.
Das Warmup-Training optimiert das Modell zwischen Vortraining und tatsächlicher Inferenz mithilfe von aufgabenorientierten Beispielen in Prompt-Form. Wenn Sie zum Beispiel vor dem Testen einige Beispiele für „Überschrift → Kategorie“ sehen, verbessert sich die Fähigkeit, auf verwandte Inhalte zu verallgemeinern, ohne ein erneutes Training durchführen zu müssen.
Die Anweisungsoptimierung ist eine weitere entscheidende Strategie, bei der Modelle anhand von Tausenden von Aufgaben trainiert werden, die als Anweisungen in natürlicher Sprache geschrieben wurden (z. B. „Klassifizieren Sie die Stimmung des Satzes“). Diese Strategie verbessert die Few-Shot- und Zero-Shot-Generalisierung, indem das Modellverhalten enger auf die menschliche Anleitung abgestimmt wird.
2. Designen eines Prompts
Das Prompt-Design während der Inferenz spielt eine entscheidende Rolle bei der Nutzung von ICL. Eine der wirkungsvollsten Techniken ist die Auswahl der Demonstration: Die Auswahl der richtigen Beispiele anhand von Metriken, Unsicherheitsscores oder trainierten Wiederherstellungen.
Die Neuformatierung der Demonstration ändert die Strukturierung der Beispiele. Anstelle von einfachen Eingabe-/Ausgabepaaren verwenden einige Methoden Argumentationsketten (z. B. „Prämise → Argumentation → Schlussfolgerung“), um die Ausrichtung an den internen Darstellungen des Modells zu verbessern.
Ein weiterer subtiler, aber wichtiger Faktor ist die Reihenfolge der Demonstration. Die Organisation von Beispielen von einfach bis komplex, wie z. B. mit einer einfachen Programmieranweisung zu beginnen, bevor zu Schleifen übergegangen wird, hilft dem Modell, schrittweise einen Kontext aufzubauen und so das Verständnis und die Qualität der Ausgabe zu verbessern.
Schließlich verbessern die Instruktionsformatierung und die Aufforderung zur Gedankenkette die Aufgaben mit hohem Argumentationsaufwand, indem sie das Modell explizit durch Zwischenschritte führen. Dieser Ansatz ist besonders in Bereichen wie der Arithmetik oder dem logischen Denken nützlich, wo eine Aufschlüsselung wie „Schritt 1: 3 von 8 subtrahieren → Schritt 2: Antwort ist 5“ die Genauigkeit im Vergleich zu direkten Frage-Antwort-Formaten verbessert.
Erkennung von Anomalien: Durch kontextbezogenes Lernen können LLMs mit einigen markierten Beispielen für normale und anomale Netzwerkaktivitäten versorgt werden. Das Modell kann dann neue Verkehrsinstanzen entweder als normal oder verdächtig einstufen, was eine flexible und effiziente Überwachung ohne umfangreiches Neutraining ermöglicht. Dieser Ansatz lässt sich auf verschiedene Cybersicherheits- und Netzwerkmanagementaufgaben anwenden.
In einer Forschungsarbeit wurde ein Beispiel für die Anwendung von kontextbezogenem Lernen mit LLMs, insbesondere GPT-4, für die automatische Erkennung von Netzwerkeingriffen in drahtlosen Umgebungen vorgestellt.4 Anstelle traditioneller Methoden, die umfangreiche markierte Daten und kostspielige Feinabstimmung erfordern, wurden drei kontextbezogene Lernansätze entwickelt: illustrativ, heuristisch und interaktiv. Diese Methoden helfen GPT-4 bei der Identifizierung von Angriffstypen, indem sie einige gekennzeichnete Beispiele in Prompts bereitstellen und domänenspezifische Fragen einbeziehen, um die Genauigkeit zu erhöhen. Die Ergebnisse wurden an einem realen Datensatz mit 9 DDoS-Angriffstypen (Distributed Denial-of-Service) getestet und zeigten Leistungsverbesserungen. Diese Verbesserungen zeigten eine Genauigkeit und einen Anstieg des F1-Scores um etwa 90 %, wobei GPT-4 mit nur 10 Beispielen über 95 % erreichte. Dieses Beispiel zeigt, wie kontextbezogenes Lernen es LLMs ermöglicht, sich schnell anzupassen und in realen Cybersicherheitsszenarien mit minimalen Trainingsdaten effektiv zu arbeiten.
Bereichsspezifische Verarbeitung natürlicher Sprache (Natural Language Processing, NLP): ICL ermöglicht es LLMs, spezielle Aufgaben zu bewältigen, indem sie relevante Beispiele innerhalb des Prompts verwenden. Dieser Ansatz löst die Herausforderung der bereichsspezifischen Verarbeitung natürlicher Sprache (NLP), bei denen beschriftete Daten möglicherweise knapp sind oder bei denen eine Feinabstimmung nicht praktikabel ist. Dieser Weg ermöglicht es dem Modell, sich anzupassen und genaue Ergebnisse ausschließlich auf der Grundlage kontextbezogener Hinweise während der Inferenz zu generieren.
Eine Studie zeigt, dass LLMs Flugsicherheitsberichte durch ICL effektiv analysieren können und dabei Herausforderungen wie semantische Spärlichkeit und den Bedarf an rechenintensiver Feinabstimmung angehen.5 Die Studie verwendete BM25 (einen Algorithmus zum Abrufen von Informationen, mit dem Dokumente basierend auf ihrer Relevanz für eine Suchabfrage eingestuft werden), um die relevantesten Beispiele für Prompts auszuwählen. Das Modell verbesserte seine Klassifizierungsgenauigkeit deutlich, indem es mit acht Beispielen eine Genauigkeit von bis zu 80,24 % und einen F1-Wert von 84,15 % erreichte. Durch die Bereitstellung hochwertiger, relevanter Beispiele im Prompt kann das Modell sein Verständnis verallgemeinern, um ungesehene Berichte genau zu klassifizieren. Die Erhöhung der Anzahl gut ausgewählter Beispiele verbessert in der Regel die Leistung, da das Modell mehr Kontext erhält und die zugrunde liegenden Muster in den Daten besser erfasst. Dieser Ansatz zeigt, dass ICL mit strategischer Beispielauswahl es LLMs ermöglicht, spezialisierte Luftfahrtdaten effektiv zu verstehen und zu klassifizieren, und bietet so eine praktische Lösung für bereichsspezifische NLP-Aufgaben.
Stimmungsanalyse: ICL ermöglicht es LLMs, die Stimmung zu analysieren, indem eine Reihe beschrifteter Textproben zur Verfügung gestellt werden (zum Beispiel „Toller Service → positiv“, „Schreckliches Produkt → negativ“). Wenn ein neuer, nicht gekennzeichneter Satz gegeben wird, kann das Modell die Stimmung mit hoher Genauigkeit ableiten. Dieser Ansatz rationalisiert Aufgaben in den Bereichen Customer Experience Analyse, Meinungsforschung und Markenüberwachung.
Kontextbezogenes Lernen stellt einen grundlegenden Wandel in der Art und Weise dar, wie wir mit großen Sprachmodellen interagieren und Intelligenz aus ihnen extrahieren. Dadurch können sich Modelle mithilfe von Aufgabenbeschreibungen und einigen Beispielen dynamisch an neue Aufgaben anpassen. ICL ermöglicht Flexibilität, Effizienz und Zugänglichkeit in KI-Systeme. Es schließt die Lücke zwischen statischen, vortrainierten Modellen und dynamischen, realen Anforderungen und ermöglicht es einem einzelnen Modell, eine breite Palette von Aufgaben durch einfaches Beobachten einiger Beispiele auszuführen. Mit dem Fortschritt der Forschung in den Bereichen Lernalgorithmen, Pretraining-Strategien, Prompt Design und Demonstrationsoptimierung ist ICL auf dem besten Weg, zum Eckpfeiler der KI mit allgemeinem Verwendungszweck zu werden und den Weg für anpassungsfähigere, interpretierbarere und skalierbarere Systeme in allen Branchen zu ebnen.
1. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
2. Xie, SM, & Min, S. (2022). How does in-context learning work? A framework for understanding the differences from traditional supervised learning. A framework for understanding the differences from traditional supervised learning.
3. Dong, Q., Li, L., Dai, D., Zheng, C., Ma, J., Li, R.,... & Sui, Z. (2022). A survey on in-context learning. arXiv preprint arXiv:2301.00234.
4. Zhang, H., Sedaq, AB, Afana, A. & Erol-Kantarci, M. (2024). Large language models in wireless application design: In-context learning-enhanced automatic network intrusion detection. arXiv preprint arXiv:2405.11002.
5. Yang, Y., Shi, D., Zurada, J. & Guan, J. (2024, September). Application of Large Language Model and In-Context Learning for Aviation Safety Prediction. In 2024 17th International Conference on Advanced Computer Theory and Engineering (ICACTE) (pp. 361-365). IEEE.