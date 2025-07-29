In-Context-Learning (ICL) ist eine fortschrittliche KI-Fähigkeit, die in der bahnbrechenden Forschungsarbeit „Language Models are Few-Shot Learners“ behandelt wurde, in der GPT-3 vorgestellt wurde.1 Im Gegensatz zum überwachten Lernen, bei dem ein Modell eine Trainingsphase mit Backpropagation durchläuft, um seine Parameter zu ändern, verlässt sich ICL vollständig auf vortrainierte Sprachmodelle und behält deren Parameter unverändert bei.

Das KI-Modell verwendet den Prompt als vorläufige Orientierungshilfe, um die Aufgabe abzuleiten und die erwartete Ausgabe zu generieren. ICL erkennt Beziehungen zwischen den Beispielen im Prompt, auch bekannt als Eingabe-/Ausgabepaare, und wendet dieselbe Zuordnung auf neue Eingaben an. Dieser Prozess ahmt das menschliche Denken nach, bei dem wir neue Probleme lösen, indem wir Analogien aus früheren Erfahrungen ziehen. Es nutzt Muster und Kenntnisse, die während des Vortrainings erlernt wurden, und passt sich dynamisch an neue Aufgaben an, was es äußerst flexibel und effizient macht.

Im Kern basiert kontextbezogenes Lernen auf der Konditionierung eines Large Language Models (LLM) auf einem Prompt, der eine Reihe von Beispielen (Eingabe/Ausgabe oder Beispiele im Kontext) enthält, die typischerweise in natürlicher Sprache als Teil der Eingabesequenz geschrieben sind. Diese Beispiele, die oft aus einem Datensatz stammen, werden nicht verwendet, um das Modell neu zu trainieren, sondern werden direkt in sein Kontextfenster eingegeben. Dieses Fenster zeigt die Textmenge an, die ein LLM auf einmal verarbeiten kann, und dient als temporärer Speicher zum Generieren kohärenter Antworten und ist der Teil des Modells, der sequenzielle Eingaben verarbeitet.

Formal gesehen besteht der Prompt aus k Beispielen in Form von Eingabe-/Ausgabepaaren:

C={(x1 ,y1 ),(x2 ,y2 ),...,(xk ,yk )}

Bei einer neuen Eingabe x und einem Kandidaten-Ausgaberaum Y={y1,...,ym} berechnet das Modell die Wahrscheinlichkeit jeder möglichen Ausgabe, die auf dem Prompt konditioniert wird:

P(yj ∣ x,C)

Die Vorhersage wird durch die Auswahl der Option mit der höchsten Wahrscheinlichkeit bestimmt:

y ^ = arg max y j ∈ Y P ( y j ∣ x , C )

Das Modell aktualisiert seine Gewichtungen während dieses Prozesses nicht. Stattdessen lernt das Modell mithilfe seiner Deep Learning Transformer-Architektur das Muster dynamisch, indem es nur die Beispiele im aktuellen Prompt verwendet.

Um diese Methode in der Praxis kennenzulernen, betrachten wir eine Aufgabe zur Stimmungsklassifizierung. Der Prompt könnte so aussehen:

Kritiken: Der Film war fantastisch → Stimmung: Positiv

Kritik: Ich habe die Handlung gehasst → Stimmung: Negativ

Kritik: Die Musik war angenehm → Stimmung:

Das Modell vervollständigt die letzte Zeile mit der Vorhersage „Positiv“ und setzt die in den früheren Eingabe-Label-Zuordnungen beobachtete Struktur fort. Dieses Beispiel zeigt Few-Shot-Learning, bei dem das Modell die Aufgabe ableitet und anhand einiger Beispiele entsprechende Antworten generiert.