Anstatt sofort eine direkte Antwort auf die Eingaben eines Benutzers zu generieren, werden Argumentationsmodelle so trainiert, dass sie zunächst Zwischenschritte generieren, bevor sie die endgültige Antwort an den Benutzer finden. Einige LLMs zeigen den Benutzern ihre Argumentationsspuren, während andere diese Ausgaben nur zusammenfassen oder ganz ausblenden.
Einfach ausgedrückt sind LLMs darauf trainiert, mehr Zeit mit dem „Nachdenken“ zu verbringen, bevor sie antworten. Es hat sich empirisch gezeigt, dass die Hinzufügung dieses „Reasoning-Prozesses“ zu erheblichen Fortschritten in der LLM-Leistung bei komplexen Denkaufgaben führt. Dieser Erfolg hat die realen Anwendungsfälle und Domänen erweitert, auf die KI-Modelle angewendet werden können, und einen wichtigen Wendepunkt in der laufenden Entwicklung von generativer KI und KI-Agenten markiert.
Allerdings ist anzumerken, dass anthropomorphe Begriffe wie der „Denkprozess“ eines Modells praktischer sind als wörtliche. Wie alle maschinellen Lernmodelle wenden auch Schlussfolgerungsmodelle letztendlich nur ausgefeilte Algorithmen an, um Vorhersagen zu treffen – etwa welches Wort als nächstes kommen sollte –, die Muster widerspiegeln, die aus den Trainingsdaten gelernt wurden. Logisches Denken bei LLMs hat bisher weder Bewusstsein noch andere Anzeichen künstlicher allgemeiner Intelligenz (AGI) gezeigt. Eine im Juni 2025 von Apple veröffentlichte KI-Studie wirft Zweifel daran auf, ob die aktuellen Modelllogikfähigkeiten auf wirklich „generalisierbares“ Denken skalierbar sind.1
Am treffendsten ist es wohl zu sagen, dass LLMs darauf trainiert werden, „ihre Arbeit zu zeigen“, indem sie eine Folge von Token (Wörtern) generieren, die einem menschlichen Denkprozess ähnelt – und dass dieser Akt des „Verbalisierens“ von Gedanken latente Denkfunktionen freizuschalten scheint, die LLMs implizit aus ihrem massiven Korpus von Trainingsdaten lernen (der Beispiele von Personen enthält, die ihre eigenen Prozesse direkt und indirekt artikulieren).
Das Konzept eines „Argumentationsmodells“ wurde im September 2024 durch o1-preview (und o1-mini) von OpenAI eingeführt,2 gefolgt von Alibabas „Qwen with Questions“ (QwQ-32B-preview) im November und Googles Gemini 2.0 Flash Experiment in Dezember. Ein Meilenstein in der Entwicklung von LLMs war die Veröffentlichung des Open-Source-Modells DeepSeek-R1 im Januar 2025. Während die Trainingsprozesse, die zur Feinabstimmung früherer Argumentationsmodelle verwendet wurden, streng geheim gehalten wurden, veröffentlichte DeepSeek ein detailliertes technisches Papier, das als Blueprint für andere Modellentwickler diente. IBM Granite, Anthropic und Mistral AI, unter anderem, haben seitdem ihre eigenen LLMs veröffentlicht.