Was ist ein Argumentationsmodell?

Autor

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Was ist ein Argumentationsmodell?

Ein Argumentationsmodell ist ein großes Sprachmodell (Large Language Model, LLM), das feinabgestimmt wurde, um komplexe Probleme in kleinere Schritte zu zerlegen, die oft als „Argumentationsspuren“ bezeichnet werden, bevor es eine endgültige Ausgabe generiert. Zunehmend ausgefeiltere Methoden zum Trainieren von Modellen unter Verwendung von Gedankenketten-Argumentation und anderen mehrstufigen Entscheidungsfindungsstrategien haben zu modernster Leistung geführt, insbesondere bei Benchmarks für logikgesteuerte Aufgaben wie Mathematik und Codierung.

Anstatt sofort eine direkte Antwort auf die Eingaben eines Benutzers zu generieren, werden Argumentationsmodelle so trainiert, dass sie zunächst Zwischenschritte generieren, bevor sie die endgültige Antwort an den Benutzer finden. Einige LLMs zeigen den Benutzern ihre Argumentationsspuren, während andere diese Ausgaben nur zusammenfassen oder ganz ausblenden.

Einfach ausgedrückt sind LLMs darauf trainiert, mehr Zeit mit dem „Nachdenken“ zu verbringen, bevor sie antworten. Es hat sich empirisch gezeigt, dass die Hinzufügung dieses „Reasoning-Prozesses“ zu erheblichen Fortschritten in der LLM-Leistung bei komplexen Denkaufgaben führt. Dieser Erfolg hat die realen Anwendungsfälle und Domänen erweitert, auf die KI-Modelle angewendet werden können, und einen wichtigen Wendepunkt in der laufenden Entwicklung von generativer KI und KI-Agenten markiert.

Allerdings ist anzumerken, dass anthropomorphe Begriffe wie der „Denkprozess“ eines Modells praktischer sind als wörtliche. Wie alle maschinellen Lernmodelle wenden auch Schlussfolgerungsmodelle letztendlich nur ausgefeilte Algorithmen an, um Vorhersagen zu treffen – etwa welches Wort als nächstes kommen sollte –, die Muster widerspiegeln, die aus den Trainingsdaten gelernt wurden. Logisches Denken bei LLMs hat bisher weder Bewusstsein noch andere Anzeichen künstlicher allgemeiner Intelligenz (AGI) gezeigt. Eine im Juni 2025 von Apple veröffentlichte KI-Studie wirft Zweifel daran auf, ob die aktuellen Modelllogikfähigkeiten auf wirklich „generalisierbares“ Denken skalierbar sind.1

Am treffendsten ist es wohl zu sagen, dass LLMs darauf trainiert werden, „ihre Arbeit zu zeigen“, indem sie eine Folge von Token (Wörtern) generieren, die einem menschlichen Denkprozess ähnelt – und dass dieser Akt des „Verbalisierens“ von Gedanken latente Denkfunktionen freizuschalten scheint, die LLMs implizit aus ihrem massiven Korpus von Trainingsdaten lernen (der Beispiele von Personen enthält, die ihre eigenen Prozesse direkt und indirekt artikulieren). 

Das Konzept eines „Argumentationsmodells“ wurde im September 2024 durch o1-preview (und o1-mini) von OpenAI eingeführt,2 gefolgt von Alibabas „Qwen with Questions“ (QwQ-32B-preview) im November und Googles Gemini 2.0 Flash Experiment in Dezember. Ein Meilenstein in der Entwicklung von LLMs war die Veröffentlichung des Open-Source-Modells DeepSeek-R1 im Januar 2025. Während die Trainingsprozesse, die zur Feinabstimmung früherer Argumentationsmodelle verwendet wurden, streng geheim gehalten wurden, veröffentlichte DeepSeek ein detailliertes technisches Papier, das als Blueprint für andere Modellentwickler diente. IBM Granite, Anthropic und Mistral AI, unter anderem, haben seitdem ihre eigenen LLMs veröffentlicht.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Warum funktionieren Denkmodelle?

Durch Hinzufügen eines „Denkprozesses“ zu den Modellausgaben werden viele der inhärenten Mängel der standardmäßigen LLM-Inferenz abgemildert, indem dem Modell geholfen wird, schädliche kognitive Abkürzungen zu vermeiden und mehr potenziell relevantes Wissen zutage zu fördern, das es aus Trainingsdaten gelernt hat.

Im Zusammenhang mit der Argumentation von LLMs wird in der KI-Forschungsliteratur häufig auf das System 1“- und das „System 2“-Denken verwiesen, Begriffe, die vom nobelpreisgekrönten Verhaltensökonomen Daniel Kahneman in seinem wegweisenden Werk „ Thinking, Fast and Slow“ geprägt wurden.Das Denken in System 1 ist schnell, unbewusst und intuitiv, stützt sich auf Heuristiken und erfordert wenig bis gar keinen Aufwand. Das Denken in System 2 ist langsam, bewusst und logisch und erfordert gemeinsame Anstrengungen. Autoregressive LLMs neigen standardmäßig zum System-1-Denken.3

Bei einigen Aufgaben ist das Denken von System 1 effektiv und rechnerisch effizient. Bei vielen anderen greift das impulsive System-1-Denken jedoch zu kurz. In einem Artikel aus dem Jahr 2023 der Meta-Forscher Jason Weston und Sainbayar Sukhbaatar wurde beispielsweise festgestellt, dass LLMs leicht durch irrelevante Kontexte oder subjektive Details in der Eingabe beeinflusst werden.

LLM-Beispiele Beispiel dafür, wie nicht rationale LLMs oft durch irrelevante Informationen „abgelenkt“ werden. Entnommen aus dem Artikel „System 2: Aufmerksamkeit (ist etwas, das Sie möglicherweise auch brauchen)“.

Sie schlugen eine Klasse von Techniken vor, die sie „System 2Attention“ (S2A) nannten und bei denen das Modell angewiesen wird, zunächst eine neu geschriebene Version des Eingabe-Prompts befreit von irrelevantem Kontext zu erzeugen, dann auf dieses neu geschriebene Prompt antwortet. In Experimenten übertraf S2A die Standardinferenz bei einer Vielzahl von Aufgaben, erhöhte die Genauigkeit und verringerte die Unterwürfigkeit.

LLM-Beispiele S2A, eine Methode zur frühen Inferenzskalierung. Durch Hinzufügen von Schritten zwischen Eingabe und Ausgabe – in diesem Fall, um die ursprüngliche Prompt umzuschreiben – verbessert das Modell seinen endgültigen Ausgabe. Entnommen aus dem Artikel „System 2: Aufmerksamkeit (ist etwas, das Sie möglicherweise auch brauchen)“.

Konzeptionell könnte das implizite Ziel von Argumentationsansätzen so verstanden werden, dass sie ein System-2-ähnliches Modellverhalten implementieren, das seine potenziellen Ausgaben erkundet, bewertet und verfeinert.

Ein wesentlicher Schritt kam aus der frühen LLM-Forschung, die zeigte, dass das einfache Hinzufügen des Ausdrucks „Schritt für Schritt denken“ – ein sogenanntes Chain of Thought Prompting– die Modellausgaben deutlich verbessert.4,5 In einem Papier von Google DeepMind aus dem Jahr 2024 wurde eine noch umfassendere Behauptung aufgestellt: Das Hochskalieren der Testzeitberechnung (die Ressourcen, die zum Generieren einer Ausgabe verwendet werden) erhöht die Modellleistung ebenso wie die Hochskalierung der Trainingszeitberechnung (die Ressourcen, die zum Trainieren eines Modells verwendet werden).6 CoT-Prompting ist nur eine von vielen solchen Skalierungstechniken für Inferenz, ebenso wie S2A.

Moderne Schlussfolgerungs-LLMs gehen noch weiter: Anstatt sich auf Prompt-Design zu verlassen, verwenden sie neuartige Feinabstimmungstechniken und ausgefeilte Workflows, um die Rechenleistung, die das Modell zur Inferenzzeit verbraucht, intrinsisch zu erhöhen. Die Optimierung eines Argumentationsmodells beinhaltet sowohl die technische Herausforderung, Algorithmen und Trainingsdaten zu entwickeln, als auch die philosophische Herausforderung, einen idealen „Denkprozess“ zu entwerfen.

Funktionsweise von Argumentationsmodellen

Die Anfangsphasen von LLMs zum Trainieren von Schlussfolgerungen spiegeln die von herkömmlichen LLMs wider. Wie Standard-LLMs erhalten auch Argumentationsmodelle ihre allgemeine linguistische Einrichtung und ihr Weltwissen durch ein groß angelegtes,selbstüberwachtes Vortraining, gefolgt von einem gewissen Grad an überwachter Feinabstimmung (Supervised Fine-Tuning, SFT), um es an nachgelagerte Aufgaben (wie die Nutzung eines dialogorientierten Chatbots) anzupassen. Die zentrale Innovation ist die Anwendung neuartiger Reinforcement Learning-(RL-)Techniken, die dem Modell einen Anreiz geben, zwischenzeitliche „Argumentationsschritte“ zur Inferenzzeit zu generieren, bevor sie einen endgültigen Output erzeugen.

Jahrelange Forschung und Experimente haben eine exponentiell wachsende Zahl von Argumentationsansätzen hervorgebracht, aber alle teilen das grundlegende Ziel, die Rechenleistung zu Testzeiten zu erhöhen. Anders als das Basis-LLM (oder anweisungsabgestimmte LLM), das als Grundlage dient, unterscheiden sich die Argumentationsmodelle durch die spezifischen Entscheidungsfindungsstrategien, für die sie trainiert wurden, sowie durch die spezifischen Algorithmen, die verwendet werden, um dieses Verhalten zu fördern.

Im Großen und Ganzen gibt es zwei Hauptmethoden, um die zur Inferenzzeit verwendete Rechenleistung zu erhöhen. Das Ziel der Feinabstimmung eines Argumentationsmodells besteht darin, es mithilfe verschiedener Lernalgorithmen darauf zu schulen, einen (oder beide) dieser allgemeinen Ansätze zu verwenden.

  • Generieren längerer Outputs: Das Modell lernt, längere Outputsequenzen durch Strategien wie lange Gedankenketten, Backtracking und Selbstoptimierung zu erzeugen.

  • Generieren mehrerer Ausgaben: Anstatt eine einzige Ausgabe als Antwort auf eine Eingabeaufforderung zu generieren, generiert das Modell mehrere Iterationen seiner Ausgabe und gelangt durch einen Prozess des Suchens, Ablehnens und Aggregierens potenzieller Ausgaben zu seiner endgültigen Antwort.  

Die Natur der Lernparadigmen, die Denkmodelle hervorbringen, beinhaltet in der Regel das Training und die Bewertung von Problemen, deren Lösungen nachweisbar sind, wie Codierungsaufgaben oder mathematische Probleme. Benchmark-Metriken, die zur Bewertung der Leistung von Argumentationsmodellen verwendet werden, konzentrieren sich daher in der Regel auf diese Bereiche. In subjektiveren Bereichen wie dem kreativen Schreiben wurde deutlich weniger Forschung über die Auswirkungen des logischen Denkens durchgeführt.

Feinabstimmung der Verstärkung

Von zentraler Bedeutung für den Aufstieg von schlussfolgernden LLMs war die Weiterentwicklung der RL-basierten Feinabstimmung, die sowohl regelbasiertes RL als auch auf Deep Learning basierendes RL („deep RL“) in LLM-Kontexten umfasst. Während überwachtes und selbstüberwachtes Lernen klar definierte, statische Trainingsaufgaben erfordern, eignet sich RL gut für die Art von dynamischen, offenen und komplexen Aufgaben, für die mehrstufige Schlussfolgerungen am nützlichsten sind.

Die Verwendung von RL zur Feinabstimmung von LLMs auf eine Weise, die abstrakte Qualitäten vermittelt, ist nicht nur für Argumentationsmodelle beschränkt. Die Standard-Trainingspipeline für ein LLM zur Verwendung in Chatbot-Umgebungen sieht beispielsweise wie folgt aus:

  1. Selbstüberwachtes Vortraining, bei dem das Modell die sprachlichen Muster und das Basiswissen lernt, die auf nachgelagerte Aufgaben angewendet werden sollen.

  2. Überwachte Feinabstimmung (Supervised Fine-Tuning, SFT), bei der das Modell lernt, wie es seine Antworten auf Benutzereingaben richtig formatiert.

  3. Instruktionsoptimierung, bei der das Modell lernt, Anweisungen zu befolgen und bestimmte Aufgaben auszuführen.

  4. Verstärkendes Lernen durch menschliche Rückkopplung (Reinforcement Learning from Human Feedback, RLHF), bei dem das Modell anhand menschlicher Präferenzdaten feinabgestimmt wird, um subjektive Eigenschaften wie Hilfsbereitschaft, Harmlosigkeit, Wahrhaftigkeit und idealen Tonfall zu vermitteln.

LLMs für logisches Denken durchlaufen in der Regel dieselben Trainingsphasen, wobei (irgendwann) eine verstärkende Lernphase hinzugefügt wird, die einen produktiven CoT-basierten Denkprozess vermittelt. Dies wird erreicht, indem die Ziele dieses Argumentationsprozesses definiert werden – die spezifischen Modellverhalten, die „belohnt“ werden sollen, wie z. B. die Erzeugung von CoT-Argumentationsspuren vor einer endgültigen Ausgabe – und dann die Modellgewichtungen so optimiert werden, dass die Belohnung maximiert wird.

Da es schwierig oder sogar unmöglich ist, eine explizite Belohnungsfunktion für eine so abstrakte und komplexe Aufgabe wie einen Argumentationsprozess zu entwerfen, der für alle komplexen Problemlösungen effektiv ist, stammt dieses Belohnungssignal oft von einem separaten Belohnungsmodell, das während des Trainings verwendet wird. In RLHF wird dieses Belohnungsmodell selbst auf menschliches Feedback trainiert und lernt, einen numerischen Wert dafür vorherzusagen, wie sehr ein Mensch eine bestimmte Antwort bevorzugen würde.

Im Kontext von RL für Argumentationsmodelle können Belohnungssignale in drei große Kategorien eingeteilt werden: Ergebnis-Belohnungsmodelle (ORMs), Prozess-Belohnungsmodelle (PRMs) und regelbasierte Belohnungssysteme.

Ergebnisbelohnungsmodelle (ORMs)

ORMs überprüfen, wie der Name schon sagt, die Genauigkeit der endgültigen Ausgabe des Argumentationsmodells und liefern Belohnungssignale, die verwendet werden, um die Modellgewichte entsprechend zu optimieren. Oberflächlich gesehen ähnelt dies der Rolle einer Verlustfunktion beim überwachten Lernen, obwohl die Mechanismen oft komplexer sind.

Während eine Verlustfunktion in der Regel die Token-für-Token-Divergenz zwischen einem Modelloutput und der Ground Truth misst, muss ein effektives ORM in der Lage sein, eine korrekte Antwort auf ein mathematisches Problem zu erkennen, auch wenn sie ganz anders präsentiert wird als die verfügbare Ground-Truth-Antwort, was oft der Fall ist, wenn man die hohe Variabilität der langen CoT-Ausgaben bedenkt. Ebenso gibt es für die meisten realen Codierungsprobleme mehrere Lösungen: Die ganzheitliche Auswertung der Code-Ausgabe erfordert in der Regel eine Datenpipeline, die Codeschnipsel effizient ausführt und deren Ausgabe überprüft. Für andere Ausgabequalitäten, z. B. ob sie einer vorgeschriebenen Formatierung oder Anweisungen folgt, kann ein Standard-LLM als Prüfer verwendet werden.

Obwohl ORMs eine relativ einfache und rechnerisch effiziente Lösung sind, können sie potenziell Situationen belohnen, in denen fehlerhafte Denkschritte dennoch zu einer korrekten endgültigen Antwort führen, was dazu führt, dass das Modell suboptimale Denkprozesse lernt.

Prozessbelohnungsmodelle (PRMs)

PRMs bewerten und belohnen (oder bestrafen) jeden einzelnen Argumentationsschritt isoliert, anstatt sich ausschließlich auf die Genauigkeit der endgültigen Antwort zu konzentrieren. Dies liefert feinere Belohnungssignale und nachfolgende Modellanpassungen, was zu Modellen mit einem robusteren und besser interpretierbaren Denkprozess führt.

PRMs sind jedoch kostspieliger und zeitaufwändiger im Training und in der Implementierung. Einflussreiche frühe Ansätze für PRMs stützten sich fast ausschließlich auf die mühsame Datenkennzeichnung durch menschliche Kommentatoren.7 Andere Ansätze automatisieren diesen Prozess, indem sie die Gültigkeit eines Argumentationsschritts basierend darauf ableiten, wie oft er zu einer richtigen Antwort führt.8

Regelbasierte Belohnungssysteme

Um die Kosten und Komplikationen von Belohnungsmodellen zu vermeiden, gestalten einige RL-basierte Feinabstimmungsansätze die Trainingsaufgaben so, dass die Bewertung der Modellausgaben vereinfacht wird. Beispielsweise fordern die Techniken DeepSeek-R1 und R1-Zero die Modelle auf, ihre endgültigen Antworten in einer separaten Box zu formatieren, sodass die Genauigkeit ohne ein spezielles Belohnungsmodell, das die gesamte Antwort analysieren muss, überprüft werden kann. Andere regelbasierte Belohnungssysteme bieten Anreize für bestimmte Mikroaktionen, wie z. B. das Hinzufügen „warten“ am Ende einer Antwort, um mehr Erkundung und Selbstkorrektur zu fördern, die leicht verifiziert werden können.9

DeepSeek-R1-Zero: RL pur

Eine einfache, anschauliche und äußerst einflussreiche Technik zur Feinabstimmung der Verstärkung wurde von DeepSeek beim Training ihres experimentellen Open-Source-Argumentationsmodells R1-Zero entwickelt.

Unter Verwendung von DeepSeek-V3 als Basis ging DeepSeek direkt vom Vortraining zu einem extrem einfachen regelbasierten Schema für Reinforcement Learning über:

  • Modellanfrage: Stellen Sie dem Modell eine Frage. Fordern Sie es auf, einen Denkprozess zwischen „<think> und</think> “ Tokens und die endgültige Antwort zwischen“<answer> und</answer> “ Tokens bereitzustellen.

  • Belohnungen für Genauigkeit: Belohnen Sie das Modell für die Qualität seiner endgültigen Antwort, z. B. wie gut der generierte Code ausgeführt wird.

  • Belohnungen formatieren: Belohnen Sie das Modell für die korrekte Verwendung des „<think> </think> und<answer> </answer> “-Formats in den Antworten.

Überraschenderweise lernte DeepSeek-R1-Zero ohne explizite Anweisung komplexe Gedankenketten zu erzeugen und Strategien anzuwenden, die bei Mathematik- und Denkaufgaben beeindruckende Leistungen erbrachten. Mit anderen Worten: Da das Modell nur die Aufgabe hat, zu denken, bevor es eine endgültige Antwort ausgibt und die Genauigkeit der endgültigen Antworten zu maximieren, hat das Modell auf natürliche Weise optimale Argumentationsmuster erkundet und entdeckt.

In praktischer Hinsicht wies dieser reduzierte Ansatz erhebliche Mängel auf: „DeepSeek-R1-Zero stößt auf Herausforderungen wie endlose Wiederholungen, schlechte Lesbarkeit und Sprachvermischung“, wie es in dem technischen Bericht heißt. Dennoch diente dieser reine RL-Ansatz als Grundlage für die verfeinerte Methodik, aus der das äußerst beliebte DeepSeek-R1-Modell hervorging.

Such- und stichprobenbasierte Ansätze

Während die meisten CoT-basierten RL-Paradigmen darauf abzielen, die Effizienz einer einzelnen Ausgabe zu optimieren, generieren andere Methoden mehrere endgültige oder Zwischenausgaben mit dem Ziel, die besten Argumentationsschritte zu identifizieren und zu fördern.

Viele dieser Ansätze stützen sich auf suchbasierte Optimierungsalgorithmen, wie z. B. die Monte-Carlo-Baumsuche (MCTS), um mehrere potenzielle nächste Argumentationsschritte zu generieren und zu erkunden und sie auf der Grundlage der Qualität der weiteren Schritte und der endgültigen Antworten, zu denen sie führen könnten, zu bewerten. Die Belohnung wird dann iterativ auf den Argumentationswegen, die zu wünschenswerten Ergebnissen geführt haben, rückwärts propagiert, und die Gewichtungen werden so optimiert, dass die Wahrscheinlichkeit dieser Argumentationsschritte erhöht wird. Dies ist besonders nützlich für Argumentationsaufgaben mit einer sehr großen Bandbreite potenzieller Entscheidungen oder die eine umfangreiche langfristige Planung erfordern, um eine Chance auf eine genaue endgültige Antwort zu haben.

Ein weiterer Ansatz ist die Selbstkonsistenz, auch Mehrheitsentscheidung genannt.Jede Aufgabe beginnt mit der Eingabeaufforderung für eine Gedankenkette. Vom Decoder des Modells werden mehrere Antworten mit ihren eigenen Argumentationspfaden abgetastet. Diejenige Antwort, die in der Stichprobe am häufigsten vorkommt, wird als optimale Antwort bestimmt. Dies kann entweder als Strategie zur Minimierung von Zufälligkeit und Halluzination oder als Mittel zur Generierung hochwertiger Argumentationsdaten für SFT-basierte Methoden verwendet werden.

Der größte Nachteil solcher Methoden ist die erhöhte Latenz und der Rechenaufwand, die sie mit sich bringen. Einige Untersuchungen deuten jedoch darauf hin, dass kleinere Modelle, die such- oder stichprobenbasierte Inferenzalgorithmen verwenden, einen besseren Kompromiss zwischen größeren Modellen und konventionell verwendeten Modellen bieten können.10

SFT, Wissensdestillation und Ansätze zur Selbstverbesserung

Eine der konzeptionell einfachsten Möglichkeiten, Modelle für die Argumentation zu optimieren, besteht darin, einfach überwachtes Lernen auf einen Datensatz anzuwenden, der anspruchsvolle Eingabeaufforderungen und entsprechende CoT-basierte Ausgaben enthält.

Die Verwendung herkömmlicher Methoden, um einen Trainingsdatensatz „von Hand“ anhand von von Menschen geschriebenen Beispielen zusammenzustellen, ist zwar unerschwinglich zeit- und arbeitsintensiv, aber die Verbreitung von Argumentationsmodellen und Techniken zur Inferenzskalierung hat es erheblich einfacher gemacht, geeignete synthetische Trainingsdaten zu generieren.  Untersuchungen der Stanford University und des Allen Institute for A1 ergaben, dass nach der Feinabstimmung des Qwen2.5-32B-Instruct- Modus mit einem kuratierten Datensatz mit nur 1.000 Paaren von Fragen und Argumentationsspuren ihr „s1“-Modell die o1-Vorschau von OpenAI bei mathematischen Wettbewerbsproblemen übertraf.

Wissensdestillation kann auch verwendet werden, um kleineren Modellen beizubringen, die Denkprozesse größerer Denkmodelle nachzuahmen, indem sie mit SFT direkt mit den Ausgaben des größeren „Lehrer“-Modells angepasst werden. DeepSeek nutzte die Wissensdestillation mit DeepSeek-R1 als Lehrer, um auf die Argumentation abgestimmte Versionen mehrerer Größen von Qwen- und Llama-Modellen zu erstellen.

Andere Methoden zielen darauf ab, einen Datensatz mit Prompts und entsprechenden langen CoT-Ausgaben durch einen Prozess des Bootstrapping des Modells zu erstellen. Der Autodidakt Reasoner (STaR) liefert Few-Shot-Beispiele für effektive Denkspuren, dann gibt ein Modell den Prompt, Antworten und Begründungen für eine größere Anzahl von Beispielfragen zu generieren. Das Modell wird dann mithilfe von Begründungen abgestimmt, die letztendlich zu richtigen Antworten geführt haben, woraufhin der Prozess iterativ wiederholt wird.11 Reinforced Self-Training (ReST) wendet einen ähnlichen konzeptionellen Ansatz an, um das Belohnungssignal (oder die „Richtlinie“) zu optimieren, das für die Feinabstimmung der Verstärkung verwendet wird.12 Beide haben eine Reihe abgeleiteter Methoden hervorgebracht.

AI Academy

Wählen Sie das richtige KI-Modell für Ihren Anwendungsfall

Größer ist nicht immer besser, wenn es um KI-Modelle geht. Erfahren Sie, wie Sie die richtige Lösung für Ihre Geschäftsanforderungen finden. Holen Sie sich anschließend den Leitfaden, der Ihnen hilft, aktiv zu werden.

Herausforderungen von Argumentationsmodellen

Trotz ihrer vielen Stärken und Nutzen haben LLMs auch Nachteile.

Zu viel Nachdenken

Argumentationsmodelle – insbesondere solche mit relativ wenigen Parametern – neigen dazu, zu viel nachzudenken. Eine Studie von Tencent ergab, dass Reasoning-Modelle durchschnittlich 1.953 % mehr Token verbrauchen als herkömmliche Modelle, um die gleiche Antwort zu erhalten.13 Eine andere Studie, die von Forschern mehrerer Universitäten durchgeführt wurde, ergab, dass in agentenbasierten Umgebungen Denkmodelle dazu neigen, erweiterte zirkuläre Überlegungen anzustellen, anstatt mit externen Tools und Informationsquellen zu interagieren.14

Einschränkungen der Inferenzskalierung

In einer von Anthropic im Juli 2025 veröffentlichten Studie wird behauptet, dass ein solches Überdenken nicht nur ein Effizienzproblem ist: Die Forschung der Organisation untersucht „Fälle, in denen längeres Nachdenken die Leistung verschlechtert und eine umgekehrte Beziehung zwischen Berechnung und Genauigkeit während der Testzeit aufweist.“ Obwohl empirisch bestätigt wurde, dass eine erhöhte Rechenleistung in der Testzeit häufig die Modellleistung verbessern kann, zeigten die Untersuchungen mehrerer Szenarien, in denen eine längere Argumentation die Schwächen und die Ausrichtungsprobleme des Modells verstärkte. Dies stellt die Annahme in Frage, „dass mehr logisches Denken universell die Ausgaben des Modells verbessert“.15

Ähnliche Untersuchungen von Apple zu Beginn des Jahres 2025 zeigten eine Reihe von Aufgaben mit geringer Komplexität, bei denen Standardmodelle die Argumentationsmodelle übertrafen, sowie Aufgaben mit hoher Komplexität, bei denen beide Modelltypen völlig versagten. In Apples Untersuchungen entwickeln Denkmodelle „keine verallgemeinerbaren Problemlösungsfähigkeiten für Planungsaufgaben, bei denen die Leistung über eine bestimmte Komplexitätsschwelle hinaus auf Null zusammenbricht.“1

Degradation in nicht-logischen Bereichen

Während die Feinabstimmung der Argumentation in der Regel zu erheblichen Verbesserungen bei komplexen Aufgaben in logischen Bereichen wie Mathematik und Codierung führt, kann sie auch zu Leistungseinbußen führen. So zeigten die Versionen von Llama 3.1 und Qwen2.5, die durch Wissensdestillation auf DeepSeek-R1 optimiert wurden, im Vergleich zu ihren ursprünglichen Gegenstücken eine Regression auf ArenaHard und Alpaca-Eval-2, beliebte Benchmarks, die die Fähigkeit eines Modells messen, ihren Weg durch schwierige Anweisungen zu Denken. Allerdings verbessern breiter angelegte Argumentationstechniken wie die Gedankenpräferenzoptimierung (TPO), die zur Feinabstimmung von IBM Granite 3.2 verwendet wird, das Befolgen von Anweisungen erheblich (wenn auch ohne nennenswerte Auswirkungen auf die Mathematik- oder Codierungsleistung).

LLM-Evaluierung Die Feinabstimmung der Llama- und Qwen-Modelle zur Emulation des Denkprozesses von DeepSeek-R1 erhöhte die Leistung in bestimmten logischen Domänen, verringerte jedoch die allgemeine Anweisungsbefolgung.

Höhere Kosten und Latenz

Benutzer müssen für alle Token bezahlen (und warten), die das Modell beim „Denken“ generiert, und diese denkenden Token verschlingen das verfügbare Kontextfenster. Einige Anwendungsfall rechtfertigen diese zusätzliche Zeit und Rechenleistung, aber für andere ist es eine Verschwendung von Ressourcen. Der ständige Wechsel von einem Denkmodell zu einem „Standard“-Modell für jede einzelne Aufgabe und jeden einzelnen Prompt ist jedoch unpraktisch.

Argumentationsaufwand und hybride Denkmodelle

Eine Lösung sind „hybride Denkmodelle“. Im Februar bot IBM Granite 3.2 als erstes LLM einen umschaltbaren „Denkmodus“ an, der es den Benutzern ermöglicht, Reasoning bei Bedarf zu nutzen und ansonsten Effizienz zu priorisieren.3 Claude 3.7 Sonnet von Anthropic folgte wenige Wochen später und bot API -Nutzern die Möglichkeit, eine fein abgestufte Kontrolle darüber zu haben,wie lange das Modell „denkt“.4 Google hat eine ähnliche Möglichkeit eingeführt, das „Denkbudget“ der Gemini-Modelle anzupassen.18 Ebenso kann der „Denkaufwand“ der o1- und o3-Schlussfolgermodelle von OpenAI auf „niedrig“, „mittel“ oder „hoch“ eingestellt werden.

Interpretierbarkeit

Anscheinend hilft die Offenlegung der Gedankenkette des Modells dem Benutzer, genau zu verstehen, wie ein LLM zu seinen endgültigen Antworten kommt, wodurch eine bessere Interpretierbarkeit geschaffen wird, als dies mit einem Standardmodell normalerweise möglich ist. Untersuchungen von Anthropic legen jedoch nahe, dass Argumentationsmodelle nicht immer das sagen, was sie tatsächlich denken. Bei einer Reihe von speziell entwickelten Aufgaben entdeckten die Forscher, dass sowohl Claude 3.7 Sonnet als auch DeepSeek-R1 ihre Überlegungen nicht wahrheitsgetreu erklärten: Wenn sie beispielsweise Hinweise auf die richtige Antwort erhielten, erwähnten ihre Antworten diese Hinweise nur selten, wenn sie ihre angebliche Begründung beschrieben.19

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai Erkunden Sie die KI-Modelle von IBM Granite
Fußnoten

Sofern nicht anders angegeben, befinden sich alle Links außerhalb von ibm.com.

1. "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity," Apple Machine Learning Research, Juni 2025
2. "Introducing OpenAI o1-preview," OpenAI, 12. September 2024
3. "From System 1 to System 2: A Survey of Reasoning Large Language Models," arXiv, 24. Februar 2025 
4. "Large Language Models are Zero-Shot Reasoners," arXiv, 24. Mai 2022
5. "Show Your Work: Scratchpads for Intermediate Computation with Language Models," arXiv, 30. November 2022
6. "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters," arXiv, 6. August 2024
7. "Let's Verify Step by Step," arXiv, 31. Mai 2023
8. "Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations," arXiv, 14. Dezember 2023
9. "s1: Simple test-time scaling," arXiv, 31. Januar 2025
10. "Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models," arXiv, 1. August 2024
11. "STaR: Bootstrapping Reasoning With Reasoning," arXiv, 28. März 2022
12. "Reinforced Self-Training (ReST) for Language Modeling," arXiv, 17. August 2023
13. "Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs," arXiv, 30. Dezember 2024
14. "The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks," arXiv, 12. Februar 2025
15. "Inverse Scaling in Test-Time Compute," arXiv, 19. Juli 2025
16. "Bringing reasoning to Granite," IBM Research, 7. Februar 2025
17.  "Claude 3.7 Sonnet and Claude Code," Anthropic, 24. Februar 2025
18. "Generative AI on Vertex AI: Thinking," Google
19. "Reasoning models don't always say what they think," Anthropic, 3. April 2025