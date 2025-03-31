Da Argumentationsmodelle wie OpenAIs o1, DeepSeek-R1 und Googles Gemini 2.5 um die besten KI-Intelligence-Benchmarks konkurrieren, werden Unternehmen, die KI integrieren wollen, zunehmend misstrauisch gegenüber dem Phänomen, das als „Model Bloat“ bezeichnet wird – dem Phänomen, bei dem Modelle unnötig groß oder komplex werden, was die Rechenkosten und die Trainingszeit der Modelle in die Höhe treibt und die Geschwindigkeit verringert, mit der sie die Antworten liefern können, die Unternehmen benötigen.
OpenAIs o1 und DeepSeek-R1 nutzen die Chain-of-Thought-(CoT-)Logik, um komplexe Probleme in Stufen aufzuteilen und so eine beispiellose Leistung sowie eine größere Genauigkeit als frühere Modelle zu erzielen. Aber CoT erfordert auch erhebliche Rechenressourcen während der Inferenz, was zu langen Ausgaben und höherer Latenzzeit führt, sagt Volkmar Uhlig, ein VP und KI-Infrastruktur-Portfolio-Lead bei IBM, in einem Interview mit IBM Think.
Hier kommt eine neue Klasse von Prompting-Techniken ins Spiel, die in verschiedenen neuen Veröffentlichungen beschrieben werden. Sie reichen von Atom of Thought(AoT) bis hin zu Chain of Draft(CoD) und sollen die Effizienz und Genauigkeit von CoT erhöhen, indem sie den Modellen helfen, Probleme schneller zu lösen und so Kosten und Latenzzeiten zu reduzieren.
Der KI-Wissenschaftler und Startup-Gründer Lance Elliott sieht die neuen Abzweigungen der Denkkette als Variationen im Toolkit eines Prompt Engineers. „In Ihrem typischen Toolkit für Heimwerkerarbeiten gibt es vielleicht einen normalen Hammer – das wäre CoT“, sagt er zu IBM Think. „AoT wäre vergleichbar mit der Verwendung eines Spezialhammers, der für Situationen wie das Schneiden und Anpassen von Gipskartonplatten eingesetzt wird.“ Man könnte zwar einen normalen Hammer für Gipskartonarbeiten verwenden, aber es wäre ratsam, einen Gipskartonhammer zu benutzen, wenn man einen besitzt und weiß, wie man ihn richtig einsetzt.“
Vyoma Gajjar, AI Technical Solution Architect bei IBM, sieht Potenzial in diesen neuen CoT-Verwandten, insbesondere für Unternehmen „die nach kosteneffizienteren Wegen suchen, um kleine Modelle dazu zu bringen, genaue Antworten für ihre spezifischen Anwendungsfälle zu erhalten“, sagt sie.
Im Gegensatz zur Gedankenkette, die komplexe Probleme löst, indem sie diese in detaillierte, aufeinanderfolgende Schritte zerlegt, verwendet AoT eine Divide-and-Conquer-Strategie. Konkret zerlegt AoT die Schritte eines Problems in „atomare Fragen“, die parallel bearbeitet werden, wie die Autoren einer Studie der Hong Kong University of Science und der Renmin University of China erläutern, und fügt dann die einzelnen Lösungen zu einer endgültigen Antwort zusammen.
AoT kann sowohl als eigenständiges Framework als auch als Plug-in-Erweiterung eingesetzt werden. Als die Autoren AoT mit OpenAIs GPT-4o mini verwendeten, übertraf es mehrere Reasoning-Modelle in sechs Basis-Benchmarks, darunter o3-mini um 3,4 % und DeepSeek-R1 um 10,6 % auf dem HotpotQA-Datensatz.
Gajjar sieht in AoT vielversprechende Möglichkeiten für Anwendungen, die ein Gleichgewicht zwischen Leistung und einem bestimmten Kostenprofil anstreben. „Die separaten Aufgaben laufen parallel, und dann lässt man diese Aufgaben, oder 'Atome', miteinander sprechen, um die genaueste Lösung zu erhalten, da ein Elektron mit einem Proton spricht“, sagt sie in einem Interview mit IBM Denken.
Die Autoren des Artikels bestätigen, dass AoT „wettbewerbsfähige Leistung bei deutlich niedrigeren Rechenkosten im Vergleich zu bestehenden Methoden erreicht“ und fügen hinzu, dass „diese gesteigerte Effizienz auf unsere atomare Zustandsrepräsentation zurückzuführen ist, die nur notwendige Informationen erhält und gleichzeitig redundante Berechnungen eliminiert.“
AoT funktioniert jedoch nicht für alle Anwendungsfälle gut. Elliott, der KI-Wissenschaftler, sagt, dass AoT am ehesten dann hilfreich sein dürfte, „wenn generative KI zum Herleiten mathematischer Beweise, zum Erstellen von Programmcode und für hochstrukturierte Schlussfolgerungsaufgaben verwendet wird.“ Und es sei weniger wahrscheinlich, dass sich dadurch die Effizienz bei kreativen Schreibaufgaben und der Teilnahme an Gesprächen verbessere, sagt er.
Das Chain-of-Draft-Prompting beseitigt unterdessen den Engpass, der entstehen kann, wenn Argumentationsmodelle ausführliche, sehr detaillierte Schritte produzieren, die Latenzzeit erhöhen. Dieses Phänomen stellt einen wesentlichen Unterschied zwischen Denkmodellen und Menschen dar, die dazu neigen, „sich auf präzise Entwürfe oder Kurznotizen zu verlassen, um wichtige Erkenntnisse ohne unnötige Ausarbeitung festzuhalten“, schreiben die Autoren von Zoom Communications in einem neuen Artikel über CoD.
„Das Latenzproblem wurde oft übersehen“, schreiben die Autoren des Artikels. „Für viele Anwendungen ist es jedoch entscheidend, eine geringe Latenz bei gleichzeitig hoher Antwortqualität zu gewährleisten.“
Mit CoD Prompting wird ein LLM ermutigt, eine prägnante Erklärung abzugeben, während er seinen Weg zu einer Antwort begründet. Zum Beispiel lautete der CoT-Prompt: „Denke Schritt für Schritt, um die folgende Frage zu beantworten. Gib die Antwort am Ende der Antwort nach einem Trennzeichen #### an.“ Im Gegensatz dazu gab die Prompt dem Modell die Anweisung, „Schritt für Schritt zu denken, aber für jeden Denkschritt nur einen minimalen Entwurf mit höchstens 5 Wörtern zu erstellen“. Geben Sie die Antwort am Ende der Antwort nach einem Trennzeichen an.“
Unter Verwendung von ChatGPT-4o von OpenAI und Claude 3.5 Sonnet von Anthropic fanden die Forscher heraus, dass CoD die Genauigkeit von CoT erreicht oder sogar übertrifft und dabei 92,4 % weniger Token benötigt, was die Kosten und die Latenzzeit bei verschiedenen Argumentationsaufgaben reduziert.
„Wir befinden uns in einer ganz neuen Welt der algorithmischen Erforschung“, sagt Uhlig von IBM. „Wenn Sie das Prompt-Training anders gestalten, können Sie die Anzahl der Token dramatisch reduzieren. Das ist ein sehr natürlicher Nächster Schritt.“
Es tauchen zwar immer wieder neue Prompting-Techniken auf, aber eine, die als „Skeleton of Thought“ (SoT) bezeichnet wird, zeichnet sich dadurch aus, dass sie Elemente des Gedankenatoms und der Entwurfskette kombiniert. Die Autoren eines Artikels, in dem die Technik vorgeschlagen wurde, sagen, sie seien durch „den Schreib- und Denkprozess der Menschen“ motiviert worden. SoT-Prompting leitet das LLM dazu an, das Grundgerüst einer Antwort zu erzeugen, und vervollständigt dann den Inhalt jedes Gerüstpunktes parallel.
Mit Hilfe von Skeleton of Thought konnten die Autoren der Tsinghua-Universität in China und Microsoft Forschung die Funktionsweise verschiedener LLMs beschleunigen und zudem die Genauigkeit der Antworten in mehreren categories verbessern. „Wir zeigen die Machbarkeit der parallelen Dekodierung von handelsüblichen LLMs ohne Änderungen an ihrem Modell, System oder Hardware“, schreiben sie.
Die Forscher stellten dem Modell beispielsweise die Frage: „Welche Strategien eignen sich am besten zur Konfliktlösung am Arbeitsplatz?“ Mithilfe der SoT-Prompting-Funktion konnten die Autoren die Latenz bei Claude von 22 Sekunden auf 12 Sekunden (eine Beschleunigung um das 1,83-fache) und bei Vicuna 33B V1.3 von 43 Sekunden auf 16 Sekunden (eine Beschleunigung um das 2,69-fache) verringern.
Keine der Prompting-Techniken eignet sich für jede Herausforderung; letztendlich wird die jeweilige Aufgabe die effizienteste Option aus dem Toolkit des Prompt-Ingenieurs bestimmen, sagt Elliott. „Zu wissen, wie generative KI unter der Oberfläche funktioniert, ist von großem Vorteil“, erklärt er. „Es ist, als würde man ein Auto fahren. Man muss nicht unbedingt die genauen Details der Funktionsweise eines Motors oder Getriebes kennen, aber zumindest die Kenntnis einiger grundlegender Prinzipien kann viel dazu beitragen, ein Auto besser zu beherrschen. Sie sind besser auf Situationen wie vereiste Straßen, nasse Straßen, das Fahren auf hügeligen Straßen und das Überstehen enger Kurven vorbereitet.“
