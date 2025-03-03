Das Innenleben großer Sprachmodelle (LLMs) war traditionell undurchsichtig. Ein Modell erhält einen Prompt und generiert eine Antwort, ohne seine internen Schlussfolgerungsschritte preiszugeben.

Hybrid Reasoning verändert diese Dynamik, indem es den schrittweisen Denkprozess eines Modells offenlegt. Wenn sie aktiviert werden, zeigen Systeme wie Granite 3.2 ihre Arbeit und machen die logischen Pfade, denen sie folgen, sichtbar.

„Unsere Entscheidung, Claudes Denkprozess sichtbar zu machen, spiegelt die Berücksichtigung mehrerer Faktoren wider. Zu diesen Faktoren gehören eine verbesserte Benutzererfahrung und die Vertrauenstransparenz in Claudes Argumentationsprozess“, sagte der Sprecher von Anthropic. „Dies gibt den Nutzern Erkenntnis in die Art und Weise, wie Schlussfolgerungen gezogen werden, und fördert so ein angemessenes Maß an Vertrauen und Verständnis. Die Benutzer vertrauen den Ausgaben im Allgemeinen mehr, wenn sie die Gedankenkette beobachten können. Wir hoffen, dass diese Transparenz es den Nutzern ermöglicht, die Qualität und Gründlichkeit von Claudes Argumentation besser zu beurteilen und ihnen hilft, Claudes Funktionen besser zu verstehen. Außerdem hoffen wir, dass Benutzer und Entwickler bessere Prompts erstellen können, indem sie Claudes Denkergebnisse lesen und gezieltes Feedback zu bestimmten Argumentationsschritten geben.“

„Die Möglichkeit, die eigentliche Denkweise des Modells offenzulegen, ist für die Erklärbarkeit von großem Vorteil“, sagt Daniels. „Bevor wir die Gedankenkette (Chain-of-Thought, CoT) demonstrieren konnten, ging es im Grunde nur um die Wahrscheinlichkeit des nächsten Tokens. Also ein bisschen eine Blackbox.“

Diese Technologien haben Anwendungen, die sich über viele Branchen erstrecken. „Finanz- und Rechtswesen passen ideal zusammen, da sie mit strukturierter Dokumentation arbeiten“, sagt Daniels und fügt hinzu, dass „jede regulierte Branche enorm von diesen fortschrittlichen Denkmodellen profitieren kann“.

Hybrides Denken kann jedoch besonders in Bereichen nützlich sein, die eine komplexe Analyse erfordern.

„Mathematik und Code sind die beiden Schwerpunkte, die ich als Benchmark für logisches Denken gesehen habe“, sagt Daniels. Für die Softwareentwicklung könnte der Nutzen erheblich sein: „Mithilfe eines Denkmodells lässt sich der Umfang des Projekts anhand der von Ihnen festgelegten Anforderungen genau definieren“, sagt er.

Standard-LLMs generieren Antworten, indem sie das wahrscheinlichste nächste Wort auf der Grundlage von Mustern in ihren Trainingsdaten vorhersagen. Dieser Ansatz funktioniert bei vielen Aufgaben gut, aber diese Modelle haben Probleme mit mehrstufigen Argumentationsproblemen.

Hybride Argumentationsmodelle können in einen rechenintensiven Modus wechseln und explizit logische Zwischenschritte generieren, bevor sie eine endgültige Antwort geben. Das Modell verwendet diese Schritte, um komplexe Probleme zu lösen, ähnlich wie Menschen Zwischenschritte beim Lösen komplexer mathematischer Probleme aufschreiben.

Die Architektur, die hybrides Schlussfolgern ermöglicht, baut auf dem auf, was Forscher als„Testzeit-Berechnung“ bezeichnen, bei dem Rechenressourcen während der Inferenz und nicht nur während des Trainings bereitgestellt werden.

„Traditionell wurde oft die gesamte Rechenleistung zum Trainieren des Modells verwendet, und die Inferenz des Modells war dann im Vergleich zu anderen Verfahren relativ ressourcenschonend“, sagt Daniels.

Doch mit zunehmender Komplexität der KI-Systeme wird die Herausforderung nicht nur in der Leistung liegen – sondern auch darin, zu wissen, wann man sie effizient einsetzen sollte. Deshalb wird die nächste Herausforderung für hybrides Denken, sagt Daniels, eine intelligentere Selbstregulierung sein: der KI beizubringen, wann sie ihren tieferen Denkmodus von selbst aktivieren muss, ohne dass Menschen ihr sagen, dass sie das tun soll.

„Der nächste Schritt in Bezug auf Argumentationsmodelle oder hybride Argumentationsmodelle besteht darin, wie wir Eingabe innerhalb der Testzeitberechnung oder innerhalb des Frameworks besser verstehen oder besser sortieren können“, sagt er.