Was ist ein hierarchisches Reasoning-Modell (HRM)?

Mann, der sich Post-its auf einem Whiteboard anschaut

Hierarchische Reasoning-Modelle (HRMs) erklärt

Ein hierarchisches Reasoning-Modell (HRM) ist eine experimentelle KI-Architektur, die entwickelt wurde, um die Art und Weise nachzubilden, wie das menschliche Gehirn Informationen auf verschiedenen Zeitebenen und Komplexitätsstufen verarbeitet. Bemerkenswert ist, dass ein HRM-Modell bei mehreren Benchmarks, die die Leistung bei komplexen Reasoning-Aufgaben messen, damals hochmoderne Large Language Models (LLMs) übertraf, obwohl es um ein Vielfaches kleiner ist und auf einem weitaus kleineren Datensatz trainiert wurde.

Genauer gesagt handelt es sich bei HRMS ) um eine spezielle Architektur für neuronale Netze, die einen eigenen Algorithmus zur Generierung von Ausgaben und mehrere eigene Algorithmen zur Optimierung der Modellparameter während des Trainings anwendet. Sie werden zwar in der Regel mit LLMs verglichen, und zwar anhand der Leistung bei bestimmten Benchmarks, die in der Vergangenheit von LLMs dominiert wurden, aber das ist ein Vergleich von Äpfeln mit Birnen. HRMs sind enge, aufgabenspezifische Modelle, die explizit für Reasoning-Probleme entwickelt wurden, wohingegen LLMs generalistische Modelle sind, die auf Reasoning-Probleme (neben vielen anderen Aufgaben) angewendet werden können.

Obwohl HRMs zu komplexer Problemlösung fähig sind, sind sie nicht in der Lage, Gespräche, Codegenerierung, Zusammenfassungen oder andere Aufgaben, die üblicherweise mit generativen KI-Modellen verbunden sind, durchzuführen. Ein HRM muss direkt auf die Art von Problemen geschult werden, die es lösen soll. Umgekehrt werden LLMs in der Regel mit einer riesigen Menge und Vielfalt von Daten vortrainiert und dann (durch Few-Shot-Prompting) angewiesen, neuartige Probleme zu lösen, indem sie die Regeln ableiten.

Zentral für das Konzept von HRMs ist eine „Hierarchie“ von wiederkehrenden Schleifen, die sich daran orientieren, wie das menschliche Gehirn Informationen auf verschiedenen Ebenen und Frequenzen verarbeitet. Eine „innere Schleife“ besteht aus einem Modul, das schnell Berechnungen auf niedriger Ebene durchführt, und einem weiteren, langsameren Modul, dessen Berechnungen auf höherer Ebene das Modul auf niedriger Ebene steuern. Eine „äußere Schleife“ steuert die innere Schleife, um ihre Berechnungen iterativ zu wiederholen und so die Ausgabe des Modells zu verfeinern und zu verbessern.

HRMs wurden erstmals als Open-Source-Modell eingeführt, das in einem Paper von Guan Wang et al. im Juni 2025 beschrieben wurde. Mit nur 27 Millionen Parametern übertraf das Modell dramatisch größere Modelle wie OpenAIs o3, Anthropics Claude 3.7 Sonnet und DeepSeek-R1 – das 671 Milliarden Parameter hat – auf herausfordernden Benchmarks wie ARC-AGI, Sudoku-Extreme und Maze-Hard.

Das Modell selbst ist weitgehend experimentell, und in der Arbeit werden sowohl praktische Einschränkungen als auch unerforschte Wege für zukünftige Verbesserungen aufgezeigt. Dennoch macht sein Erfolg – insbesondere angesichts der extremen Dateneffizienz im Training und einer Modellgröße, die buchstäblich tausendmal kleiner ist als die meisten LLMs – es zu einem faszinierenden alternativen Ansatz zur Skalierung von Reasoning-Systemen. Weitere Forschungsarbeiten, wie beispielsweise zu Tiny Recurrent Models (TRMs), haben durch die Verfeinerung des grundlegenden Ansatzes von HRM und die Inspiration durch die von ihm eingeführten neuen Techniken weitere Fortschritte erzielt.

Wie HRMs „denken“

Konventionelle Reasoning-Modelle sind LLMs, die durch verstärkendes Lernen feinabgestimmt wurden, um eine schrittweise Gedankenkette (Chain of Thought, CoT) auszugeben, bevor dem Benutzer eine endgültige Antwort geliefert wird. Es hat sich empirisch gezeigt, dass dieser Prozess der „Verbalisierung“ eines Denkprozesses die Genauigkeit des Modells bei mathematischen, Programmier- und anderen komplexen logischen Aufgaben verbessert.

Trotz des erwiesenen Erfolges dieses Ansatzes wurde argumentiert, dass LLMs – selbst führende Reasoning-LLMs – kein Weg zur künstlichen allgemeinen Intelligenz (AGI) sind und sein werden. Auf neurologischer Ebene ist die Sprache in erster Linie ein Werkzeug zur Kommunikation, nicht zum Denken.

Im Großen und Ganzen entspricht der eher neurowissenschaftlich inspirierte Ansatz eines HRM eher der Art und Weise, wie das menschliche Gehirn abstrakte Probleme löst. Im Gegensatz zu LLMs argumentieren HRMs intern, ohne diesen Prozess zu „verbalisieren“. Technisch ausgedrückt: Während herkömmliche Reasoning-Modelle „laut“ im Token-Raum denken, denken HRMS intern im latenten Raum. LLMs „denken“, indem sie die von ihnen ausgegebenen Wörter (Tokens) iterativ verfeinern, während ein HRM Probleme durch iterative Verfeinerung seines verborgenen Zustands löst – der internen, gedankenähnlichen Zwischenberechnungen des Modells, die (schließlich) zur Erzeugung seiner endgültigen Ausgabe verwendet werden.

Denken Sie an eine Situation, in der Sie kürzlich ein komplexes Problem gelöst haben: Sie hatten vielleicht einen inneren Monolog, aber wahrscheinlich haben Sie Ihren gesamten Denkprozess nicht in klaren, vollständigen Sätzen in Ihrem Kopf (oder laut) verbalisiert. Wahrscheinlicher ist, dass Ihr Gehirn instinktiv und wortlos in Aktion getreten ist. Aus diesen ersten, instinktiven Gedanken entwickelte sich in Ihrem Kopf so etwas wie ein übergeordneter Plan. Dann haben Sie die einzelnen Schritte dieser Strategie gedanklich durchgearbeitet und den Gesamtplan nach und nach verfeinert. Schließlich haben Sie eine zufriedenstellende Lösung gefunden.

Während die Feinabstimmung von LLMs mit Techniken des verstärkenden Lernens einem Modell beibringen kann, Ausgaben zu erzeugen, die einen Denkprozess imitieren, zielen HRMs – in Anlehnung an einige Prinzipien der Systemneurowissenschaften – darauf ab, einen Denkprozess zu replizieren.

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

Wie hierarchische Reasoning-Modelle (HRMs) funktionieren

Wie in dem „Hierarchical Reasoning Model“-Papier beschrieben, wurde die Entwicklung der HRMs durch das Konzept des „System 1“- und „System 2“-Denkens beeinflusst. Diese metaphorischen Begriffe wurden von dem verstorbenen Nobelpreisträger Daniel Kahneman in seinem Buch Thinking, Fast and Slow geprägt, um die verschiedenen Ebenen zu beschreiben, auf denen der menschliche Verstand arbeitet. „System 1“-Denken ist schnell, unbewusst und intuitiv. „System 2“-Denken ist langsam, bewusst und logisch. HRMs implementieren daher eine Hierarchie , in der die Berechnungen eines schnellen Systems für niedrigstufige Berechnungen von einem langsameren System geleitet werden, das hochrangige Planung übernimmt.

HRMs im Vergleich zu Standard-RNNs

Im Sinne von Prinzipien des maschinellen Lernens können hierarchische Reasoning-Modelle als eine hochspezialisierte Form rekurrenter neuronaler Netze (RNNs) verstanden werden, mit Modifikationen, die die praktischen Schwächen der Standard-RNNs abmildern. Die auffälligste dieser Schwächen ist die vorzeitige Konvergenz: die Tendenz von RNNs, das Lernen lange zu beenden, bevor sie alle Muster und Abhängigkeiten in Trainingsdatensequenzen vollständig aufgenommen haben.

Während des Modelltrainings neigen RNNs dazu, schnell auf Modellgewichte zu konvergieren, die nicht ausreichend optimiert sind, um eine genaue Leistung zu erzielen. Dies liegt im Allgemeinen an verschwindenden Gradienten: Nach zu vielen Rechenschritten oder zu langer Sequenz werden die während der Backpropagation berechneten Modellparameter-Aktualisierungen so klein, dass sie auf null schrumpfen. Die Modellgewichte erreichen ein lokales Gleichgewicht, das kurzfristige Muster widerspiegelt und verhindern, dass sie ein globales Gleichgewicht erreichen, das die Muster der Trainingsdaten vollständig und umfassend widerspiegelt.

Viele Modifikationen der Standard-RNN-Struktur, wie das Langzeitgedächtnis (LSTM), wurden vorgeschlagen, um diesen Fehler zu beheben, aber HRMs verfolgen einen neuartigen Ansatz. Das übergeordnete, „System 2“-ähnliche Modul ist so konzipiert, dass es jedes Mal lernt, wenn das untergeordnete Modul ein lokales Gleichgewicht erreicht. Diese Aktualisierung des übergeordneten Systems bietet dann einen neuen Kontext für das untergeordnete System, in dem es fortfahren kann, bis es zu einem neuen lokalen Gleichgewicht konvergiert (zu diesem Zeitpunkt wird das übergeordnete System erneut aktualisiert).

Die Ausgabe dieser „inneren Schleife“ wird in eine „äußere Schleife“ eingespeist, die lernt, wie sie ihre bisherigen Ausgaben iterativ verbessern kann. Insgesamt profitiert dieses Setup von der Geschwindigkeit und Einfachheit von RNNs und ermöglicht gleichzeitig stabileres, weitaus „tieferes“ Lernen als Deep Learning, das sonst mit einem rekurrenten Netzwerk möglich wäre.

HRM-Architektur

Die „innere Schleife“ der HRM-Modellarchitektur besteht aus zwei wiederkehrenden Modulen. Beide Module verwenden einen Aufmerksamkeitsmechanismus in einem Standard-Transformer-Block-Setup. Eines, das „L-Modul“, ist für die schnelle Verarbeitung von Berechnungen auf niedriger Ebene konzipiert. Das andere, das „H-Modul“, ist für langfristige Planung und übergeordnetes Denken konzipiert.

Das L-Modul funktioniert im Wesentlichen wie ein Standard-RNN, mit seiner Tendenz, sich schnell auf kurzfristige Muster zu konzentrieren und seinen verborgenen Zustand nicht mehr zu aktualisieren. Während jedoch die Standard-Zustandsaktualisierung eines RNN im Zeitschritt t nur durch seinen verborgenen Zustand im vorherigen Zeitschritt t-1 konditioniert wird, werden Aktualisierungen des versteckten Zustands zL des L-Moduls – und damit der Dinge, auf die es sich einzoomt – auch durch den aktuellen versteckten Zustand zH des H-Moduls konditioniert.

Der versteckte Zustand des H-Moduls ändert sich viel langsamer als der des L-Moduls. Die innere Schleife arbeitet in Zyklen von T Zeitschritten: Nachdem das L-Modul seinen verborgenen Zustand zL T Mal aktualisiert hat, verwendet das H-Modul den Endzustand von zL, um zH zu aktualisieren. Zum Zeitpunkt T hat das L-Modul oft bereits auf ein lokales Gleichgewicht konvergiert und die Aktualisierung eingestellt. Da Aktualisierungen von zL jedoch vom aktuellen Wert von zH abhängig sind, stellt jede Aktualisierung von zH einen neuen Kontext für das L-Modul her. Dadurch wird eine neue „Konvergenzphase“ eingeleitet, in der das Low-Level-Modul weiter lernen kann.

Kurz gesagt, jedes Mal, wenn das L-Modul eine kurzfristige Aufgabe „löst“, wird das H-Modul aktualisiert. Dieses Update des H-Moduls weist das L-Modul an, eine neue kurzfristige Aufgabe zu lösen. Das H-Modul übernimmt im Wesentlichen die langfristige Planung – und das L-Modul führt die kleineren Teilaufgaben aus, die sich aus diesem langfristigen Plan ergeben. Diese Schleife, die T Aktualisierungen des L-Moduls umfasst, wird N Mal ausgeführt. Sowohl T als auch N sind einstellbare Hyperparameter.

Insgesamt enthält die Kern-HRM-Architektur, die die innere Schleife antreibt, vier lernbare Komponenten:

  • Ein Eingabenetzwerk, das Token (die die Details des Rätsels darstellen, das das Modell lösen muss) in Vektoreinbettungen umwandelt.

  • Das wiederkehrende Low-Level-Modul (L-Modul).

  • Das hochrangige rekurrente Modul (H-Modul), dessen endgültiger verborgener Zustand nach N Zyklen an das Ausgabenetzwerk weitergegeben wird.

  • Ein Ausgabenetzwerk, das den Endwert von zH nimmt und eine Softmax-Funktion verwendet, um diesen versteckten Zustand in Wahrscheinlichkeiten umzurechnen, die es verwendet, um die Werte der Ausgabe-Token vorherzusagen (die zusammen die Lösung des Puzzles darstellen).

HRM-Trainingsdaten

Im Gegensatz zu Reasoning-LLMs sind HRMs keine generalistischen Modelle: Sie müssen direkt für die eng gefasste Aufgabe trainiert werden, die sie lösen sollen. Auch wenn in dem Paper berichtet wird, dass „HRM“ bei Sudoku, der Pfadfindung in Labyrinthen und ARC-AGI-Rätseln hervorragende Leistungen erzielt hat, beziehen sich die Autoren in Wirklichkeit auf drei separate HRMs. Eines wurde für Sudokus trainiert, ein anderes im Lösen von Labyrinthen und ein weiterer im Lösen von ARC-AGI-Rätseln.

Reasoning-LLMs durchlaufen ihr anfängliches Vortraining durch selbstüberwachtes Lernen auf riesigen Mengen unbeschrifteter Datenpunkte. Anschließend werden sie einer überwachten Feinabstimmung (SFT) unterzogen, um die richtigen Antwortstrukturen zu erlernen, einer Anweisungsoptimierung, um zu lernen, wie die Aufgaben wie gewünscht zu erledigen sind, und dann einer weiteren Feinabstimmung durch verstärkendes Lernen, um das CoT-Denken zu verinnerlichen. Insgesamt erfordert dies Millionen oder Milliarden von Datenpunkten und wochenlanges Training.

Um Trainingsdaten für HRMs zu erstellen, verwendeten die Autoren Datenaugmentation. Aus einem Same von nur wenigen originalen Trainingsbeispielen (bestehend aus beschrifteten Paaren ungelöster Rätsel und deren Lösungen) werden zusätzliche Beispiele durch kleine Transformationen (wie Rotationen, Flips oder Farbwechsel) erstellt. Die in der Arbeit beschriebenen HRMs wurden alle mit nur (ungefähr) 1.000 Trainingsbeispielen trainiert, die durch Anwendung einer solchen Datenerweiterung auf einen kleinen Satz ursprünglicher Beispiele erstellt wurden.

Beide Ansätze haben ihre Vorteile. Reasoning-LLMs können die Regeln eines bestimmten Rätsels ohne explizite Anweisungen ableiten, benötigen jedoch Billionen von Datentokens, um diese Fähigkeit zu erhalten. HRMs können nur die eng definierte Aufgabe erfüllen, für die sie trainiert wurden, aber sie können mit deutlich weniger Parametern und Trainingsbeispielen eine vergleichbare oder sogar überlegene Leistung erzielen.

HRM-Optimierung

HRMs verwenden einen cleveren Optimierungstrick, um den Prozess der Optimierung von Modellparametern zu vereinfachen und zu stabilisieren, wodurch wiederum ein inhärenter Mangel von Standard-RNNs vermieden wird.

RNNs verwenden eine rekursionsspezifische Form der Backpropagation, die so genannte Backpropagation Through Time (BPTT), um die Gradienten der Verlustakkumulation bei jedem Zeitschritt zu berechnen. Bei einer Erhöhung der Anzahl der Zeitschritte durch ein Standard-RNN tritt bei BPTT unweigerlich das Problem verschwindender Gradienten auf.

Um dies zu vermeiden und gleichzeitig den Speicherbedarf erheblich zu reduzieren, vereinfachen HRMs ihr Optimierungsziel. Anstatt die Gradienten bei jedem Zeitschritt zu berechnen, führen HRMs BPTT nur im Endzustand des L-Moduls und im Endzustand des H-Moduls aus. Dies beruht auf einer einfachen Annahme: Wenn man weiß, wie sich die Ausgabe ändern muss und die Modellgewichte optimieren, um entsprechend in die Endzustände der L- und H-Module zu wechseln, erledigt sich alles andere von selbst.

Wie bei anderen Elementen des HRM ist auch dieses Modell sowohl von den Neurowissenschaften als auch von anekdotischen Erfahrungen inspiriert. Stellen Sie sich vor, eine Person (oder ein Modell) versucht, das Spiel Jenga zu lernen, bei dem man Blöcke balancieren muss. Man muss nicht lernen, jeden einzelnen Stupser und Stoß gegen einen Block für jede Bewegung zu optimieren. Vorausgesetzt, die Blöcke sind auf eine bestimmte Weise aufgebaut (die Eingabe) und Ihr Bewegen eines Blocks hat dazu geführt, dass alles umstürzt (der Verlust Ihrer Ausgabe), dann müssen Sie zur Verbesserung Ihrer Technik lediglich zwei Dinge verstehen:

  1. Welchen Block hätte ich stattdessen bewegen sollen? Dies ist analog zum optimalen Endzustand des übergeordneten Moduls.
  2. Wie hätte ich den Block bewegen sollen, damit er sicher entfernt werden kann? Dies ist analog zum Endzustand des Low-Level-Moduls.

Die Autoren des Artikels fanden heraus, dass diese einstufige Annäherung von BPTT gut genug funktioniert, sodass die Optimierung nur auf diese beiden Überlegungen ausreicht, um starke, stabile Lerndynamiken zu etablieren.

Die äußere Schleife eines HRM: Deep Supervision

Das HRM verwendet ebenfalls eine äußere Schleife, die es dem Modell ermöglicht, seine endgültigen Ausgaben in einem Prozess zu verfeinern, den die Autoren des HRM-Papers „Deep Supervision“ nennen. Weiterführende Forschungen haben nahegelegt, dass die äußere Schleife, mehr noch als die innere, letztlich die wichtigste Komponente des HRM ist.

Beim standardmäßigen überwachten Lernen für neuronale Netze erhält das zu trainierende Modell eine Eingabe und führt einen einzigen Vorwärtsdurchlauf durch, um eine Ausgabe zu erzeugen. Eine Verlustfunktion misst den Fehler dieser Ausgabe. Anschließend wird die Backpropagation verwendet, um die Verlustgradienten zu berechnen: wie jede Änderung einer beliebigen Variable des neuronalen Netzes den Gesamtverlust erhöhen oder verringern würde. Schließlich nutzt ein Gradientenabstiegsalgorithmus diese Informationen, um die Modellparameter zu aktualisieren. Dieser iterative Prozess beginnt dann von Neuem und wiederholt sich, bis der Verlust auf einen akzeptablen Schwellenwert minimiert ist.

Deep Supervision startet den gesamten Prozess nicht neu, nachdem das Modell durch einen einzigen Vorwärtsdurchlauf die erste Ausgabe generiert hat. Stattdessen umfasst es mehrere Vorwärtsdurchläufe, von denen jeder als „Segment“ bezeichnet wird. Nach jedem Segment m wird der Verlust berechnet und die Modellparameter entsprechend optimiert – und die endgültigen versteckten Zustände des H-Moduls (zH) und des L-Moduls (zL) werden dann als Ausgangspunkt für den nächsten Vorwärtsdurchgang wieder ins Modell eingespeist. Dadurch kann das Modell seine Ausgaben iterativ verfeinern, indem es das nutzt, was es aus den Modellparameteraktualisierungen des vorherigen Segments „gelernt“ hat.

Dieser Prozess wird für M Segmente wiederholt. Die Ausgangspunkte der inneren Schleife für jedes nachfolgende Segment m+1 sind dabei zHmNT  und  zLmNT – mit anderen Worten, der endgültige verborgene Zustand des H-Moduls und des L-Moduls nach N inneren Schleifen von T Zeitschritten während des vorherigen Segments m.          

Adaptive Rechenzeit (ACT)

Um die Effizienz des Modells aufrechtzuerhalten, haben die Entwickler von HRM einen adaptiven Rechenzeitmechanismus hinzugefügt, der dem Modell hilft zu lernen, wann eine gegebene Ausgabe gut genug ist (oder umgekehrt, ob eine neue Verfeinerungsschleife beginnen sollte). Um dies möglich zu machen, integriert das Modell Q-Learning, eine gängige Art von Algorithmus des verstärkenden Lernens. 

Nach jedem Segment, dem Endzustand des hochstufigen Moduls, wird zH nicht nur an das Ausgangsnetzwerk weitergegeben, sondern auch an ein anderes Modul, das sie den „Q-Head“ nennen, mit eigenen lernbaren Gewichten. Nachdem zH mit den Gewichten des Q-Kopfes multipliziert wurde, verwendet es eine sigmoidische Funktion – die jede Eingabe auf einen Wert zwischen 0 und 1 zusammenpresst –, die einen Wert für halt und einen Wert für continue liefert. Wenn der Wert für halt größer ist, erzeugt das Modell eine endgültige Ausgabe. Wenn der Wert für continue größer ist, beginnt das Modell mit einem weiteren Segment.

Die Gesamtverlustfunktion für den Deep-Supervision-Prozess nach jedem Segment kombiniert daher zwei Terme:

  • Ein Teil davon spiegelt den Verlust für die Aufgabe selbst wider: Wie korrekt war die Ausgabe des Modells?

  • Die andere Variable spiegelt den Verlust des Q-Heads wider: Wenn das Modell einen höheren Wert für „halt“ als für „continue“ prognostiziert hat, hat es dann die richtige Entscheidung getroffen?

Im Laufe der Zeit lernt das Modell, mehr Rechenleistung für schwierigere Probleme aufzuwenden – das heißt, mehr Verfeinerungsschleifen durchzuführen – und weniger Rechenleistung für einfachere Probleme aufzuwenden. Es ist erwähnenswert, dass eine ähnliche Idee, wenn auch mit einer anderen Umsetzung, schon recht früh in der Geschichte der Transformers erforscht wurde.

Bedeutung der äußeren Schleife

Der ARC Prize, die gemeinnützige Organisation, die den ARC-AGI-Benchmark verwaltet, führte eine externe Analyse von HRMs durch und stellte fest, dass „die äußere Verfeinerungsschleife ein wesentlicher Treiber für die Leistung eines HRM ist“.

  • Während der Inferenz führte das Hinzufügen einer einzigen Verfeinerungsschleife zu einer nahezu Verdopplung der Genauigkeit des HRM (von 18,6 % auf 35,5 %). Weitere Leistungssteigerungen, wenn auch mit deutlich abnehmendem Nutzen, wurden bei 8 Schleifen (38,1 %) und 16 Schleifen (39,0 %) erzielt. Selbst bei einem Standard-Transformermodell ohne innere Schleife (aber mit ansonsten identischer Architektur, Modellgröße und Trainingspipeline zu HRMs) führte das Hinzufügen äußerer Verfeinerungsschleifen zu ähnlichen Leistungssteigerungen.

  • Die äußere Schlaufe ist ebenfalls unerlässlich für das Training. Selbst wenn die Anzahl der Verfeinerungsschleifen zu den Inferenzkosten beibehalten wurde, erhöhte das Hinzufügen nur einer Verfeinerungsschleife im Training die Genauigkeit des Modells von 19 % (ohne Verfeinerung) auf 32 % (mit 1 Verfeinerung). Tatsächlich zeigten weitere Experimente, dass die Erhöhung der Verfeinerungsschleifen während des Trainings einen deutlich größeren Einfluss hatte als die Erhöhung der Verfeinerungsschleifen während der Inferenz. Ohne Verfeinerungsschleifen, weder beim Training noch bei der Inferenz, erzielte das Modell 18,6 %. Ohne Verfeinerungsschleifen während der Inferenz und mit 16 Verfeinerungsschleifen während des Trainings erreichte das Modell einen Wert von 34,9 %.

Umgekehrt wurde gezeigt, dass die innere Schleife ein relativ kleines Beispiel über einem gleich großen Modell liefert, das das H-Modul und das L-Modul durch die Attention-Blöcke eines Standard-Transformermodells ersetzt. Es ist ungewiss, ob diese Ergebnisse spezifisch für die Aufgaben im ARC-AGI-Benchmark sind oder allgemein für alle Reasoning-Aufgaben gelten, die ein HRM bearbeiten könnte.

Unsicherheiten und Einschränkungen von HRMs

Auch wenn hierarchische Reasoning-Modelle sinnvolle Innovationen in die Architektur neuronaler Netze sowie in Trainingstechniken einbringen, die bereits Einfluss auf die Forschung im Bereich Deep Learning genommen haben, ist der praktische Nutzen von HRMs selbst derzeit noch ungewiss.

Praktikabilität

Im Vergleich zu den massiven LLMs sind HRMs weitaus kleiner, günstiger im Training und im Betrieb – und können mit einer sehr überschaubaren Menge an Trainingsbeispielen trainiert werden. Dies steht im Widerspruch zu der Annahme, dass Spitzenleistungen nur durch massive Modelle und Trainingsdatensätze erreicht werden können, die für die meisten Forscher und Unternehmen unerreichbar sind.

Der Nutzen der gängigen Reasoning-Modelle liegt jedoch in ihrer bemerkenswerten Fähigkeit zu verallgemeinern: Sie können hochspezialisierte Denkaufgaben im Kontext des Verstehens und Ausführens einer Vielzahl von Aufgaben und Anweisungen in natürlicher Sprache ausführen. Die extrem begrenzten Funktionen von HRMs erschweren die Integration in größere Workflows erheblich. 

HRMs können nur ganz bestimmte Arten von Rätseln lösen, die sie während des Trainings gesehen haben. Selbst wenn ein anderes Rätselformat sehr ähnliche Regeln und Logik verwendet wie eines, das es gesehen hat – so ähnlich, dass ein Mensch, der in einem Rätseltyp gut ist, offensichtlich in einem anderen gut wäre – könnte ein HRM das nicht bewältigen. Verbesserungen in der Trainingspipeline, die eine größere Fähigkeit zur Nutzung von aufgabenübergreifendem Transfer-Lernen einführen, würden die Praxistauglichkeit von HRMs deutlich erhöhen.

Interpretierbarkeit

Obwohl HRMs empirisch beweisen, dass sie Probleme durchdenken können, um ihre Ergebnisse zu verfeinern, schränkt das Fehlen eines nachvollziehbaren „Denkprozesses“ ihre Interpretierbarkeit erheblich ein. Es sollte jedoch beachtet werden, dass Interpretierbarkeit in allen KI-Systemen, die durch Deep Learning trainiert wurden, im Allgemeinen ein Problem darstellen – und dass Forschungen zeigen, dass die Argumente, die ein LLM dem Nutzer liefert, nicht immer seinem wahren „Denkprozess“ treu sind.

Autor

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

  1. watsonx.ai erkunden
  2. Buchen Sie eine Live-Demo