Cos'è un modello di ragionamento gerarchico (HRM)?

Un uomo che guarda dei post-it su una lavagna

Cosa sono i modelli di ragionamento gerarchico (HRM)

Un modello di ragionamento gerarchico (HRM) è un'architettura sperimentale di AI progettata per imitare il modo in cui il cervello umano elabora le informazioni in diverse scale temporali e livelli di complessità. In particolare, un modello HRM ha superato i modelli linguistici di grandi dimensioni (LLM) all'avanguardia su molteplici benchmark che misurano le prestazioni in attività di ragionamento complesse, nonostante sia molto più piccolo e si addestri su un set di dati notevolmente ridotto.

Più specificamente, gli HRMS sono un'architettura di reti neurali distinta che applica un algoritmo distinto per generare output e più algoritmi distinti per ottimizzare i parametri del modello durante l'addestramento. Sebbene siano tipicamente paragonati agli LLM in base alle prestazioni su alcuni benchmark che storicamente sono stati dominati dagli LLM ragionanti, si tratta di un confronto tra mele e pere. Gli HRMS sono modelli ristretti e specifici per attività, progettati esplicitamente per problemi di ragionamento, mentre gli LLM di ragionamento sono modelli generalisti che possono essere applicati a problemi di ragionamento (tra le altre attività).

Sebbene siano in grado di risolvere problemi complessi, gli HRMS non sono in grado di dialogare, generare codice, riassumere o svolgere altri compiti generalmente associati ai modelli di AI generativa. Un HRM deve essere addestrato direttamente sul tipo di problema che si desidera che risolva. Gli LLM, al contrario, vengono tipicamente pre-addestrati su una grande quantità e varietà di dati, per poi essere istruiti (tramite generazione di prompt few-shot) a risolvere problemi nuovi inferendo le regole.

Al centro del concetto di HRMS c'è una "gerarchia" di cicli ricorrenti che si ispirano al modo in cui il cervello umano elabora le informazioni a diversi livelli e frequenze. Un "ciclo interno" è costituito da un modulo che esegue rapidamente calcoli di basso livello e da un altro modulo più lento i cui calcoli di alto livello guidano il modulo di basso livello. Un "ciclo esterno" guida il ciclo interno a ripetere iterativamente i suoi calcoli per affinare e migliorare l'output del modello.

Gli HRMS sono stati introdotti per la prima volta come modello open source descritto in un articolo di Guan Wang et al nel giugno 2025. Con una dimensione di soli 27 milioni di parametri, il modello ha superato modelli molto più grandi, come l'o3 di OpenAI, il Claude 3.7 Sonnet di Anthropic e il DeepSeek-R1 (che ha 671 miliardi di parametri) in benchmark impegnativi come ARC-AGI, Sudoku-Extreme e Maze-Hard.

Il modello stesso è in gran parte sperimentale, e l'articolo sottolinea sia i vincoli pratici che le strade inesplorate per futuri miglioramenti. Tuttavia, il suo successo (specialmente considerando la sua estrema efficienza nei dati durante l'addestramento e una dimensione del modello letteralmente migliaia di volte più piccola rispetto alla maggior parte degli LLM) lo rende un'alternativa affascinante per scalare i sistemi di ragionamento. Le ricerche successive, come i modelli ricorrenti minuscoli (TRM), hanno raggiunto ulteriori progressi perfezionando l'approccio di base degli HRM e prendendo spunto dalle nuove tecniche che questi hanno introdotto.

In che modo gli HRMS "ragionano"

I modelli di ragionamento convenzionali sono LLM che sono stati perfezionati tramite apprendimento per rinforzo per produrre una catena di pensiero (CoT) passo dopo passo prima di fornire una risposta finale all'utente. Questo processo di "verbalizzazione" di un ragionamento ha dimostrato empiricamente di migliorare l'accuratezza del modello in matematica, codifica e altri compiti logici complessi.

Nonostante il successo comprovato di questo approccio, è stato sostenuto che gli LLM (anche quelli di ragionamento di frontiera) non sono e non saranno mai una via verso l'intelligenza artificiale generale (AGI). A livello neurologico, il linguaggio è principalmente uno strumento di comunicazione, non di pensiero.

In linea generale, un approccio alla gestione delle risorse umane (HRM) più ispirato alle neuroscienze si avvicina maggiormente al modo in cui il cervello umano elabora i problemi astratti. A differenza degli LLM, gli HRMS ragionano internamente senza "verbalizzare" questo processo. In termini più tecnici, mentre i modelli di ragionamento convenzionali ragionano "ad alta voce" nello spazio dei token, gli HRMS ragionano internamente nello spazio latente. Gli LLM "ragionano" perfezionando in modo iterativo le parole effettive (token) che emettono, mentre un HRM risolve i problemi perfezionando iterativamente il suo stato nascosto, ovvero i calcoli intermedi interni del modello che vengono utilizzati per (eventualmente) generare il suo output finale.

Considera un momento recente in cui hai risolto un problema complesso: è probabile che tu abbia avuto un monologo interiore, ma probabilmente non hai verbalizzato letteralmente tutto il tuo processo di pensiero nella tua mente (o ad alta voce) in frasi ordinate e complete. Più probabilmente, il tuo cervello è entrato in azione in modo istintivo e senza parole. Da quei pensieri iniziali e istintivi, nella tua mente è emersa una sorta di piano di livello superiore. Hai quindi elaborato mentalmente i singoli passaggi che la strategia prevedeva, affinando il piano generale via via che procedevi. Alla fine, sei arrivato a quella che sembrava una soluzione soddisfacente.

Mentre la messa a punto degli LLM con tecniche di apprendimento per rinforzo può insegnare a un modello a generare output che imitano un processo di pensiero, gli HRM (prendendo in prestito alcuni principi dalle neuroscienze dei sistemi) mirano a replicare un processo di pensiero.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Come funzionano i modelli di ragionamento gerarchico (HRMS)

Come descritto nell'articolo "Hierarchical Reasoning Model", la progettazione degli HRMS è stata influenzata dal concetto di pensiero "System 1" e "System 2", termini metaforici coniati dal compianto premio Nobel Daniel Kahneman nel suo libro Thinking, Fast and Slow per descrivere i diversi livelli a cui opera la mente umana. Il "System 1" è veloce, inconscio e intuitivo. Il pensiero del "System 2" è lento, deliberato e logico. Gli HRM implementano quindi una gerarchia in cui le computazioni di un sistema rapido che gestisce calcoli di basso livello sono guidate da un sistema più lento che si occupa della pianificazione di alto livello.

HRMS e RNN standard a confronto

In termini di principi di machine learning, i modelli di ragionamento gerarchico possono essere intesi come una forma altamente specializzata di reti neurali ricorrenti (RNN), con modifiche che mitigano le limitazioni pratiche delle RNN standard. La più evidente di queste carenze è la convergenza prematura: la tendenza degli RNN a interrompere l'apprendimento molto prima di avere assorbito completamente tutti i pattern e le dipendenze all'interno delle sequenze di dati di addestramento.

Durante l'addestramento del modello, le reti neurali ricorrenti (RNN) tendono a convergere rapidamente su pesi del modello che non sono sufficientemente ottimizzati per ottenere prestazioni accurate. Ciò è generalmente dovuto alla scomparsa dei gradienti: dopo troppi passaggi di calcolo o una sequenza troppo lunga, la dimensione degli aggiornamenti dei parametri del modello calcolati durante la retropropagazione diventa così piccola da ridursi a zero. I pesi del modello raggiungono un equilibrio locale che riflette i modelli a breve termine, impedendo loro di raggiungere un equilibrio globale che rifletta in modo completo ed esaustivo i modelli dei dati di addestramento.

Molte modifiche della struttura RNN standard, come la memoria a lungo termine (LSTM), sono state proposte per correggere questo difetto, ma gli HRMS adottano un approccio innovativo. Il modulo di alto livello, simile al "System 2", è progettato per apprendere ogni volta che il modulo di basso livello converge su un equilibrio locale. Questo aggiornamento al sistema di alto livello fornisce quindi un nuovo contesto in cui il sistema di basso livello può operare, consentendogli di continuare ad apprendere fino a quando non converge su un nuovo equilibrio locale (a quel punto il sistema di alto livello viene nuovamente aggiornato).

L'output di questo "ciclo interno" viene immesso in un "ciclo esterno" che apprende come migliorare iterativamente i suoi output precedenti. Nel complesso, questa configurazione utilizza la velocità e la semplicità delle RNN, consentendo un apprendimento più stabile e molto più "profondo" di quanto sarebbe altrimenti possibile con una rete ricorrente.

Architettura HRM

Il “ciclo interno” dell’architettura del modello HRM comprende due moduli ricorrenti. Entrambi i moduli utilizzano un meccanismo di attenzione in una configurazione standard del blocco trasformatore. Uno di questi, il "modulo L", è progettato per gestire rapidamente calcoli di basso livello. L'altro, il "modulo H", è progettato per gestire la pianificazione a lungo termine e il ragionamento di livello superiore.

Il modulo L funziona essenzialmente come una RNN standard, con la sua tendenza a concentrarsi rapidamente sui modelli a breve termine e a smettere di aggiornare il suo stato nascosto. Tuttavia, mentre l'aggiornamento dello stato di una RNN standard nella fase temporale t è condizionato solo dal suo stato nascosto nella fase temporale precedente t-1, gli aggiornamenti allo stato nascosto zL del modulo L (e quindi le cose su cui si concentra), sono condizionati anche dallo stato nascosto corrente del modulo Hz H.

Lo stato nascosto del modulo H cambia molto più lentamente rispetto a quello del modulo L. Il ciclo interno opera in cicli di fasi temporali T: dopo che il modulo L ha aggiornato il suo stato nascosto zL T volte, il modulo H utilizza lo stato finale di zL per aggiornare zH. Al passo temporale T, il modulo L spesso convergerà già su un equilibrio locale e smetterà di aggiornarsi. Ma poiché gli aggiornamenti di zL sono condizionati dal valore corrente di zH, ogni aggiornamento di zH stabilisce un nuovo contesto per il modulo L. Questo avvia una nuova "fase di convergenza" che consente al modulo di basso livello di continuare ad apprendere.

In breve, ogni volta che il modulo L "risolve" un compito a breve termine, il modulo H viene aggiornato. Questo aggiornamento del modulo H indirizza il modulo L a risolvere un nuovo compito a breve termine. Il modulo H si occupa essenzialmente della pianificazione a lungo termine, mentre il modulo L esegue le attività secondarie più piccole che sono legate al piano a lungo termine. Questo ciclo, che comprende T aggiornamenti del modulo L, viene eseguito N volte. Sia T che N sono iperparametri regolabili.

Nel complesso, l'architettura principale degli HRM che alimenta il ciclo interno contiene quattro componenti apprendibili:

  • Una rete di input che converte i token (che rappresentano i dettagli del puzzle che il modello deve risolvere) in embedding vettoriali.

  • Il modulo ricorrente di basso livello (L-module).

  • Il modulo ricorrente di alto livello (modulo H), il cui stato nascosto finale dopo N cicli viene passato alla rete di output.

  • Una rete di output che prende il valore finale di zH e utilizza una funzione softmax per convertire quello stato nascosto in probabilità che utilizza per prevedere i valori dei token di output (che rappresentano collettivamente la soluzione del puzzle).

Dati di addestramento HRM

A differenza dei modelli LLM di ragionamento, gli HRMS non sono modelli generalisti. Devono essere addestrati direttamente sul compito ristretto che devono risolvere. Sebbene l'articolo riporti che "HRM" ha ottenuto prestazioni eccellenti su Sudoku, individuazione di percorsi labirintici e puzzle ARC-AGI, gli autori si riferiscono in realtà a tre HRM separati. Uno è stato addestrato su Sudoku, un altro sui labirinti, un altro sui puzzle ARC-AGI.

Gli LLM ragionanti subiscono il loro pre-addestramento iniziale attraverso l'apprendimento auto-supervisionato su enormi quantità di dati non etichettati. Successivamente sono sottoposti a una messa a punto supervisionata (SFT) per apprendere le corrette strutture di risposta, all'instruction tuning per imparare a completare i compiti come desiderato, e quindi a un'ulteriore messa a punto tramite apprendimento per rinforzo, per instillare il ragionamento CoT. Nel complesso, ciò implica milioni o miliardi di punti dati e settimane di addestramento.

Per creare dati di addestramento per gli HRMS, gli autori hanno utilizzato la data augmentation. Da un seme di pochi esempi di addestramento originali (composti da coppie etichettate di enigmi irrisolti e le loro soluzioni), si creano esempi aggiuntivi usando piccole trasformazioni (come rotazioni, flip o scambi di colore). Ognuno degli HRM descritti nell'articolo è stato addestrato su (circa) 1.000 esempi di addestramento, creati applicando la data augmentation a un piccolo set di campioni originali.

Entrambi gli approcci hanno i loro benefici. Gli LLM di ragionamento sono in grado di dedurre le regole di un determinato puzzle senza istruzioni esplicite, ma richiedono trilioni di token di dati per ottenere tale capacità. Gli HRMS possono svolgere solo il compito ristretto su cui sono stati addestrati, ma possono ottenere prestazioni comparabili o addirittura superiori con molti meno parametri ed esempi di addestramento.

Ottimizzazione HRM

Gli HRMS utilizzano un trucco di ottimizzazione intelligente per semplificare e stabilizzare il processo di ottimizzazione dei parametri del modello, evitando ancora una volta una carenza intrinseca delle RNN standard.

Le RNN utilizzano una forma specifica di retropropagazione per la ricorrenza, chiamata retropropagazione nel tempo (BPTT), per calcolare i gradienti di come la perdita viene accumulata a ogni passo temporale. Poiché una RNN standard aumenta la quantità di passaggi temporali, la BPTT si imbatte inevitabilmente nel problema della scomparsa dei gradienti.

Per evitare ciò, oltre a ridurre notevolmente i requisiti di memoria, gli HRMS semplificano il loro obiettivo di ottimizzazione. Invece di calcolare i gradienti a ogni passo temporale, gli HRMS eseguono il BPTT solo sullo stato finale del modulo L e sullo stato finale del modulo H. Questo si basa su un'assunzione semplice: se sai come deve cambiare l'output finale e ottimizzi i pesi del modello in modo che gli stati finali dei moduli L e H si adeguino di conseguenza, tutto il resto si sistemerà da solo.

Come per altri elementi dell'HRM, questo prende ispirazione sia dalle neuroscienze che dall'esperienza aneddotica. Immaginiamo una persona (o un modello) che cerca di imparare il gioco di equilibrio dei blocchi di Jenga. Non è necessario imparare a ottimizzare ogni singolo poke e prod di un blocco per ogni mossa. Supponendo che i blocchi siano impostati in un certo modo (l'input) e che la mossa che hai fatto abbia fatto crollare tutto (la perdita del tuo output), migliorare la tua tecnica richiede una solida conoscenza di solo due cose:

  1. Quale pezzo avrei dovuto spostare invece? Questo è analogo allo stato finale ottimale del modulo di alto livello.
  2. Come avrei dovuto manipolare quel pezzo per rimuoverlo in modo sicuro? Questo è analogo allo stato finale del modulo di basso livello.

Gli autori della ricerca hanno scoperto che questa approssimazione a un solo passo del BPTT funziona abbastanza bene da rendere sufficiente ottimizzare solo per queste due considerazioni per stabilire dinamiche di apprendimento forti e stabili.

Il ciclo esterno dell'HRM: supervisione approfondita

L'HRM impiega anche un ciclo esterno che consente al modello di perfezionare in modo iterativo i suoi output in un processo che gli autori chiamano "supervisione profonda". Ricerche successive hanno suggerito che il ciclo esterno, più di quello interno, è in ultima analisi il componente più importante dell'HRM.

Nell'apprendimento supervisionato standard per reti neurali, al modello in fase di addestramento viene fornito un input ed esegue un singolo passaggio in avanti per generare un output. Una funzione di perdita misura l'errore di quell'output. Successivamente, la retropropagazione viene utilizzata per calcolare i gradienti di perdita: come qualsiasi cambiamento di qualsiasi variabile della rete neurale aumenterebbe o diminuirebbe la perdita complessiva. Infine, qualche algoritmo di discesa del gradiente utilizza queste informazioni per aggiornare i parametri del modello. Questo processo iterativo si riavvia e si ripete finché la perdita non si riduce al minimo, raggiungendo una soglia accettabile.

La supervisione profonda non riavvia l'intero processo dopo che il modello genera quell'output iniziale tramite un singolo passaggio in avanti. Invece, comporta più passaggi in avanti, ognuno dei quali viene definito "segmento". Dopo ogni segmento m, viene calcolata la perdita e i parametri del modello vengono ottimizzati di conseguenza; gli stati nascosti finali del modulo H (zH) e del modulo L (zL) vengono quindi reinseriti nel modello come punto di partenza per il passaggio successivo in avanti. Ciò consente al modello di perfezionare iterativamente i suoi output, utilizzando ciò che ha "appreso" dagli aggiornamenti dei parametri del modello nel segmento precedente.

Questo processo viene ripetuto per M segmenti, in cui i punti di partenza del ciclo interno per ogni segmento successivo m+1 sono  zHmNT  e  zLmNT : in altre parole, lo stato nascosto finale del modulo H e del modulo L dopo N cicli interni di T passi temporali durante il segmento precedente m.          

Tempo computazionale adattivo (ACT)

Per mantenere l'efficienza del modello, i creatori dell'HRM hanno aggiunto un meccanismo di tempo di calcolo adattivo per aiutare il modello a imparare quando un determinato output è abbastanza buono (o, al contrario, se deve iniziare un altro ciclo di perfezionamento). Per rendere questo possibile, il modello incorpora il Q-learning, un tipo comune di algoritmo di apprendimento per rinforzo. 

Dopo ogni segmento, lo stato finale del modulo di alto livello, zH, viene passato non solo alla rete di output, ma anche a un altro modulo chiamato "Q-head", con i suoi pesi apprendibili. Dopo che zH viene moltiplicato per i pesi del Q-head, viene applicata una funzione sigmoide (che comprime qualsiasi input in un valore compreso tra 0 e 1) che produce un valore per halt e un valore per continue. Se il valore halt è maggiore, il modello genera un output finale. Se il valore continue è maggiore, il modello inizia un altro segmento.

La funzione di perdita complessiva per il processo di supervisione profonda dopo ogni segmento combina quindi due termini:

  • Una parte riflette la perdita per il compito stesso: quanto era accurato l'output del modello?

  • L'altra riflette la perdita del Q-head: se il modello prevedeva un valore più alto per "halt" rispetto a "continue", ha preso la decisione corretta?

Nel tempo, il modello impara a dedicare più risorse computazionali (ovvero a eseguire più cicli di affinamento) ai problemi più difficili e a utilizzare meno risorse per i problemi più facili. Vale la pena notare che un'idea simile, seppur con un'implementazione diversa, è stata esplorata abbastanza presto nella storia dei trasformatori.

Importanza del ciclo esterno

L'ARC Prize, l'organizzazione no-profit che gestisce il benchmark ARC-AGI, ha effettuato un'analisi esterna degli HRMS e ha rilevato che "il ciclo esterno di affinamento è un driver essenziale per le prestazioni degli HRM".

  • Durante l'inferenza, aggiungere un solo ciclo di affinamento ha quasi raddoppiato l'accuratezza dell'HRM (dal 18,6% al 35,5%). Ulteriori miglioramenti delle prestazioni, sebbene con rendimenti significativamente decrescenti, si sono verificati a 8 cicli (38,1%) e 16 cicli (39,0%). Anche per un modello di trasformatore standard senza ciclo interno (ma con un'architettura, una dimensione del modello e una pipeline di addestramento identiche a quelle degli HRMS), l'aggiunta di cicli di affinamento esterni ha prodotto aumenti di prestazioni simili.

  • Anche l'anello esterno è essenziale per l'addestramento. Anche mantenendo il numero di cicli di affinamento a costo di inferenza, aggiungere un solo ciclo di affinamento durante l'addestramento aumentava l'accuratezza del modello dal 19% (senza affinamento) al 32% (con 1 affinamento). Di fatto, ulteriori esperimenti hanno mostrato che l'aumento dei cicli di affinamento durante l'addestramento aveva un impatto significativamente maggiore rispetto all'aumento dei cicli di affinamento durante l'inferenza. Senza cicli di affinamento né nell'addestramento né nell'inferenza, il modello ha ottenuto il 18,6%. Senza cicli di affinamento durante l'inferenza e con 16 cicli di affinamento durante l'addestramento, il modello ha ottenuto un punteggio di 34,9%.

Al contrario, è stato dimostrato che il ciclo interno fornisce un esempio relativamente piccolo su un modello di dimensioni identiche che sostituisce il modulo H e il modulo L con i blocchi di attenzione di un modello di trasformatore standard. Non è chiaro se questi risultati siano specifici per i compiti del benchmark ARC-AGI o universali per tutti i compiti di ragionamento che un HRM potrebbe gestire.

Incertezze e limitazioni degli HRM

Sebbene i modelli di ragionamento gerarchico introducano innovazioni significative nelle architetture delle reti neurali e nelle tecniche di addestramento che hanno già iniziato a influenzare la ricerca sul deep learning, l'utilità pratica degli HRMS stessi è attualmente incerta.

Praticità

Rispetto ai modelli LLM di ragionamento su larga scala, gli HRM sono drasticamente più piccoli, più economici da addestrare e da gestire, e possono essere addestrati con una quantità molto accessibile di esempi di addestramento. Ciò è contrario all'idea che le prestazioni di frontiera possano essere raggiunte solo attraverso enormi modelli e set di dati di addestramento al di fuori della portata della maggior parte dei ricercatori e delle organizzazioni.

Tuttavia, l'utilità dei modelli di ragionamento tradizionali è la loro notevole capacità di generalizzare: possono svolgere attività di ragionamento altamente specializzate nel contesto della comprensione e dell'esecuzione di un'ampia varietà di compiti e istruzioni in linguaggio naturale. Le funzionalità estremamente ridotte degli HRMS rendono molto più difficile integrarli in workflow più ampi. 

Gli HRMS possono risolvere solo tipi molto specifici di puzzle che hanno visto durante l'addestramento. Anche se un formato di puzzle diverso utilizza regole e logiche molto simili a quelle che il modello ha già visto (così simili che un umano bravo in un tipo di puzzle sarebbe ovviamente bravo anche nell'altro), un HRM non riuscirebbe a gestirlo. I miglioramenti alla pipeline di addestramento che introducono una maggiore capacità di utilizzare l'apprendimento per trasferimento tra i compiti aumenterebbero significativamente la praticità degli HRMS.

Interpretabilità

Sebbene gli HRMS dimostrino empiricamente la capacità di ragionare attraverso i problemi per perfezionare i propri output, la mancanza di un "processo di pensiero" tracciabile riduce significativamente la loro interpretabilità. Detto questo, va notato che l'interpretabilità è generalmente un problema in tutti i sistemi di AI addestrati tramite deep learning e che la ricerca dimostra che le tracce di ragionamento che un LLM fornisce a un utente non sono sempre fedeli al loro vero "processo di pensiero".

Autore

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Soluzioni correlate
IBM® watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi per l'intelligenza artificiale (AI)

I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

Esplora i servizi AI
Fasi successive

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

  1. Esplora watsonx.ai
  2. Prenota una demo live