Che cos'è un modello di ragionamento?

Autore

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Che cos'è un modello di ragionamento?

Un modello di ragionamento è un modello linguistico di grandi dimensioni (LLM) che è stato messo a punto per suddividere problemi complessi in fasi più piccole, spesso chiamate "tracce di ragionamento", prima di generare un output. Mezzi sempre più sofisticati di addestramento dei modelli per utilizzare il ragionamento chain of thought e altre strategie di processo decisionale in più fasi hanno prodotto prestazioni all'avanguardia, in particolare sui benchmark per attività basate sulla logica come matematica e codifica.

Anziché generare immediatamente una risposta diretta all'input di un utente, i modelli di ragionamento vengono addestrati a generare prima "passaggi di ragionamento" intermedi e poi ad arrivare alla risposta finale fornita all'utente. Alcuni LLM di ragionamento mostrano agli utenti le tracce del loro ragionamento, mentre altri si limitano a riassumere o nascondono del tutto questi output intermedi.

In parole povere, gli LLM di ragionamento sono addestrati a dedicare più tempo a "pensare" prima di rispondere. È stato dimostrato empiricamente che l'aggiunta di questo "processo di ragionamento" produce importanti progressi nelle prestazioni degli LLM su compiti di ragionamento complessi. Questo successo ha ampliato i casi d'uso e i domini del mondo reale a cui possono essere applicati i modelli AI, segnando un importante punto di svolta nello sviluppo continuo dell'AI generativa e degli agenti AI.

Vale la pena notare, tuttavia, che termini antropomorfi come il "processo di pensiero" di un modello sono più pratici che letterali. Come tutti i modelli di apprendimento automatico, i modelli di ragionamento in ultima analisi non fanno altro che applicare algoritmi sofisticati per fare previsioni (ad esempio quale parola dovrebbe venire dopo) che riflettono pattern appresi dai dati di addestramento. Gli LLM di ragionamento non hanno dimostrato coscienza o altri segni di intelligenza artificiale generale (AGI). Una ricerca sull'AI pubblicata da Apple nel giugno 2025 mette in dubbio che le attuali capacità di ragionamento dei modelli possano scalare fino a un ragionamento veramente "generalizzabile".1

Forse è più corretto affermare che gli LLM di ragionamento sono addestrati a "mostrare il loro lavoro" generando una sequenza di token che assomiglia a un processo di pensiero umano e che questo atto di "verbalizzazione" dei pensieri sembra sbloccare capacità di ragionamento latenti che gli LLM apprendono implicitamente dal loro enorme corpus di dati di addestramento (che contiene esempi di individui che articolano direttamente e indirettamente i propri processi). 

Il concetto di "modello di ragionamento" è stato introdotto da o1-preview (e o1-mini) di OpenAI nel settembre 2024,2 seguito da "Qwen with Questions" di Alibaba (QWQ-32B-Preview) a novembre e da Gemini 2.0 Flash Experiment di Google a dicembre. Una pietra miliare nello sviluppo degli LLM di ragionamento è stata la versione di gennaio 2025 del modello open source DeepSeek-R1. Mentre i processi di addestramento utilizzati per mettere a punto i modelli di ragionamento precedenti erano rimasti segreti gelosamente custoditi, DeepSeek ha pubblicato un documento tecnico dettagliato che ha fornito un blueprint per altri sviluppatori di modelli. IBM Granite, Anthropic e Mistral AI, tra gli altri, hanno da allora rilasciato i propri LLM di ragionamento.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Perché i modelli di ragionamento funzionano?

L'aggiunta di un "processo di pensiero" agli output del modello riduce molti dei difetti intrinseci dell'inferenza LLM standard aiutando il modello a evitare scorciatoie cognitive dannose e a far emergere più conoscenze potenzialmente pertinenti apprese dai dati di addestramento.

Nel contesto degli LLM, la letteratura sulla ricerca AI fa spesso riferimento al pensiero "Sistema 1 " e "Sistema 2 ", termini coniati dall'economista comportamentale premio Nobel Daniel Kahneman nel suo fondamentale Pensieri lenti e veloci. Il pensiero del Sistema 1 è veloce, inconscio e intuitivo, si basa sull'euristica e richiede poco o nessuno sforzo. Il pensiero del Sistema 2 è lento, deliberato e logico e richiede uno sforzo coordinato. Gli LLM autoregressivi sono, per impostazione predefinita, inclini al pensiero del Sistema 1.3

Per alcune attività, il pensiero del Sistema 1 è efficace ed efficiente dal punto di vista computazionale. Ma per molti altri, il pensiero impulsivo del Sistema 1 non è sufficiente. Ad esempio, un articolo del 2023 dei ricercatori di Meta Jason Weston e Sainbayar Sukhbaatar ha notato come gli LLM siano facilmente influenzati dalla presenza di un contesto irrilevante o di dettagli soggettivi nel prompt di input.

Esempi di LLM Esempio di come gli LLM privi di ragionamento siano spesso "distratti" da informazioni irrilevanti. Tratto dal paper "System 2 Attention (is something you might need too)."

Gli autori hanno proposto una classe di tecniche che hanno soprannominato "System 2 Attention" (S2A), in cui il modello viene istruito a generare prima una versione riscritta del prompt di input priva di contesto irrilevante, quindi a rispondere a quel prompt riscritto. Negli esperimenti, le tecniche S2A hanno ottenuto prestazioni migliori rispetto all'inferenza standard su una varietà di compiti, aumentando la precisione e diminuendo la sicofania.

Esempi di LLM S2A, un metodo di scala dell'inferenza precoce. Aggiungendo passaggi tra input e risposta, in questo caso, per riscrivere il prompt originale, il modello migliora l'output finale. Tratto dal paper "System 2 Attention (is something you might need too)."

Concettualmente parlando, l'obiettivo implicito degli approcci di ragionamento potrebbe essere inteso come l'implementazione di un modello di comportamento simile al Sistema 2 che esplora, valuta e perfeziona i suoi potenziali output.

Un passo essenziale è arrivato dalle prime ricerche del LLM che hanno dimostrato che la semplice aggiunta della frase "pensa passo per passo", chiamata chain of thought, migliora significativamente gli output del modello.4,5 Un articolo del 2024 di Google DeepMind ha fatto un'affermazione ancora più ampia: aumentare la potenza di calcolo durante il test (le risorse utilizzate per generare un output) aumenta le prestazioni del modello tanto quanto aumentare la potenza di calcolo durante l'addestramento (le risorse utilizzate per addestrare un modello).6 Il prompt CoT è solo una delle tante tecniche di ridimensionamento dell'inferenza, così come l'S2A.

Gli LLM di ragionamento moderno non si fermano qui: invece di affidarsi al prompt, utilizzano nuove tecniche di messa a punto e workflow per aumentare intrinsecamente la quantità di calcolo utilizzata dal modello al momento dell'inferenza. L'ottimizzazione di un modello di ragionamento comporta sia la sfida tecnica dello sviluppo di algoritmi e dati di addestramento sia la sfida filosofica della progettazione di un "processo di pensiero" ideale.

Come funzionano i modelli di ragionamento

Le fasi iniziali dell'addestramento degli LLM di ragionamento rispecchiano quelle degli LLM convenzionali. Come gli LLM standard, i modelli di ragionamento acquisiscono la loro struttura linguistica generale e la loro conoscenza del mondo grazie a un pre-addestramento autosupervisionato su larga scala, seguito da una certa dose di perfezionamento supervisionato (SFT) per adattarli alle attività a valle (come l'uso di chatbot conversazionali). L'innovazione centrale è l'applicazione di nuove tecniche di apprendimento per rinforzo (RL) che incentivano il modello a generare passaggi intermedi di ragionamento durante l'inferenza prima di produrre l'output.

Anni di ricerca e sperimentazione hanno prodotto una gamma in espansione esponenziale di approcci di ragionamento, ma tutti condividono l'obiettivo fondamentale di aumentare la potenza di calcolo durante i test. Oltre all'LLM di base (o basato su istruzioni) che funge da fondamento, i modelli di ragionamento si differenziano in base alle specifiche strategie di processo decisionale che sono addestrati a utilizzare e agli algoritmi specifici utilizzati per incentivare quel comportamento.

In generale, esistono due metodi principali per aumentare la potenza di calcolo utilizzata al momento dell'inferenza. L'obiettivo della messa a punto di un modello di ragionamento è addestrare uno (o entrambi) di questi approcci generali attraverso vari algoritmi di apprendimento.

  • Genera output più lunghi: il modello impara a generare sequenze di output più lunghe attraverso strategie che includono una lunga chain of thought, il backtracking e la messa a punto automatica.

  • Genera più output: invece di generare un singolo output in risposta a un prompt, il modello genera più iterazioni del suo output e arriva alla risposta finale attraverso un processo di ricerca, rifiuto e aggregazione dei potenziali output.  

La natura dei paradigmi di apprendimento che producono modelli di ragionamento in genere comporta l'addestramento e la valutazione di problemi le cui soluzioni sono di natura verificabile, come compiti di codifica o problemi di matematica. Le metriche di benchmark utilizzate per valutare le prestazioni del modello di ragionamento si concentrano quindi in genere su questi domini. Sono state condotte molte meno ricerche sull'impatto del ragionamento in ambiti più soggettivi, come la scrittura creativa.

Messa a punto del rinforzo

Il fulcro dell'ascesa degli LLM di ragionamento è stato il progresso della messa a punto basata sull'apprendimento per rinforzo, che comprende sia l'RL basato su regole che l'RL basato sul deep learning (deep RL) in contesti LLM. Mentre l'apprendimento supervisionato e autosupervisionato richiede compiti di addestramento statici ben definiti, l'RL è adatto al tipo di compiti dinamici, aperti e complessi per i quali il ragionamento in più fasi è più utile.

L'uso dell'RL per mettere a punto gli LLM in modo da conferire qualità astratte non è esclusivo dei modelli di ragionamento. Ad esempio, la pipeline di addestramento standard per un LLM da utilizzare nelle impostazioni del chatbot è la seguente:

  1. Pre-addestramento autosupervisionato, in cui il modello apprende i modelli linguistici e le conoscenze di base da applicare alle attività a valle.

  2. Messa a punto supervisionata (SFT), in cui il modello apprende come formattare correttamente le risposte agli input dell'utente.

  3. Messa a punto delle istruzioni, in cui il modello impara a seguire le istruzioni e a svolgere compiti specifici.

  4. Apprendimento per rinforzo dal feedback umano (RLHF), in cui il modello viene ottimizzato sui dati delle preferenze umane per conferire qualità soggettive come disponibilità, inoffensività, veridicità e tono ideale.

Gli LLM di ragionamento in genere sono sottoposti alle stesse fasi di addestramento, con l'aggiunta (a un certo punto) di una fase di apprendimento per rinforzo che instilla un processo di ragionamento produttivo basato sulla CoT. Ciò si ottiene definendo gli obiettivi di questo processo di ragionamento, ovvero i comportamenti specifici del modello da "premiare", come la generazione di tracce di ragionamento CoT prima di un output finale, e quindi ottimizzando i parametri del modello in modo da massimizzare la ricompensa.

Poiché è difficile o addirittura impossibile progettare una funzione di ricompensa esplicita per un compito astratto e complesso come un processo di ragionamento che sarà efficace per tutta la risoluzione di problemi complessi, questo segnale di ricompensa proviene spesso da un modello di ricompensa separato utilizzato durante l'addestramento. Nell'RLHF, questo modello di ricompensa è esso stesso addestrato sul feedback umano e impara a prevedere un punteggio numerico di quanto un umano preferirebbe una determinata risposta.

Nel contesto dell'RL per i modelli di ragionamento, i segnali di ricompensa possono essere suddivisi in 3 ampie categorie: modelli di ricompensa dei risultati (ORM), modelli di ricompensa dei processi (PRM) e sistemi di ricompensa basati su regole.

Modelli di ricompensa dei risultati (ORM)

Gli ORM, come suggerisce il nome, verificano l'accuratezza dell'output del modello di ragionamento e forniscono segnali di ricompensa che vengono utilizzati per ottimizzare di conseguenza i parametri del modello. Questo è superficialmente simile al ruolo di una funzione di perdita nell'apprendimento supervisionato, sebbene i meccanismi siano spesso più complessi.

Mentre una funzione di perdita misura tipicamente la divergenza token per token tra l'output di un modello e la verità di base, un ORM efficace deve essere in grado di riconoscere una risposta corretta a un problema matematico anche quando presentato in modo molto diverso dalla risposta di verità di base disponibile, il che è spesso il caso data l'elevata variabilità degli output CoT lunghi. Allo stesso modo, la maggior parte dei problemi di codifica nel mondo reale ha diverse soluzioni: la valutazione olistica dell'output del codice richiede in genere una pipeline di dati che esegua e verifichi in modo efficiente l'efficacia dei frammenti di codice. Altre qualità di output, ad esempio se segue la formattazione o le istruzioni prescritte, possono utilizzare un LLM standard come verificatore.

Sebbene gli ORM siano una soluzione relativamente semplice ed efficiente dal punto di vista computazionale, possono potenzialmente premiare situazioni in cui passaggi di ragionamento errati portano comunque a una risposta finale corretta, con il risultato che il modello apprende processi di ragionamento non ottimali.

Modelli di ricompensa dei processi (PRM)

I PRM valutano e premiano (o penalizzano) ogni singola fase del ragionamento isolatamente, piuttosto che concentrarsi esclusivamente sull'accuratezza della risposta finale. Ciò fornisce segnali di ricompensa più dettagliati e successivi aggiustamenti del modello, producendo modelli con un processo di ragionamento più solido e interpretabile.

Tuttavia, i PRM sono più costosi e richiedono più tempo per essere addestrati e implementati. I primi approcci influenti ai PRM si basavano quasi interamente sulla laboriosa etichettatura dei dati da parte di annotatori umani.7 Altri approcci automatizzano questo processo deducendo la validità di una fase di ragionamento in base alla frequenza con cui si ottiene una risposta corretta.8

Sistemi di ricompensa basati su regole

Per evitare i costi e le complicazioni dei modelli di ricompensa, alcuni approcci di ottimizzazione basati su RL progettano le attività di addestramento in modo da semplificare l'atto di valutazione degli output del modello. Ad esempio, le tecniche DeepSeek-R1 e R1-Zero richiedono ai modelli di formattare le risposte finali in un riquadro separato, consentendo di verificare l'accuratezza senza un modello di ricompensa specializzato che debba analizzare l'intera risposta. Altri sistemi di ricompensa basati su regole incentivano micro-azioni specifiche, come l'aggiunta di "attendi" alla fine di una risposta per incoraggiare una maggiore esplorazione e autocorrezione, che possono essere facilmente verificate.9

DeepSeek-R1-Zero: RL puro

Una tecnica di messa a punto del rinforzo semplice, illustrativa e molto influente è stata introdotta da DeepSeek nell'addestramento del loro modello di ragionamento sperimentale open source R1-Zero.

Utilizzando DeepSeek-V3 come base, DeepSeek è passato direttamente dal pre-addestramento a uno schema di apprendimento per rinforzo basato su regole estremamente semplice:

  • Query del modello: porre una domanda al modello. Richiedergli di fornire un processo di pensiero tra i token "<think> "e"</think> " e restituire la sua risposta finale tra i token "<answer> "e"</answer> ".

  • Premi per la precisione: premia il modello per la qualità della sua risposta, ad esempio per l'esecuzione del codice ben generato.

  • Premi in formato: premia il modello per aver utilizzato correttamente il formato "<think> </think> "e"<answer> </answer> " nelle risposte.

Sorprendentemente, senza alcuna istruzione esplicita in tal senso, DeepSeek-R1-Zero ha imparato a generare chain of thought complesse e a impiegare strategie di ragionamento che hanno prodotto prestazioni impressionanti in compiti matematici e di ragionamento. In altre parole, dato solo il mandato di "pensare" prima di fornire una risposta definitiva e di massimizzare l'accuratezza delle risposte finali, il modello ha esplorato e "scoperto" naturalmente modelli di ragionamento ottimali.

In pratica, questo approccio ridotto presentava importanti difetti: come spiega il documento tecnico, "DeepSeek-R1-Zero incontra sfide come la ripetizione infinita, la scarsa leggibilità e i linguaggi misti". Tuttavia, questo approccio RL puro è servito come base della metodologia più raffinata che ha prodotto il popolarissimo modello DeepSeek-R1.

Approcci basati su ricerche e campioni

Mentre la maggior parte dei paradigmi RL basati su COT mira a ottimizzare l'efficacia di un singolo output, altri metodi generano più output finali o intermedi con l'obiettivo di identificare e incentivare le migliori fasi di ragionamento.

Molti di questi approcci si basano su algoritmi di ottimizzazione basati sulla ricerca, come Monte Carlo Tree Search (MCTS), per generare ed esplorare molteplici potenziali fasi di ragionamento successive e valutarle in base alla qualità delle fasi successive e delle risposte finali a cui potrebbero portare. La ricompensa viene quindi retropropagata iterativamente attraverso i percorsi di ragionamento che hanno portato a risultati desiderabili e i parametri vengono ottimizzati in modo da aumentare la probabilità di tali fasi di ragionamento. Ciò è particolarmente utile per attività di ragionamento con una gamma molto ampia di decisioni potenziali o che richiedono un'ampia pianificazione a lungo termine per avere la possibilità di raggiungere una risposta finale accurata.

Un altro approccio è l'autocoerenza, chiamata anche voto a maggioranza. Ogni compito inizia con un suggerimento che segue un chain of thought. Le risposte multiple, ciascuna con i propri percorsi di ragionamento, vengono campionate dal decodificatore del modello. La risposta finale che appare più consistente tra gli output campionati è considerata la risposta ottimale. Questa può essere utilizzata come strategia in tempo di inferenza per ridurre al minimo la casualità e le allucinazioni o come mezzo per generare dati di ragionamento di alta qualità per metodi basati su SFT.

Il principale svantaggio di tali metodi è l'aumento della latenza e del sovraccarico computazionale che introducono. Tuttavia, alcune ricerche indicano che i modelli più piccoli che utilizzano algoritmi di inferenza basati sulla ricerca o su campioni possono offrire un compromesso superiore tra prestazioni ed efficienza rispetto ai modelli più grandi usati convenzionalmente.10

SFT, distillazione della conoscenza e approcci di auto-miglioramento

Uno dei modi concettualmente più semplici per mettere a punto i modelli di ragionamento è semplicemente utilizzare l'apprendimento supervisionato su un set di dati che comprende prompt di input impegnativi e corrispondenti output basati su CoT.

Mentre l'utilizzo di metodi convenzionali per assemblare un set di dati di addestramento "a mano" attraverso esempi scritti dall'uomo richiede un'infinità di tempo e manodopera, la proliferazione di modelli di ragionamento e tecniche di ridimensionamento dell'inferenza ha reso significativamente più facile la generazione di dati di addestramento sintetici adeguati.  Una ricerca condotta dalla Stanford University e dall'Allen Institute for A1 ha rilevato che dopo la messa a punto della modalità Qwen2.5-32B-Instruct su un set di dati selezionato di sole 1.000 coppie di domande e tracce di ragionamento, il loro modello "s1" ha battuto l'anteprima o1 di OpenAI sui problemi matematici della concorrenza.

La distillazione della conoscenza può essere utilizzata anche per insegnare ai modelli più piccoli a emulare i processi mentali di modelli di ragionamento più grandi perfezionandoli tramite SFT direttamente sugli output generati dal modello "insegnante" più grande. DeepSeek ha utilizzato la distillazione della conoscenza, con DeepSeek-R1 come insegnante, per creare versioni ottimizzate per il ragionamento di più dimensioni dei modelli Qwen e Llama.

Altri metodi mirano a eseguire il bootstrapping di un set di dati di prompt e i corrispondenti output CoT lunghi attraverso un processo di "auto-miglioramento" del modello. Il Self-Taught Reasoner (STaR) fornisce esempi few-shot di tracce di ragionamento efficaci, quindi richiede a un modello di generare risposte e motivazioni a un numero maggiore di domande di esempio. Il modello viene quindi perfezionato in base a motivazioni che alla fine hanno prodotto risposte corrette, dopodiché il processo viene ripetuto in modo iterativo.11 Il Reinforced Self-Training (ReST) applica un approccio concettuale simile per mettere a punto il segnale di ricompensa (o "politica") utilizzato per la messa a punto del rinforzo.12 Entrambi hanno prodotto una serie di metodologie derivate.

AI Academy

Scegli il modello AI adatto al tuo caso d'uso

La dimensione maggiore non è sempre la scelta più adatta nel caso dei modelli AI. Contattaci per trovare la soluzione giusta per le tue necessità di business. Poi scarica la nostra guida che ti aiuterà a passare all'azione.

Sfide dei modelli di ragionamento

Nonostante i numerosi punti di forza e benefici, gli LLM di ragionamento non sono privi di svantaggi.

Overthinking

I modelli di ragionamento, in particolare quelli con relativamente pochi parametri, sono inclini all'overthinking. Uno studio di Tencent ha rilevato che i modelli di ragionamento consumano in media l'1.953% in più di token rispetto ai modelli convenzionali per raggiungere la stessa risposta.13 Un altro studio, condotto da ricercatori in diverse università, ha rilevato che in ambienti agentici, i modelli di ragionamento hanno la tendenza a impegnarsi in un ragionamento circolare esteso invece di interagire con strumenti e fonti di informazione esterne.14

Limitazioni del ridimensionamento dell'inferenza

Una ricerca pubblicata da Anthropic nel luglio 2025 ha affermato che questo overthinking non è solo un problema di efficienza: il loro articolo esplora "i casi in cui un ragionamento più lungo deteriora le prestazioni, mostrando una relazione inversa tra tempo del test di calcolo e precisione". Sebbene sia stato empiricamente dimostrato che l'aumento del tempo del test di calcolo può spesso migliorare le prestazioni del modello, la loro ricerca ha dimostrato molteplici scenari in cui un ragionamento più lungo amplificava le debolezze del modello e i problemi di allineamento, mettendo in discussione "l'ipotesi che un maggior numero di ragionamenti migliori universalmente gli output del modello".15

Una ricerca correlata di Apple all'inizio del 2025 ha dimostrato una serie di attività a bassa complessità in cui i modelli standard hanno superato i modelli di ragionamento, nonché attività ad alta complessità in cui entrambi i tipi di modello hanno fallito completamente. Nelle scoperte di Apple, i modelli di ragionamento "non riescono a sviluppare capacità generalizzabili di risoluzione dei problemi per la pianificazione delle attività, con prestazioni che crollano a zero oltre una certa soglia di complessità".1

Degradazione in domini di non ragionamento

Sebbene la messa a punto del ragionamento in genere produca un notevole miglioramento su attività complesse in domini logici come la matematica e la codifica, può anche portare a cali di prestazioni altrove. Ad esempio, rispetto alle loro controparti originali, le versioni di Llama 3.1 e Qwen2.5 che sono state messe a punto attraverso la distillazione delle conoscenze su DeepSeek-R1 hanno dimostrato regressione su ArenaHard e Alpaca-Eval-2, benchmark popolari che misurano la capacità di un modello di ragionare per portare a termine istruzioni difficili. Detto questo, tecniche di ragionamento più mirate, come l'ottimizzazione delle preferenze di pensiero (TPO) utilizzata per mettere a punto IBM Granite 3.2, migliorano significativamente l'esecuzione delle istruzioni (anche se senza un impatto significativo sulle prestazioni matematiche o di codifica).

Valutazione LLM La messa a punto dei modelli Llama e Qwen per emulare il processo di ragionamento di DeepSeek-R1 ha aumentato le prestazioni in specifici domini logici, ma ha ridotto il seguito delle istruzioni generali.

Aumento dei costi e della latenza

Gli utenti devono pagare (e attendere) per tutti i token generati dal modello mentre "pensano", e quei token in uso consumano la finestra di contesto disponibile. Alcuni casi d'uso giustificano il tempo e l'elaborazione aggiuntivi, ma per altri è uno spreco di risorse. Tuttavia, passare costantemente da un modello di ragionamento a un modello "standard" in base a ogni singola attività e a ogni singolo prompt non è solitamente pratico.

Sforzo di ragionamento e modelli di ragionamento ibridi

Una soluzione è rappresentata dai "modelli di ragionamento ibrido". A febbraio, IBM Granite 3.2 è diventato il primo modello LLM a offrire una modalità di "pensiero" attivabile, che consente agli utenti di utilizzare il ragionamento quando ne hanno bisogno e dare priorità all'efficienza quando non ne hanno bisogno.3 Claude 3.7 Sonnet di Anthropic ha seguito l'esempio più tardi quel mese, aggiungendo la possibilità per gli utenti delle API di avere un controllo preciso sulla durata del "pensiero" del modello.17 Google ha introdotto una capacità simile di modificare il "budget di tempo per ragionare" dei modelli Gemini.18 Allo stesso modo, lo "sforzo di ragionamento" dei modelli di ragionamento o1 e o3 di OpenAI può essere impostato su "basso", "medio" o "alto".

Interpretabilità

Apparentemente, rivelare la chain of thought del modello all'utente aiuta a comprendere esattamente come un LLM arriva alle sue risposte finali, fornendo una maggiore interpretabilità di quanto normalmente possibile con un modello standard. Ma una ricerca di Anthropic suggerisce che i modelli di ragionamento non sempre dicono ciò che pensano effettivamente. Attraverso una serie di compiti appositamente progettati, i ricercatori hanno scoperto che sia Claude 3.7 Sonnet che DeepSeek-R1 non spiegavano fedelmente il loro ragionamento: ad esempio, quando fornivano suggerimenti sulla risposta corretta, le loro risposte raramente menzionavano quei suggerimenti quando descrivevano la loro presunta logica.19

Soluzioni correlate
Foundation Model

Esplora la libreria IBM di foundation model nel portafoglio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai Esplora i modelli AI Granite di IBM
Note a piè di pagina

Tutti i link sono esterni a ibm.com, salvo diversa indicazione.

1. "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity," Apple Machine Learning Research, giugno 2025
2. "Introducing OpenAI o1-preview," OpenAI, 12 settembre 2024
3. "From System 1 to System 2: A Survey of Reasoning Large Language Models," arXiv, 24 febbraio 2025 
4. "Large Language Models are Zero-Shot Reasoners," arXiv, 24 maggio 2022
5. "Show Your Work: Scratchpads for Intermediate Computation with Language Models," arXiv, 30 novembre 2022
6. "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters," arXiv, 6 agosto 2024
7. "Let's Verify Step by Step," arXiv, 31 maggio 2023
8. "Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations," arXiv, 14 dicembre 2023
9. "s1: Simple test-time scaling," arXiv, 31 gennaio 2025
10. "Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models," arXiv, 1° agosto 2024
11. "STaR: Bootstrapping Reasoning With Reasoning," arXiv, 28 marzo 2022
12. "Reinforced Self-Training (ReST) for Language Modeling," arXiv, 17 agosto 2023
13. "Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs," arXiv, 30 dicembre 2024
14. "The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks," arXiv, 12 febbraio 2025
15. "Inverse Scaling in Test-Time Compute," arXiv, 19 luglio 2025
16. "Bringing reasoning to Granite," IBM Research, 7 febbraio 2025
17.  "Claude 3.7 Sonnet and Claude Code," Anthropic, 24 febbraio 2025
18. "Generative AI on Vertex AI: Thinking," Google
19. "Reasoning models don't always say what they think," Anthropic, 3 aprile 2025