Nella storia relativamente breve dei modelli di ragionamento, molti approcci importanti hanno dato priorità ai miglioramenti delle prestazioni solo su una serie ristretta di domini basati sulla logica, come la matematica o la codifica. Sebbene il lavoro continuo di IBM sulle tecniche di scalabilità dell'inferenza abbia prodotto miglioramenti impressionanti soprattutto nelle prestazioni su benchmark tecnici convenzionalmente associati al "ragionamento", come AIME e MATH-500, il nostro obiettivo per Granite 3.2 Instruct era arricchire i processi di ragionamento dei nostri modelli per migliorare più in generale la loro capacità di seguire istruzioni complesse.

Un'attenzione ristretta alle attività tecniche mirate esplicitamente dagli sviluppatori del modello a volte può andare a scapito di altri domini, tra cui le prestazioni generali e la sicurezza, le cui conoscenze possono essere "dimenticate" dal modello se non sono adeguatamente trattate nei set di dati utilizzati per migliorare le prestazioni di ragionamento. Per evitare ciò, IBM ha sviluppato Granite 3.2 Instruct applicando direttamente a Granite 3.1 Instruct un framework di apprendimento rinforzato basato sulla Thought Preference Optimization (TPO).

A differenza di molti approcci comuni alle funzionalità di ragionamento, la minore dipendenza del TPO da operatori o funzioni logiche per valutare e premiare gli output del modello rende più facile scalare alle attività generali. Ciò ha consentito a Granite 3.2 Instruct di aumentare le prestazioni in attività che richiedono un ragionamento complesso senza compromettere le prestazioni altrove.

I benefici di questo approccio sono più evidenti rispetto ai modelli DeepSeek-R1-Distill, che (nonostante i loro nomi) sono in realtà versioni dei modelli Llama e Qwen ottimizzate per emulare il processo di ragionamento di DeepSeek-R1. Vale la pena notare che, a differenza dei modelli R1-Distill, i modelli IBM Granite 3.2 Instruct non sono stati addestrati utilizzando dati generati da DeepSeek, il che semplifica notevolmente le loro implicazioni normative.

Considera le prestazioni pre e post ragionamento di modelli Llama, Qwen e Granite di dimensioni simili su ArenaHard e Alpaca-Eval-2, benchmark popolari che misurano la capacità di ragionare su istruzioni difficili. Mentre la tecnica di DeepSeek riduce le prestazioni su queste attività non mirate, le tecniche CoT utilizzate per far evolvere Granite 3.1 Instruct in Granite 3.2 Instruct hanno migliorato significativamente l'esecuzione delle istruzioni.