DeepSeek-R1 è un modello di ragionamento creato perfezionando un LLM (DeepSeek-v3) per generare un ampio processo di catena di pensiero (CoT) step-by-step prima di determinare l'output finale fornito all'utente. Altri modelli di ragionamento includono o1 (basato su GPT-4o) e o3 di OpenAI, Gemini Flash 2.0 Thinking di Google (basato su Gemini Flash) e open QwQ di Alibaba ("Qwen with Questions"), basato sul suo modello Qwen2.5.

L'intuizione alla base dei modelli di ragionamento deriva dalle prime ricerche che dimostrano che la semplice aggiunta della frase "think step by step" migliora significativamente i risultati del modello.i Ricerche successive di Google DeepMind hanno teorizzato che l'aumento del calcolo in tempo di test (la quantità di risorse utilizzate per generare un output) potrebbe migliorare le prestazioni del modello tanto quanto l'aumento del calcolo in tempo di addestramento (le risorse utilizzate per addestrare un modello).

Sebbene i modelli di ragionamento siano più lenti e costosi (bisogna comunque generare e pagare tutti i token usati per "pensare" alla risposta finale e quei token riducono la finestra contestuale disponibile), rappresentano l'avanguardia delle prestazioni sin dal rilascio di o1 da parte di OpenAI. In particolare, l'enfasi sui modelli di addestramento per dare priorità alla pianificazione e alla previdenza li ha resi abili in determinate attività che coinvolgono problemi matematici e di ragionamento complessi, precedentemente inaccessibili agli LLM.

Per ulteriori informazioni sui modelli di ragionamento, dai un'occhiata a questa eccellente guida visiva di Maarten Grootendorst.