Nel 2026, i modelli AI più intelligenti potrebbero non essere i più grandi.

Questa è la scommessa che ora stanno facendo laboratori, investitori e ricercatori che hanno passato l'anno scorso a guardare le loro ipotesi crollare. I prossimi 12 mesi saranno definiti non dalla corsa a costruire sistemi più grandi, bensì dalla corsa per svilupparne di più saggi, modelli che pensano prima di parlare, che fanno di più con meno.

"Puoi ottenere un piccolo modello linguistico che funziona allo stesso livello, o addirittura meglio, rispetto a modelli molto più grandi," ha detto Kush Varshney, IBM Fellow, in un'intervista a IBM Think.

Un anno fa, sarebbe sembrata un'eresia. Per un decennio, Al'I ha operato secondo un catechismo brutalmente semplice: più dati, più parametri, più potenza di calcolo, più intelligenza. I laboratori hanno fatto a gara per annunciare i conteggi dei parametri come i culturisti che flettono i muscoli allo specchio. Le attività di addestramento consumavano la produzione elettrica di piccole città. L'intera impresa aveva l'impressione di essere nel mezzo di una conquista del territorio, solo che il territorio rivendicato era misurato in teraflop.

Poi è arrivato gennaio 2025. Una società chiamata DeepSeek, con sede in Cina, ha lanciato un modello che ha fatto crollare il titolo di Nvidia del 17% in un solo giorno. L'intelligenza algoritmica poteva sostituire la forza computazionale bruta. Non c'era bisogno di una cattedrale. Bastava un blueprint migliore.

I principali laboratori americani cambiarono rapidamente rotta. Nel giro di pochi mesi, sono passati dal costruire sistemi sempre più grandi a quelli che si fermano e ragionano prima di rispondere. Seyed Emadi, Associate Professor of Operations della University of North Carolina Kenan-Flagler, l'ha detto senza mezzi termini quando ha parlato con IBM Think: "Se dovessi riassumere il 2025 nell'AI, abbiamo smesso di fare modelli più grandi e abbiamo iniziato a renderli più saggi".

Questo cambiamento di rotta determina ora ciò che verrà dopo. Il consenso tra i ricercatori è sorprendente, quasi inquietante. Quando è stato chiesto di identificare lo sviluppo più significativo dell'ultimo anno, Misha Belkin, docente di Machine Learning all'UC San Diego, ha indicato "l'ascesa dei modelli di pensiero e della scala del tempo di inferenza"e, in un'intervista, l'ha definita la base per il 2026. Rada Mihalcea, che dirige il laboratorio di AI dell'Università del Michigan, ha offerto una visione complementare: "I progressi nei sistemi multi-agente, così come una comprensione più profonda... delle debolezze" definiranno la strada da seguire, ha detto a IBM Think.

Questo cambiamento rappresenta un ripensamento del significato di intelligenza nel silicio. Il vecchio approccio lo considerava come qualcosa che si preparava durante l'addestramento, come insaporire uno stufato. Una volta completato, il modello veniva congelato. Il nuovo approccio tratta l'intelligenza come qualcosa che può emergere in fase di esecuzione, dando al modello più tempo per ragionare, e questo è chiamato calcolo del tempo di inferenza.

Le implicazioni sono ancora in fase di definizione. Gabriel Poesia, un ricercatore che studia il ragionamento dell'AI presso la Stanford University, ha osservato che i modelli stanno migliorando nel "pensare per periodi di tempo più lunghi" e "utilizzano in modo ottimale gli strumenti durante i lunghi periodi di pensiero". In altre parole: le macchine hanno imparato a pensare prima di parlare.

I vecchi modelli funzionavano come dei riflessi: entra l'input, esce la previsione, senza alcuna pausa per riflettere. I nuovi modelli deliberano. Fai una domanda difficile e il modello ci penserà, a volte per minuti, controllandone la logica, facendo marcia indietro nei vicoli ciechi. Assomiglia notevolmente al pensiero. Se sia un pensiero, in un senso significativo, rimane una delle grandi domande senza risposta.