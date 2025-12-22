Nel 2026, i modelli AI più intelligenti potrebbero non essere i più grandi.
Questa è la scommessa che ora stanno facendo laboratori, investitori e ricercatori che hanno passato l'anno scorso a guardare le loro ipotesi crollare. I prossimi 12 mesi saranno definiti non dalla corsa a costruire sistemi più grandi, bensì dalla corsa per svilupparne di più saggi, modelli che pensano prima di parlare, che fanno di più con meno.
"Puoi ottenere un piccolo modello linguistico che funziona allo stesso livello, o addirittura meglio, rispetto a modelli molto più grandi," ha detto Kush Varshney, IBM Fellow, in un'intervista a IBM Think.
Un anno fa, sarebbe sembrata un'eresia. Per un decennio, Al'I ha operato secondo un catechismo brutalmente semplice: più dati, più parametri, più potenza di calcolo, più intelligenza. I laboratori hanno fatto a gara per annunciare i conteggi dei parametri come i culturisti che flettono i muscoli allo specchio. Le attività di addestramento consumavano la produzione elettrica di piccole città. L'intera impresa aveva l'impressione di essere nel mezzo di una conquista del territorio, solo che il territorio rivendicato era misurato in teraflop.
Poi è arrivato gennaio 2025. Una società chiamata DeepSeek, con sede in Cina, ha lanciato un modello che ha fatto crollare il titolo di Nvidia del 17% in un solo giorno. L'intelligenza algoritmica poteva sostituire la forza computazionale bruta. Non c'era bisogno di una cattedrale. Bastava un blueprint migliore.
I principali laboratori americani cambiarono rapidamente rotta. Nel giro di pochi mesi, sono passati dal costruire sistemi sempre più grandi a quelli che si fermano e ragionano prima di rispondere. Seyed Emadi, Associate Professor of Operations della University of North Carolina Kenan-Flagler, l'ha detto senza mezzi termini quando ha parlato con IBM Think: "Se dovessi riassumere il 2025 nell'AI, abbiamo smesso di fare modelli più grandi e abbiamo iniziato a renderli più saggi".
Questo cambiamento di rotta determina ora ciò che verrà dopo. Il consenso tra i ricercatori è sorprendente, quasi inquietante. Quando è stato chiesto di identificare lo sviluppo più significativo dell'ultimo anno, Misha Belkin, docente di Machine Learning all'UC San Diego, ha indicato "l'ascesa dei modelli di pensiero e della scala del tempo di inferenza"e, in un'intervista, l'ha definita la base per il 2026. Rada Mihalcea, che dirige il laboratorio di AI dell'Università del Michigan, ha offerto una visione complementare: "I progressi nei sistemi multi-agente, così come una comprensione più profonda... delle debolezze" definiranno la strada da seguire, ha detto a IBM Think.
Questo cambiamento rappresenta un ripensamento del significato di intelligenza nel silicio. Il vecchio approccio lo considerava come qualcosa che si preparava durante l'addestramento, come insaporire uno stufato. Una volta completato, il modello veniva congelato. Il nuovo approccio tratta l'intelligenza come qualcosa che può emergere in fase di esecuzione, dando al modello più tempo per ragionare, e questo è chiamato calcolo del tempo di inferenza.
Le implicazioni sono ancora in fase di definizione. Gabriel Poesia, un ricercatore che studia il ragionamento dell'AI presso la Stanford University, ha osservato che i modelli stanno migliorando nel "pensare per periodi di tempo più lunghi" e "utilizzano in modo ottimale gli strumenti durante i lunghi periodi di pensiero". In altre parole: le macchine hanno imparato a pensare prima di parlare.
I vecchi modelli funzionavano come dei riflessi: entra l'input, esce la previsione, senza alcuna pausa per riflettere. I nuovi modelli deliberano. Fai una domanda difficile e il modello ci penserà, a volte per minuti, controllandone la logica, facendo marcia indietro nei vicoli ciechi. Assomiglia notevolmente al pensiero. Se sia un pensiero, in un senso significativo, rimane una delle grandi domande senza risposta.
Se i modelli pensanti erano la storia intellettuale del 2025, la bomba commerciale era più diretta: l'AI di frontiera si è rivelata molto più economica di quanto si pensasse. L'aspetto economico, che sembrava immutabile come la gravità, si è rivelato più simile a una moda. Questa rivelazione rimodellerà la concorrenza nel 2026.
Il rilascio di DeepSeek a gennaio è arrivato come una bomba. Il modello ha eguagliato i sistemi occidentali utilizzando circa un decimo del calcolo di addestramento. "Questo ha spinto le cose", ha detto Varshney. "Ora c'è un altro concorrente e tutti devono fare un salto di qualità".
L'architettura del modello ha subito modifiche silenziose. Il nuovo modello, un misto di esperti, indirizza gli input a sottoreti specializzate invece di attivare tutti i parametri per ogni query. È come consultare lo specialista giusto piuttosto che chiedere a un medico di sapere tutto. Andrew Chin, docente di diritto che studia le politiche tecnologiche presso l'UNC, ha spiegato l'economia a IBM Think: "I modelli densi comportano all'incirca lo stesso costo computazionale per ogni token". “I sistemi sparsi indirizzano i token solo attraverso un sottoinsieme di parametri”. Le implicazioni per le imprese sono significative: "La scalabilità diventa qualcosa da gestire, non semplicemente da massimizzare".
La democratizzazione va oltre l'architettura, fino alla messa a punto. Christelle Scharff, docente di Informatica alla Pace University, ha detto a IBM Think di avere assistito a "un chiaro passaggio verso LoRA e una messa a punto leggera, che permette di adattare modelli potenti con calcolo limitato". I ricercatori con budget modesti possono ora personalizzare modelli che un anno fa sarebbero stati irraggiungibili. Le porte si stanno aprendo.
I guadagni di efficienza includono anche la progettazione del sistema. Kandyce Brennan, Assistant Professor alla UNC School of Nursing che lavora sull'AI nella sanità, ha detto a IBM Think che approcci come il planner DisCIPL del MIT, in cui "un grande modello pianifica e coordina ... molti piccoli modelli", ottengono risultati con "costi computazionali molto inferiori". L'efficienza riduce anche il consumo energetico e il carico ambientale.
"I limiti dei dati e i problemi energetici sono diventati una vera sfida che ha spinto la ricerca verso modelli più piccoli" ha affermato Mihalcea. Questi vincoli non faranno che aumentare.
Ciò di cui le imprese hanno realmente bisogno, a quanto pare, non è la capacità di fare tutto, ha detto Varshney. Ha fatto un esempio bizzarro: se si chiedesse a un modello di commentare i diritti civili sulla Luna, si otterrebbe una risposta comprensibile. "Tuttavia, la maggior parte delle attività aziendali non è così", ha detto. "Sono più mirate". La teologia della scalabilità sta cedendo il passo al pragmatismo dell'idoneità allo scopo.
I progressi sono stati reali. Così come i limiti. Nonostante la loro nuova capacità di deliberazione, i modelli AI rimangono capaci di un particolare tipo di errore, ovvero l'errore sicuro, compiuto con la serena sicurezza di una guida turistica che è entrata nel museo sbagliato.
Poesia ha individuato i problemi principali: “Due sfide importanti continuano a essere rappresentate dall’affidabilità e dalla creatività. "Anche avere successo nel 99,9% dei casi non è sufficiente", ha affermato. La matematica non perdona. Un sistema che fallisce una volta su mille fallirà mille volte elaborando un milione di query. In medicina, giurisprudenza o finanza, queste non sono probabilità accettabili.
La creatività è un altro problema. "Per i compiti aperti... anche i modelli di aziende diverse tendono a fornire output simili", ha osservato Poesia. I modelli sono diventati molto bravi nel trovare le risposte corrette. Rimangono stranamente uniformi quando gli viene chiesto di essere originali.
I modelli di ragionamento hanno i loro punti ciechi. Varshney ha osservato che "nelle attività in cui è possibile verificare i passaggi intermedi... questi flussi più lunghi aiutano. Ma ci sono un sacco di cose in cui non ci sono passaggi intermedi verificabili".
Un benchmark chiamato ARC-AGI-2 illustra questa lacuna. Il test presenta problemi che gli esseri umani trovano facili, ma che l'AI trova straordinariamente difficili. "Anche i modelli di pensiero più all'avanguardia ottengono risultati ben al di sotto delle prestazioni umane", ha affermato Emadi. "I modelli possono ragionare meglio di prima, ma possono comunque sbagliare con sicurezza".
L'allucinazione, che è il termine gentile nel settore per indicare l'inventarsi cose, è cambiata nel modo in cui si manifesta, ma permane. Mohammad Hossein Jarrahi, professore all'UNC che studia l'interazione uomo-AI, ha detto a IBM Think che “le allucinazioni hanno cambiato carattere, ma non sono scomparse del tutto”. La tendenza a generare informazioni apparentemente plausibili ma in realtà errate continua a persistere.
Alcuni ricercatori sono preoccupati per la traiettoria più ampia. Todd Cherner, che dirige un programma di tecnologia didattica presso l'Università della Carolina del Nord, ha dichiarato a IBM Think che "la capacità avanzata degli agenti AI è provocatoria. Penso che il futuro stia andando verso l'AGI più velocemente di quanto la gente pensi. Dobbiamo fare buon uso di ciò che abbiamo prima di spingere davvero per l'AGI".
Il principio fondamentale dell'informatica è ancora valido. "Se entra spazzatura, esce spazzatura", ha dichiarato a IBM ThinkNathalie Volkheimer, User Engagement Specialist di RENCI. "Ci stiamo concentrando sulla macchina che produce la salsiccia, e non sulla salsiccia stessa. Ma alla fine mangiamo quello che produciamo".
Un progresso in meno annunciato: l'espansione delle finestre contestuali, la quantità di informazioni che un modello può contenere nella memoria di lavoro. "Vediamo un contesto molto migliore a livello di repository-scalabilità, fino a circa un milione di token", ha affermato Jarrahi. Un milione di token equivale a molti romanzi. I modelli ora possono mantenere una comprensione coerente attraverso interazioni molto più lunghe, cosa che è fondamentale per la revisione dei documenti legali, lo sviluppo software e la sintesi della ricerca.
Le caratteristiche di citazione sono migliorate, con "caratteristiche integrate di base che possono indicare passaggi specifici", ha aggiunto Jarrahi. Quando un modello può mostrare il suo lavoro, gli utenti possono verificarlo, piuttosto che accettarlo in buona fede. Fidati, ma verifica. O meglio: non fidarti e verifica sempre.
Tuttavia, la verifica porta solo fino a un certo punto. Aude Oliva, MIT Director del MIT-IBM Watson AI Lab, ha detto a IBM Think che "il futuro della collaborazione tra AI e umani è un dialogo. Un sistema agentico artificiale deve possedere un certo grado di teoria della mente. Comprendere il funzionamento interno di un sistema AI è alla base della fiducia". La teoria della mente, ovvero la capacità di capire che gli altri hanno prospettive diverse, è fondamentale per l'interazione umana. La sua assenza nell'AI crea attriti che nessuna quantità di funzionalità può superare.
Le metriche del successo stanno cambiando di conseguenza. "Il settore è inesorabilmente diretto verso modelli giudicati meno per la fluidità grezza e più per tracciabilità, calibrazione e solidità interazionale", ha affermato Jarrahi. Le metriche glamour stanno lasciando il posto alle metriche di affidabilità. Flash è fuori. La prevedibilità è dentro.
"Il tema dominante sono state le funzionalità attraverso i vincoli", ha affermato Chin. "Invece di trattare la scalabilità come la finalità, gli sforzi principali si concentrano sul far funzionare i sistemi in modo prevedibile entro limiti reali". Il progresso assomiglia meno a una missione lunare e più a un problema di ingegneria.
Tre vincoli determineranno ciò che le organizzazioni potranno fare con l'AI nel 2026, secondo diversi esperti all'IBM Think. Il primo è economico, il secondo è fisico e il terzo è normativo.
Si parte dai soldi. "L'economia dell'inferenza agirà sempre più come un tetto rigido", ha detto Chin. "Molti recenti miglioramenti nel ragionamento si basano su una maggiore quantità di calcolo per query". Un modello che richiede minuti per pensare non può essere distribuito dove sono richieste risposte in tempo reale su larga scala, ha osservato.
Anche i limiti fisici sono altrettanto scoraggianti. "Si prevede che il consumo globale di elettricità dei data center raddoppierà entro il 2030", ha affermato Emadi. "Il vincolo del prossimo anno per molte organizzazioni non sarà la disponibilità di chip, bensì i gigawatt a cui collegarli". Il settore ha speso anni a ossessionarsi sui chip. Il collo di bottiglia si sta spostando verso le centrali elettriche.
"Le esigenze computazionali, e quindi i costi ambientali, rimangono elevati", ha aggiunto Brennan, "sollevando importanti questioni etiche sulla sostenibilità". L'impronta di carbonio dell'AI è diventata impossibile da ignorare.
Poi ci sono le normative. "Le pressioni derivanti dalla governance by design influenzeranno in modo più diretto lo sviluppo dei modelli", ha affermato Chin. "Per molte implementazioni, il requisito non è solo a livello di prestazioni, ma anche un comportamento verificabile e limitato". L'era della black box potrebbe finire.
Il crescente divario tra settori e accademia preoccupa alcuni osservatori. "Le università devono concentrarsi nuovamente sull'AI fondamentale", ha affermato Scharff, "e investire in idee che plasmeranno il settore tra 10 o 20 anni". I modelli più grandi sono sempre più fuori dalla portata accademica, introducendo domande scomode su dove avverrà la nuova generazione di idee.
Uno sviluppo è stato sottovalutato: l'ascesa dell'AI sovrana. "In molti Paesi, le persone hanno sviluppato i propri modelli", ha detto Varshney. Sono importanti perché i dati sull'addestramento sono più sensibili dal punto di vista culturale e spostano il controllo economico più vicino a casa, ha osservato.
Per il 2026, Varshney si aspetta una continua sperimentazione, piuttosto che scoperte drammatiche. "Non tutto deve essere esattamente un trasformatore", ha affermato. Mihalcea ha offerto una previsione simile: "un mix specializzato e più piccolo di modelli esperti, che utilizza sistemi multiagente". Alla domanda se sono in arrivo grandi passi avanti, Varshney ha risposto in modo cauto. "C'è sempre una possibilità... un altro momento alla ChatGPT", ha detto. "Ma non me lo aspetto". La risposta onesta è che nessuno lo sa.
I professionisti si stanno già adattando a questo nuovo panorama. Jayashankar Swaminathan, Professor of Global Operations alla UNC Kenan-Flagler, ha dichiarato a IBM Think che "i più grandi progressi riguardano... la capacità autonoma, dove l'AI è ora in grado di svolgere più attività in un ordine semplice. Il secondo riguarda il ragionamento sulla logica che sta alla base del processo decisionale".
Nel settore sanitario la trasformazione è già in atto. Maureen Baker, Clinical Associate Professor presso la UNC School of Nursing, ha dichiarato a IBM Think che "i modelli AI stanno avanzando a un ritmo incredibile". Tuttavia ha distinto le capacità dall'implementazione: "Il pensiero critico, il ragionamento clinico e il giudizio devono rimanere in prima linea". Il suo approccio è pragmatico: "Cerco vittorie facili con il minimo rischio".
L'ecosistema si sta differenziando. David Sachs, docente di tecnologia informatica alla Pace University, ha dichiarato a IBM Think che "sembrano apparire due tipi di modelli: quello grande, con cui possiamo fare di tutto, e modelli più mirati come Julius o Perplexity". Proprio come il software si è evoluto dalle applicazioni monolitiche agli strumenti specializzati, anche l'AI si sta frammentando in nicchie.
"L'uso effettivo di questi sistemi... è plasmato... dalla progettazione di workflow simbiotici", ha affermato Jarrahi. Gli esseri umani introducono giudizio, creatività e responsabilità. L'AI offre velocità, coerenza e capacità di elaborare grandi quantità di informazioni. Le organizzazioni che sanno come combinarle avranno un vantaggio.
"L'AI di frontiera si sta allontanando da un'era definita dalla scalabilità pura," ha detto Chin, "verso un'era definita da procedure, vincoli e compromessi operativi". Le tecnologie maturano quando gli ingegneri iniziano a ottimizzare per i limiti del mondo reale. Da questo punto di vista, l'AI sta finalmente crescendo.
Tuttavia, Varshney sta pensando a qualcosa di più profondo della tecnologia. "Quali saranno i compiti che verranno delegati ai sistemi di AI e quali continueranno a essere svolti dagli esseri umani?" ha chiesto. "È perché gli esseri umani trovano un significato... nel fare determinate cose? Cosa significa essere umani, sotto molti punti di vista?
