DeepSeek-R1, il modello AI della startup cinese DeepSeek, è salito in vetta alle classifiche dei modelli più scaricati e attivi sulla piattaforma open source AI Hugging Face poche ore dopo il suo lancio la scorsa settimana. Ha inoltre scosso i mercati finanziari, mentre ha indotto gli investitori a riconsiderare le valutazioni dei produttori di chip come NVIDIA e gli ingenti investimenti che i giganti americani dell'AI stanno facendo per scalare le loro attività in questo settore.
Perché tutto questo scalpore? Un cosiddetto "modello di ragionamento", DeepSeek-R1 è un assistente digitale che, secondo l'azienda, funziona bene quanto o1 di OpenAI in alcuni benchmark di AI per compiti di matematica e codifica, è stato addestrato con un numero molto inferiore di chip ed è circa del 96% più economico da utilizzare.
"DeepSeek sta sicuramente rimodellando il landscape dell'AI, sfidando i giganti con ambizioni open-source e innovazioni all'avanguardia", afferma Kaoutar El Maghraoui, Principal Research Scientist e Manager presso IBM AI Hardware.
Nel frattempo, ByteDance, il colosso tecnologico cinese proprietario di TikTok, ha recentemente annunciato il proprio agente di ragionamento, UI-TARS, che sostiene superi GPT-4o di OpenAI, Claude di Anthropic e Gemini di Google su alcuni benchmark. L'agente di ByteDance può leggere le interfacce grafiche, ragionare e agire in modo autonomo passo dopo passo.
Dalle startup ai giganti affermati, le aziende cinesi di AI sembrano colmare il divario con i loro rivali americani, in gran parte grazie alla disponibilità a rendere open source o condividere il codice software sottostante con altre aziende e sviluppatori software. "DeepSeek è riuscito a diffondere modelli piuttosto potenti in tutta la comunità", afferma Abraham Daniels, Senior Technical Product Manager per il modello Granite di IBM. DeepSeek-R1 è offerto su Hugging Face con una licenza MIT che consente un uso commerciale senza restrizioni. "DeepSeek potrebbe davvero accelerare la democratizzazione dell'AI", afferma.
La scorsa estate, l'azienda cinese Kuaishou ha presentato uno strumento di generazione video simile a Sora di OpenAI, ma disponibile al pubblico fin dall'inizio. Sora è stato presentato lo scorso febbraio ma completamente rilasciato solo a dicembre e anche allora solo chi aveva un abbonamento ChatGPT Pro poteva accedere a tutte le sue caratteristiche. Gli sviluppatori di Hugging Face hanno anche acquistato nuovi modelli open source dei giganti tecnologici cinesi Tencent e Alibaba. Mentre Meta ha reso open source i suoi modelli Llama, sia OpenAI che Google hanno adottato un approccio prevalentemente closed source per lo sviluppo dei loro modelli.
Oltre al vantaggio dell'open source, gli ingegneri di DeepSeek hanno utilizzato solo una frazione dei chip NVIDIA altamente specializzati impiegati dai concorrenti americani per addestrare i loro sistemi. Gli ingegneri di DeepSeek, ad esempio, hanno dichiarato di aver bisogno solo di 2.000 GPU (unità di elaborazione grafica), o chip, per addestrare il loro modello DeepSeek-V3, secondo un articolo di ricerca pubblicato con la release del modello.
"L'aspetto davvero impressionante è la capacità di ragionamento dei modelli DeepSeek", afferma Kush Varshney, IBM Fellow. I modelli di ragionamento essenzialmente verificano o controllano se stessi, rappresentando un tipo di "meta-cognizione", o "pensiero sul pensiero", afferma Varshney. "Ora stiamo iniziando a mettere saggezza in questi modelli, ed è un passo enorme."
I modelli di ragionamento sono diventati un argomento di conversazione lo scorso settembre, quando OpenAI ha presentato in anteprima il suo modello di ragionamento o1. A differenza dei precedenti modelli AI, che producevano una risposta senza spiegare il ragionamento, questo modello risolve problemi complessi suddividendoli in fasi. I modelli di ragionamento possono richiedere qualche secondo o minuto in più per rispondere, perché riflettono sull'analisi passo dopo passo, o nella modalità "chain-of-thought".
DeepSeek-R1 combina il ragionamento chain-of-thought con l'apprendimento per rinforzo, in cui un agente autonomo impara a svolgere un compito tramite tentativi ed errori e senza alcuna istruzione da parte di un utente umano. L'apprendimento per rinforzo si differenzia dalle forme di apprendimento più comunemente utilizzate, come l'apprendimento supervisionato, che utilizza dati etichettati manualmente per produrre previsioni o classificazioni, e l'apprendimento non supervisionato, che mira a scoprire e apprendere schemi nascosti da dati non etichettati.
DeepSeek-R1 mette in discussione l'assunzione che i modelli miglioreranno la capacità di ragionare essendo addestrati su esempi etichettati di comportamento corretto o errato, o estraendo informazioni da pattern nascosti, afferma Yihua Zhang, dottorando alla Michigan State University che ha scritto decine di articoli sul machine learning. "L'ipotesi chiave è semplice ma audace", afferma Zhang. "Possiamo semplicemente premiare il modello per la sua correttezza e lasciare che scopra da solo il modo migliore di pensare?"
Secondo Zhang, l'aspetto che lui e altri hanno trovato particolarmente straordinario nell'addestramento su larga scala di modelli linguistici su larga scala come quello di DeepSeek è che "il modello inizia a mostrare un vero momento 'aha', in cui fa un passo indietro, individua gli errori e si corregge".
Parte del clamore attorno a DeepSeek deriva dal suo basso prezzo. DeepSeek-V3, rilasciato il giorno di Natale, è costato 5,5 milioni di USD per l'addestramento ed è molto più economico per gli sviluppatori che vogliono provarlo, secondo il rapporto tecnico pubblicato dall'azienda. "È davvero impressionante quello che hanno fatto per il costo del modello e il tempo che hanno impiegato per addestrarlo", racconta Chris Hay, Distinguished Engineer presso IBM.
Tuttavia, questo prezzo basso potrebbe non essere tutto, afferma Kate Soule, Director of Technical Product Management for Granite di IBM Research. Il costo di 5,5 milioni di dollari "rappresenta solo una frazione del calcolo necessario", afferma. Non include dettagli sui costi che le aziende mantengono proprietari anche con modelli open source, come "i costi di calcolo per l'apprendimento per rinforzo, le ablazioni dei dati e le ricerche con iperparametri", afferma Soule.
Detto questo, non si discute che DeepSeek abbia raggiunto una maggiore efficienza dei costi utilizzando un'architettura di tipo Mixture of expert (MoE), che richiede meno risorse per l'addestramento. L'architettura MoE divide un modello di AI in sotto-reti separate (o "esperti"), ciascuna specializzata in un sottoinsieme dei dati di input. Il modello attiva solo gli esperti specifici necessari per un determinato compito, anziché attivare l'intera rete neurale. Di conseguenza, l'architettura MoE riduce notevolmente i costi di calcolo durante il pre-addestramento e garantisce prestazioni più rapide durante il tempo di inferenza. Diverse aziende in tutto il mondo, tra cui la pionieristica società francese Mistral AI e IBM hanno reso popolare l'architettura MoE nell'ultimo anno e hanno raggiunto maggiore efficienza combinando MoE e open source.
Nel caso della serie di modelli Granite open-source di IBM (sviluppati con un'architettura MoE), le aziende sono in grado di ottenere prestazioni da modello di frontiera a una frazione del costo perché possono adattare un grande modello pre-addestrato per le loro applicazioni o casi d'uso specifici, creando di fatto modelli più piccoli e adatti allo scopo. L'integrazione di enormi capacità in modelli più piccoli significa che questi modelli possono essere utilizzati su smartphone e altri dispositivi mobili che funzionano all'edge, come computer per auto o sensori intelligenti in una fabbrica.
Questo processo di prendere un modello più grande e distillarlo in modelli più piccoli che richiedono meno risorse ha contribuito al successo di DeepSeek. Oltre al lancio del modello R1, la startup cinese ha lanciato anche una serie di modelli più piccoli e adatti allo scopo. Curiosamente, hanno dimostrato che i modelli più grandi distillati in modelli più piccoli hanno prestazioni migliori nel ragionamento rispetto all'uso dell'apprendimento per rinforzo di modelli piccoli fin dall'inizio.
Mentre rivaleggiano o superano i loro concorrenti più anziani su determinati benchmark, che impatto avranno questi nuovi modelli cinesi sul landscape globale dell'AI? "Non si tratta solo delle prestazioni grezze nei benchmark", afferma El Maghraoui. "Si tratta di stabilire se questi modelli siano integrati end-to-end in modo sicuro ed etico." Di conseguenza, afferma El Maghraoui, è troppo presto per dire se DeepSeek-R1 e altri modelli "trasformeranno le interazioni umane, la tecnologia e le applicazioni aziendali".
In definitiva, "il tasso di adozione da parte degli sviluppatori determinerà la popolarità dei modelli DeepSeek", afferma Daniels. Inoltre, sarà "molto interessante vedere i casi d'uso che scopriranno per i modelli", afferma.
E secondo Varshney di IBM, le differenze geopolitiche potrebbero anche contare meno di quanto si possa supporre in questa corsa globale all'AI . "Una volta che un modello è open source, la sua provenienza non ha più importanza sotto molti aspetti", afferma.
