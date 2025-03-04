Se avessi letto i titoli dei giornali del 20 gennaio 2025, avresti potuto pensare che il cielo stesse crollando. Questo perché la società cinese DeepSeek ha rilasciato quel giorno il suo modello linguistico di grandi dimensioni (LLM) R1, che è rapidamente diventato uno dei modelli più scaricati e attivi poco dopo il suo rilascio.
La causa dell'entusiasmo è stato il fatto che il laboratorio di ricerca sull'AI con sede a Hangzhou, in Cina, che rilascia modelli a suo nome, abbia costruito un modello a un costo molto inferiore, 5,6milioni di dollari, e con molte meno risorse di calcolo e accesso ai chip NVIDIA rispetto ai principali modelli statunitensi.
La gente temeva apertamente che alcune delle aziende statunitensi di AI fortemente finanziate stessero per essere superate. Poiché DeepSeek utilizzava meno chip NVIDIA rispetto alle altre aziende, il prezzo delle azioni dell'azienda è sceso. Tuttavia, si è trattato più di una reazione impulsiva alla notizia che di qualcosa di concretamente preoccupante per le sorti del produttore di chip.
I giornalisti del settore tecnologico e finanziario hanno interpretato questa notizia come uno shock per il sistema. Tuttavia, per altri esperti sull'AI e per me, l'unica sorpresa dell'annuncio di R1 da parte di DeepSeek è stata la sorpresa di tutti gli altri.
Sebbene il modello fosse nuovo, DeepSeek non è affatto un nuovo arrivato nel marketplace. Ha una lunga tradizione di produzione di preziosi modelli open source nel mercato cinese, in particolare il modello V3 rilasciato a dicembre. Infatti, ha pubblicato un documento tecnico di accompagnamento, che offre una formazione per chiunque voglia approfondire come costruire questi laboratori. Il modello V3 è stato più una sorpresa, ma a quanto pare è passato inosservato.
Il modello R1 di DeepSeek, naturalmente, è un altro esempio di strumento di AI generativa che può diventare la base per il futuro dell'agentic AI, dove gli strumenti AI non solo rispondono alle richieste degli utenti, ma lavorano in modo indipendente per fornire servizi a quegli utenti.
Sebbene IBM® collabori e utilizzi tutti questi modelli, siamo anche grandi sostenitori e ingegneri del movimento open source. Vedere un modello open source come R1 ricevere i meritati elogi è un'ottima cosa per il settore.
È comprensibile che per i grandi operatori sia stato un po' sconcertante vedere DeepSeek produrre un modello alla pari o migliore dei loro modelli, ma costruito a una frazione del costo dei modelli più noti. Tuttavia, questo è lo scopo per cui è stata concepita la comunità open source.
L'annuncio di DeepSeek R1 mostra una storia di due mondi: i mercati finanziari prevedevano turbolenze mentre gli esperti dell'AI erano entusiasti della svolta tecnologica e di come essa potesse informare modelli più efficienti e potenti di nuova generazione.
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
R1 ha solo rafforzato ciò che molti sapevano, e il resto del mondo sta recuperando. DeepSeek è ovviamente sulle spalle di tutti coloro che contribuiscono all'ambiente open source, tra cui IBM, Meta e altri. I modelli open source continueranno a guidare l'innovazione. Sebbene R1 abbia rappresentato uno shock iniziale per il sistema, tutti trarranno beneficio dalla sua esistenza. Soprattutto considerando che DeepSeek ha appena annunciato una settimana open-source, in cui ha condiviso un repository open source al giorno.
DeepSeek R1 utilizza l'approccio di machine learning Mixture of Experts (MoE) che divide un modello di intelligenza artificiale (AI) in sotto-reti separate (o "esperti"), ciascuna specializzata in un sottoinsieme dei dati dell'input, per svolgere congiuntamente un compito.
Quindi, quando si usa l'approccio MoE, non tutti i parametri del modello devono essere attivati contemporaneamente. Ad esempio, nel modello v3 o R1 di DeepSeek sono presenti circa 671 miliardi di parametri, ma solo 37 miliardi di parametri sono attivi contemporaneamente. Quindi, la piccola parte dell'intero modello che risponde davvero alla domanda lo rende molto più efficiente.
Storicamente, i ricercatori hanno riscontrato difficoltà di addestramento con i modelli MoE. DeepSeek ha ideato alcune tecniche innovative per risolvere quei problemi mantenendo il workload che ha reso la loro combinazione di esperti moderata ed efficiente.
Ad esempio, i modelli V3 e R1 hanno utilizzato l'apprendimento per rinforzo anziché basarsi su dati etichettati. Questa tecnica prevede diversi percorsi per arrivare alla risposta. Ogni percorso che attraversa, viene rivalutato lungo la strada. Pertanto, determina più rapidamente se sta seguendo la strada sbagliata. Poi, può fare rapidamente marcia indietro e determinare un percorso potenzialmente più vantaggioso.
Questo ragionamento basato sulla "catena di pensieri" aiuta a trovare la strada verso la destinazione finale, che è precisa, e a ottenere la ricompensa per questo. Questa metodologia di apprendimento per rinforzo li ha aiutati ad addestrare il modello per ottenere prestazioni pari o superiori a quelle di OpenAI e di altri modelli.
A volte le limitazioni generano innovazione. DeepSeek è limitata nella scelta dei chip NVIDIA che può acquisire a causa dei controlli statunitensi sulle esportazioni di chip in Cina. La società madre ovviamente disponeva di un numero significativo di chip NVIDIA, 2.000 chip NVIDIA H800, ma doveva comunque essere agile nel modo in cui li distribuiva. Ha svolto un lavoro incredibile a livello hardware per poter guidare alcune ottimizzazioni.
Tutti nella comunità open source utilizzano la piattaforma Cuda di NVIDIA, che offre un buon set di librerie che possono aiutarti a collegare tutte le diverse GPU tra loro, così da comunicare in modo più efficiente, distribuire il workload e così via. Ma DeepSeek è andato un passo oltre, sotto la libreria, e ha ottimizzato ulteriormente anche l'hardware.
La realtà è che il ritmo con cui i modelli aperti sono migliorati e continueranno a migliorare è fenomenale.
L'AI non esiste senza chip. La notizia iniziale secondo cui in futuro sarebbero stati necessari meno chip per produrre modelli eccellenti ha creato, in alcuni osservatori del settore, un errore logico secondo cui la domanda di chip sarebbe diminuita. Secondo il paradosso di Jevons, è vero il contrario: l'aumento dell'efficienza spesso porta a un aumento del consumo. Dal consumo di carburante ed energia nel corso del tempo e dall'aumento dell'efficienza dell'aria condizionata che porta le persone a costruire case più grandi, quando una cosa è buona non stroppia mai.
Prendiamo, ad esempio, il business globale del whisky. Negli ultimi anni, l'ascesa delle distillerie indipendenti e di piccole dimensioni non ha fatto altro che aumentare la domanda di cereali. È la stessa cosa in qualsiasi settore, poiché l'economia migliora le opportunità per le piccole aziende. I chip utilizzati da una determinata azienda possono essere meno numerosi, ma DeepSeek ha dimostrato che molti altri operatori possono entrare nel mercato e utilizzare tecniche open source per costruire modelli impressionanti a un prezzo inferiore.
Per me, questa è la lezione più importante. Ciò che insegna è che non sarà solo l'élite che ha accesso a calcoli incredibili a poter costruire la prossima serie di modelli. Forse ci sono percorsi alternativi in cui anche i laboratori più piccoli possono iniziare a investire nella costruzione di altri modelli. È un'ottima cosa per chi è entusiasta degli agenti AI e del futuro agentico che tutti noi prevediamo.
La competizione tra tutti i principali attori sarà altalenante, quindi è meglio non pensare a vincitori e vinti nell'immediato. Ogni giorno, aziende, ricercatori e scienziati dell'AI innovano per produrre modelli migliori basati su un ragionamento più scientifico.
Ecco perché siamo così entusiasti dei nostri recenti aggiornamenti di ragionamento alla nostra famiglia di LLM Granite, che hanno superato le prestazioni R-1 su benchmark come ArenaHard e AlpacaEva. I nostri modelli di ragionamento combinano il meglio di entrambi i mondi: alte prestazioni con caratteristiche di sicurezza, lasciando agli utenti scegliere se usare o meno le funzionalità di ragionamento, a seconda della situazione. Quanto più condividiamo ciò che sappiamo e rendiamo open source ciò che è possibile fare, tanto più ne trarranno beneficio tutti, soprattutto i consumatori.
Anche se OpenAI e altri potrebbero inizialmente risentire dell'ascesa di una concorrenza più piccola ma potente, questa è una grande vittoria per la comunità e si allinea con la prospettiva di IBM per il futuro dell'AI. Si tratta di una grande vittoria per la comunità open source e dimostra che i modelli più piccoli possono superare in competitività alcuni degli altri. Ovviamente, questo non esclude in alcun modo i grandi giocatori: se saranno intelligenti, useranno ciò che DeepSeek ha insegnato loro per continuare a costruire modelli più grandi a costi inferiori.
Ma, in definitiva, la concorrenza è un vantaggio sia per le imprese che per i consumatori. Quando si verificano eventi sismici come R1 di DeepSeek, tutti vincono.
Scopri IBM® Granite, la nostra famiglia di modelli AI aperti, performanti e affidabili, personalizzati per le aziende e ottimizzati per scalare le applicazioni AI. Esplora le opzioni relative a lingua, codice, serie temporali e guardrail.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.
Consulta gli articoli, i blog e i tutorial di IBM Developer per approfondire la tua conoscenza degli LLM.
Scopri come incoraggiare i team a migliorare sempre di più le prestazioni dei modelli e a superare la concorrenza utilizzando le tecniche e le infrastrutture AI più recenti.
Esplora il valore dei foundation model di livello aziendale che forniscono fiducia, prestazioni e benefici convenienti per tutti i settori.
Scopri come incorporare l'AI generativa, il machine learning e i foundation model nelle operazioni di business per migliorare le prestazioni.
Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.