DeepSeek: comprendere l'hype

13 febbraio 2025

Autori

Dave Bergmann

Senior Writer, AI Models

IBM

La versione di gennaio 2025 di DeepSeek-R1 ha dato il via a una valanga di articoli su DeepSeek che, in modo un po' confuso, è il nome di un'azienda, dei modelli che produce e del chatbot che utilizza quei modelli. Data la portata e l'entusiasmo intorno alle implicazioni di un cambiamento sismico nel panorama dell'AI, può essere difficile separare i fatti dalle speculazioni e le speculazioni dalla finzione.

Quella che segue è una guida semplice per aiutarti a selezionare gli articoli su DeepSeek e a separare le informazioni concrete dal rumore, evitando l'hype e l'iperbole. Inizieremo con una breve storia dell'azienda, spiegheremo le differenze tra ogni nuovo modello DeepSeek e analizzeremo le innovazioni più interessanti (senza entrare troppo nel tecnico).

Una rapida panoramica di ciò che tratteremo:

  • Cos'è DeepSeek?

  • Cos'è esattamente DeepSeek-R1? Spiegheremo il processo di ottimizzazione ("R1") e il modello linguistico di grandi dimensioni (LLM) DeepSeek-V3 che è stato perfezionato con questo processo.

  • Cos'è DeepSeek-V3? Vedremo perché è diverso dagli altri LLM.

  • Quanto costa DeepSeek-R1? Faremo chiarezza su alcuni importanti malintesi.

  • Cos'è DeepSeek-R1-Distill? Nonostante i loro nomi, i modelli R1-Distill sono fondamentalmente diversi dall'R1.

  • Perché hai bisogno di saperlo? Spiegheremo perché i titoli dei giornali possono essere fuorvianti.

  • Cosa succede dopo?
Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Cos'è DeepSeek?

DeepSeek è un laboratorio di ricerca sull'AI con sede a Hangzhou, in Cina. È anche il nome dei modelli di AI generativa open-weight che sviluppa. Alla fine di gennaio 2025, l'LLM DeepSeek-R1 ha fatto notizia nel mondo della tecnologica e della finanza in seguito all'annuncio di prestazioni simili a quelle dei migliori modelli proprietari, come OpenAI, Anthropic e Google, per un prezzo notevolmente inferiore.

Le origini di DeepSeek (l'azienda) risalgono a quelle di High-Flyer, un hedge fund cinese fondato nel 2016 da un trio di informatici con un particolare interesse per le strategie di trading algoritmico. Nel 2019, l'azienda ha utilizzato i proventi delle sue operazioni di trading per fondare una consociata orientata all'AI, High-Flyer AI, investendo circa 28 milioni di dollari in infrastrutture di addestramento per il deep learning e quintuplicando tale investimento nel 2021.

Nel 2023, la ricerca sull'AI di High-Flyer era già cresciuta al punto da giustificare la creazione di un'entità separata, focalizzata esclusivamente sull'AI, in particolare sullo sviluppo dell'intelligenza artificiale generale(AGI). Il nuovo laboratorio di ricerca è stato chiamato DeepSeek, con High-Flyer come investitore principale. A partire da DeepSeek-Coder nel novembre 2023, DeepSeek ha sviluppato una serie di modelli open-weight molto apprezzati, concentrati principalmente sulle prestazioni nel campo della matematica e della codifica.

Nel dicembre 2024, il laboratorio ha rilasciato DeepSeek-V3, l'LLM su cui si basa DeepSeek-R1. Le prestazioni rivoluzionarie di DeepSeek-v3 e DeepSeek-R1 hanno fatto del laboratorio un leader inaspettato nello sviluppo dell'AI generativa in futuro.

Cos'è DeepSeek-R1?

DeepSeek-R1 è un modello di ragionamento creato perfezionando un LLM (DeepSeek-v3) per generare un ampio processo di catena di pensiero (CoT) step-by-step prima di determinare l'output finale fornito all'utente. Altri modelli di ragionamento includono o1 (basato su GPT-4o) e o3 di OpenAI, Gemini Flash 2.0 Thinking di Google (basato su Gemini Flash) e open QwQ di Alibaba ("Qwen with Questions"), basato sul suo modello Qwen2.5.

L'intuizione alla base dei modelli di ragionamento deriva dalle prime ricerche che dimostrano che la semplice aggiunta della frase "think step by step" migliora significativamente i risultati del modello.i Ricerche successive di Google DeepMind hanno teorizzato che l'aumento del calcolo in tempo di test (la quantità di risorse utilizzate per generare un output) potrebbe migliorare le prestazioni del modello tanto quanto l'aumento del calcolo in tempo di addestramento (le risorse utilizzate per addestrare un modello).

Sebbene i modelli di ragionamento siano più lenti e costosi (bisogna comunque generare e pagare tutti i token usati per "pensare" alla risposta finale e quei token riducono la finestra contestuale disponibile), rappresentano l'avanguardia delle prestazioni sin dal rilascio di o1 da parte di OpenAI. In particolare, l'enfasi sui modelli di addestramento per dare priorità alla pianificazione e alla previdenza li ha resi abili in determinate attività che coinvolgono problemi matematici e di ragionamento complessi, precedentemente inaccessibili agli LLM.

Per ulteriori informazioni sui modelli di ragionamento, dai un'occhiata a questa eccellente guida visiva di Maarten Grootendorst.
 

Perché DeepSeek-R1 è importante?

Le prestazioni di DeepSeek-R1 rivaleggiano con quelle dei modelli leader di settore, tra cui o1 di OpenAI e Claude 3.5 Sonnet di Anthropic, nelle attività di matematica, codifica e ragionamento. A prescindere da quale sia il modello "migliore", poiché è soggettivo e specifico in base alla situazione, si tratta di un'impresa notevole per un modello aperto. Tuttavia, gli aspetti più importanti di R1 sono le tecniche di addestramento che ha introdotto nella comunità open source.

Solitamente, il processo di conversione di un LLM standard da non addestrato a pronto per gli utenti finali è il seguente:

  1. Pre-addestramento: il modello apprende i modelli linguistici attraverso l'apprendimento auto-supervisionato.

  2. Fine-tuning supervisionato (SFT): il modello apprende come applicare questi modelli linguistici da esempi etichettati.

  3. Apprendimento per rinforzo (RL): il modello è guidato verso considerazioni più specifiche e astratte. Per i modelli standard orientati alla chat, questo passaggio di solito prevede l'apprendimento per rinforzo dal feedback umano (RLHF) per rendere le risposte più utili e innocue. Per i modelli di ragionamento, l'apprendimento per rinforzo viene utilizzato per incentivare un “processo mentale” più profondo e lungo.

Per i modelli di ragionamento proprietari come o1, i dettagli specifici di questa fase finale sono in genere un segreto commerciale gelosamente custodito. Tuttavia, DeepSeek ha pubblicato un documento tecnico che descrive nel dettaglio il suo processo.
 

Come funziona DeepSeek-R1

Nel primo tentativo di trasformare DeepSeek-v3 in un modello di ragionamento, DeepSeek ha saltato SFT ed è passato direttamente dal pre-addestramento a un semplice schema di apprendimento per rinforzo:

  • Query del modello: porre una domanda al modello. Chiedergli di produrre il suo processo mentale tra "<think>" e "</think>" e a produrre la sua risposta finale tra "<answer>" e "</answer>".

  • Premi per la precisione: Premia il modello per la qualità della sua risposta , ad esempio per l'esecuzione del codice ben generato.

  • Ricompense del formato: premia il modello per avere utilizzato correttamente il formato "<think>" e "<answer>" nelle risposte.

Il modello risultante (rilasciato come "DeepSeek-R1-Zero") ha imparato a generare catene di pensiero complesse e ad impiegare strategie di ragionamento che hanno prodotto prestazioni ragguardevoli in compiti matematici e di ragionamento. Il processo è stato semplice e ha evitato costosi dati etichettati per l'SFT. Purtroppo, come spiega il documento tecnico, "DeepSeek-R1-Zero presenta problematiche come la ripetizione infinita, la scarsa leggibilità e la miscelazione linguistica".

Per addestrare il successore di R1-Zero, DeepSeek-R1, DeepSeek ha modificato il processo:

  1. Ha iniziato con un SFT convenzionale per evitare una "partenza a freddo"

  2. Ha usato l'apprendimento per rinforzo in stile R1-Zero, con un termine di ricompensa aggiuntivo per evitare la mescolanza linguistica

  3. Ha utilizzato il modello RL-tuned risultante (e il modello base DeepSeek-V3) per generare altri 800.000 esempi di SFT

  4. Ha aggiunto più SFT

  5. Ha aggiunto ulteriore apprendimento per rinforzo in stile R1-Zero

  6. Ha utilizzato l'apprendimento per rinforzo con feedback umano (RLHF) convenzionale RLHF

Tuttavia, questo processo di fine-tuning rappresenta solo metà della storia. L'altra metà è il modello base per R1: DeepSeek-V3.

Cos'è DeepSeek-V3?

DeepSeek-v3, la dorsale di DeepSeek-R1, è un modello linguistico mixture of experts (MoE) di solo testo con 671 miliardi di parametri. In particolare, per le attività di matematica, ragionamento e codifica, è probabilmente l'LLM open source più capace disponibile a febbraio 2025. Soprattutto, è significativamente più veloce ed economico da utilizzare rispetto ad altri LLM leader di settore.

671 miliardi di parametri ne fanno un modello enorme . Per fare un paragone, quando Meta ha rilasciato Llama 3.1 405B, che è il 40% più piccolo di DeepSeek-V3, nel luglio 2024, l'annuncio ufficiale lo ha descritto come "il foundation model disponibile apertamente più grande e capace al mondo".ii Il modello ChatGPT originale, GPT-3.5, aveva 175 miliardi di parametri. Vale la pena notare che la maggior parte dei principali sviluppatori, tra cui OpenAI, Anthropic e Google, non divulga il conteggio dei parametri dei propri modelli proprietari.

Un numero maggiore di parametri aumenta in genere la "capacità" di conoscenza e complessità di un modello. Più parametri significano più modi per regolare il modello, il che significa una maggiore capacità di adattarsi alle minuzie dei dati di addestramento. Tuttavia, l'aumento del numero di parametri di un modello aumenta anche i requisiti computazionali, rendendolo più lento e più costoso.

Perché quindi DeepSeek-V3 (e, di conseguenza, DeepSeek-R1) è veloce ed economico? La risposta risiede principalmente nell'architettura mixture of experts e nel modo in cui DeepSeek l'ha modificata.
 

Cos'è un modello di mixture of experts (MoE)?

Un'architettura mixture of experts (MoE) divide i livelli di una rete neurale in sottoreti separate (o reti di esperti) e aggiunge una gating network che indirizza i token a selezionare degli “esperti”. Durante l'addestramento, ogni "esperto" alla fine diventa specializzato per un tipo specifico di token; ad esempio, un esperto potrebbe imparare a specializzarsi nella punteggiatura mentre un altro gestisce le preposizioni, e la gating network impara a indirizzare ogni token agli esperti più adatti.

Anziché attivare tutti i parametri del modello per ogni token, un modello MoE attiva solo gli "esperti" più adatti a quel token. DeepSeek-V3 ha un numero totale di parametri pari a 671 miliardi, ma ha un numero di parametri attivi di soli 37 miliardi. In altre parole, utilizza solo 37 miliardi dei suoi 671 miliardi di parametri per ogni token che legge o emette.

Se fatto bene, questo approccio MoE bilancia la capacità del conteggio totale dei parametri con l'efficienza del conteggio dei parametri attivi. In generale, questo spiega come DeepSeek-V3 offra sia le funzionalità di un modello enorme che la velocità di uno più piccolo.

I MoE hanno attirato molta attenzione quando Mistral AI ha rilasciato Mixtral 8x7B alla fine del 2023 e si diceva che GPT-4 fosse un MoE. Sebbene alcuni fornitori di modelli, in particolare IBM Granite, Databricks, Mistral e DeepSeek, abbiano da allora continuato a lavorare sui modelli MoE, molti continuano a concentrarsi sui tradizionali modelli "densi".

Quindi, se sono così eccezionali, perché i MoE non sono più diffusi? Ci sono 2 semplici spiegazioni:

  • Poiché i MOE sono più complessi, sono anche più difficili da addestrare e mettere a punto.

  • Sebbene l'architettura MoE riduca i costi di calcolo, non riduce i costi di memoria: anche se non tutti i parametri verranno attivati contemporaneamente, è comunque necessario memorizzare tutti quei parametri in memoria nel caso in cui siano attivati per un determinato token. Pertanto, i MOE richiedono tanta RAM quanto i modelli ad alta densità della stessa dimensione, creando un notevole rallentamento.

Perché il MoE di DeepSeek è unico?

DeepSeek-V3 è caratterizzato da una serie di modifiche ingegneristiche intelligenti, apportate all'architettura MoE di base, che ne aumentano la stabilità, diminuendo l'utilizzo della memoria e riducendo ulteriormente i requisiti di calcolo. Alcune di queste modifiche sono state introdotte nel suo predecessore, DeepSeek-V2, nel maggio 2024. Ecco 3 innovazioni degne di nota:

Multi-head Latent Attention (MLA)

Il meccanismo di attenzione che alimenta gli LLM prevede un numero enorme di moltiplicazioni di matrici (spesso abbreviate in "matmul" nei diagrammi) per calcolare come ogni token si relaziona con gli altri. Tutti questi calcoli intermedi devono essere salvati nella memoria via via che ci si sposta dall'input all'output finale.

La Multi-head latent attention (MLA), introdotta per per la prima volta in DeepSeek-v2, "scompone" ogni matrice in 2 matrici più piccole. In questo modo si raddoppia il numero di moltiplicazioni, ma si riduce notevolmente la dimensione di tutti i dati da memorizzare. In altre parole, riduce i costi di memoria (aumentando al contempo i costi computazionali), il che è ottimo per i MoE, dal momento che hanno già bassi costi computazionali (ma alti costi di memoria).

Addestramento in FP8 (virgola mobile a 8 bit)

In breve: i valori specifici di ciascun parametro in DeepSeek-V3 sono rappresentati con meno punti decimali del solito. Ciò riduce la precisione, ma aumenta la velocità e riduce ulteriormente l'utilizzo della memoria. Solitamente, i modelli vengono addestrati con una precisione maggiore, spesso 16 o 32 bit, e poi quantizzati a FP8.

Previsione multi-token (MTP)

La previsione multi-token è ciò che suggerisce il suo nome: invece di prevedere un solo token alla volta, il modello prevede preventivamente anche alcuni dei token successivi, anche se questo è più facile a dirsi che a farsi.

 

DeepSeek-R1 è stato creato con soli 5,5 milioni di dollari?

No. Si dice che DeepSeek abbia speso circa 5,576 milioni di dollari per il pre-addestramento finale di DeepSeek-v3. Tuttavia, questa cifra è stata estrapolata dal contesto.

DeepSeek non ha annunciato quanto ha speso per i dati e i calcoli necessari per produrre DeepSeek-R1. La cifra ampiamente riportata di “6 milioni di USD” riguarda solo DeepSeek-V3.

Inoltre, citare solo il costo finale del periodo di pre-addestramento è fuorviante. Come ha dichiarato Kate Soule, Director of Technical Product Management for Granite di IBM, in un episodio del podcast Mixture of Experts: "È come dire che se voglio correre una maratona, l'unica distanza che percorrerò è [quella] di 26,2 miglia. La realtà è che ti addestrerai per mesi, praticando, correndo centinaia o migliaia di miglia, fino a quella gara".

Anche il documento DeepSeek-v3 chiarisce che 5,576 milioni di dollari sono solo una stima di quanto costerebbe l'addestramento finale in termini di prezzi medi di noleggio per le GPU NVIDIA H800. Esclude tutti i costi di ricerca, sperimentazione e dati precedenti. Esclude inoltre la loro effettiva infrastruttura di addestramento: un rapporto di SemiAnalysis stima che DeepSeek abbia investito oltre 500 milioni di dollari in GPU dal 2023, oltre agli stipendi dei dipendenti, le strutture e altre spese aziendali tipiche.

Sia chiaro, spendere solo 5,576 milioni di dollari per un'attività di pre-addestramento per un modello di quelle dimensioni e capacità è comunque impressionante. Per fare un confronto, secondo lo stesso rapporto di SemiAnalysis, il pre-addestramento di Claude 3.5 Sonnet di Anthropic, un altro candidato all'LLM più forte del mondo (all'inizio del 2025), è costato decine di milioni di dollari. La stessa efficienza di progettazione consente inoltre di utilizzare DeepSeek-V3 a costi (e latenza) notevolmente inferiori rispetto alla concorrenza.

Tuttavia, l'idea di essere giunti a un drastico cambio di paradigma, o che gli sviluppatori di AI in Occidente abbiano speso miliardi di dollari senza motivo e che ora si possano sviluppare nuovi modelli all'avanguardia con costi complessivi bassi, è fuorviante.

 

Modelli DeepSeek-R1-distill

DeepSeek-R1 è notevole, ma è di fatto una versione di DeepSeek-v3, che è un modello enorme. Nonostante la sua efficienza, per molti casi d'uso è ancora troppo grande e richiede molta RAM.

Piuttosto che sviluppare versioni più piccole di DeepSeek-v3 e poi perfezionare quei modelli, DeepSeek ha adottato un approccio più diretto e replicabile: utilizzare la distillazione della conoscenza su modelli open source più piccoli delle famiglie di modelli Qwen e Llama per farli comportare come DeepSeek-R1. Hanno chiamato questi modelli “DeepSeek-R1-Distill”.

La distillazione della conoscenza, in sostanza, è una forma astratta di compressione del modello. Invece di addestrare un modello direttamente sui dati di addestramento, la distillazione della conoscenza addestra un "modello studente" per emulare il modo in cui un "modello insegnante" più ampio elabora tali dati di addestramento. I parametri del modello studente vengono regolati per produrre non solo gli stessi output del modello insegnante, ma anche lo stesso processo mentale, i calcoli intermedi, le previsioni o le fasi della catena di pensiero, dell'insegnante.

Nonostante i nomi, i modelli "DeepSeek-R1-Distill" non sono in realtà DeepSeek-R1. Sono versioni dei modelli Llama e Qwen ottimizzate per comportarsi come DeepSeek-R1. Sebbene gli R1-distills colpiscano per le dimensioni, non corrispondono al "vero" DeepSeek-R1.

Quindi, se una determinata piattaforma dichiara di offrire o utilizzare "R1", è opportuno confermare di quale "R1" si stia parlando.

 

Informazioni fuorvianti su DeepSeek

Tra l'interesse pubblico senza precedenti e i dettagli tecnici poco comprensibili, il clamore intorno a DeepSeek e ai suoi modelli ha portato a travisare in modo significativo alcuni fatti fondamentali.  

Ad esempio, all'inizio di febbraio sono state pubblicate molte storie su come un team di UC Berkeley abbia apparentemente "ricreato" o "replicato" DeepSeek-R1 per soli 30 USD.iii iv v È un titolo molto intrigante con implicazioni incredibili, se fosse vero, tuttavia è estremamente impreciso sotto molti aspetti:

  • Il team di Berkeley non ha ricreato la tecnica di fine-tuning di R1. Hanno replicato la tecnica di fine-tuning del solo RL di R1-Zero, secondo le linee guida del documento tecnico di DeepSeek.

  • Il team di Berkeley non ha eseguito il fine-tuning di DeepSeek-V3, il modello da 671B parametri che fa da spina dorsale a DeepSeek-R1 (e DeepSeek-R1-Zero). Il team ha invece messo a punto piccoli modelli Qwen2.5 open source (ottenendo il successo con le varianti 1.5B, 3B e 7B). Naturalmente, è molto più economico mettere a punto un modello di parametri da 1,5 B rispetto a un modello di parametri da 671 B, dato che il primo è letteralmente centinaia di volte più piccolo.

  • Il team ha testato le prestazioni dei modelli in miniatura ispirati a R1-Zero solo su un singolo compito specifico per la matematica. Come ha chiarito l'ingegnere Jiaya Pan, l'esperimento non ha toccato il codice né il ragionamento generale.

In altre parole, il team dell'UC Berkeley non ha ricreato DeepSeek-R1 per 30 dollari, bensì ha semplicemente dimostrato che l'approccio di fine-tuning sperimentale di DeepSeek, basato solo sull'apprendimento per rinforzo, R1-Zero, può essere usato per insegnare a piccoli modelli come risolvere complessi problemi matematici. Il lavoro svolto da questo team è interessante, notevole e importante. Tuttavia, senza una comprensione dettagliata del modello di DeepSeek, per la quale molti lettori (e scrittori) non hanno tempo, è facile farsi un'idea sbagliata.

 

Cosa potrebbe succedere ora?

Via via che gli sviluppatori e gli analisti dedicano più tempo a questi modelli, l'hype probabilmente si calmerà un po'. Proprio come un test del QI da solo non è un modo adeguato per assumere dipendenti, i risultati grezzi dei benchmark non sono sufficienti per determinare se un modello sia il "migliore" per il suo caso d'uso specifico. I modelli, come le persone, hanno punti di forza e punti deboli intangibili che richiedono tempo per essere compresi.

Ci vorrà del tempo per determinare l'efficacia e la praticità a lungo termine di questi nuovi modelli DeepSeek in un contesto formale. Come riportato da WIRED a gennaio, DeepSeek-R1 ha ottenuto risultati insoddisfacenti nei test di sicurezza e jailbreaking. Sarà probabilmente necessario affrontare queste preoccupazioni per rendere R1 o V3 sicuri per la maggior parte degli utilizzi aziendali.

Nel frattempo arriveranno nuovi modelli che continueranno a spingere l'innovazione al limite. Basti pensare che GPT-4o e Claude 3.5 Sonnet, i principali modelli closed-source con cui vengono confrontati i modelli di DeepSeek, sono stati rilasciati per la prima volta la scorsa estate, ovvero una vita fa in termini di AI generativa. Dopo il rilascio di R1, Alibaba ha annunciato l'imminente rilascio di un enorme modello MoE open source, Qwen2.5-Max, che secondo l'azienda batte DeepSeek-v3 su tutta la linea.vi Altri fornitori probabilmente seguiranno questo esempio.

In particolare, il settore e la community open source sperimenteranno le nuove entusiasmanti idee che DeepSeek ha introdotto, integrandole o adattandole per nuovi modelli e tecniche. Il bello dell'innovazione open source è che è come una marea che si alza e solleva tutte le barche.

AI Academy

Diventa un esperto di AI

Acquisisci le conoscenze necessarie per dare priorità agli investimenti nell'AI alla base della crescita aziendale. Inizia oggi stesso con la nostra AI Academy gratuita e guida il futuro dell'AI nella tua organizzazione.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live