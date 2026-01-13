Quasi un anno dopo che il modello R1 a basso costo e alte prestazioni di DeepSeek ha scosso sia la Silicon Valley che Wall Street, il laboratorio cinese di AI è pronto a scuotere nuovamente il settore dell'AI. Questa volta, DeepSeek ha rilasciato un nuovo framework che potrebbe rendere l'addestramento dei modelli linguistici di grandi dimensioni (LLM) molto più efficiente, stabile e scalabile. Forse la cosa più importante è che questo riduce i costi dell'addestramento preliminare, il che rende gli LLM accessibili anche alle aziende più piccole e ai singoli sviluppatori.
"Con questa innovazione, DeepSeek si sta chiedendo come guadagnare di più durante il pre-addestramento", ha dichiarato Chris Hay, Distinguished Engineer di IBM, in un'intervista con IBM Think. "L'addestramento dei modelli è la parte più costosa".
I ricercatori di DeepSeek hanno testato questa nuova architettura, chiamata Manifold-Constrained Hyper-Connections (mHC), su modelli con tre miliardi, nove miliardi e 27 miliardi di parametri. Hanno riscontrato che i modelli scalavano senza aggiungere un carico computazionale significativo né instabilità, che solitamente aumentano entrambi con la scalabilità.
In genere, i laboratori di AI di frontiera si affidano alla "forza bruta" per migliorare l'AI, ha detto Kaoutar El Maghraoui, un Principal Research Scientist di IBM, nell'ultimo episodio del podcast Mixture of Experts. Questo significa "aggiungere più dati, più potenza di calcolo, più parametri", ha affermato. Ma questo approccio è "sempre più inefficiente e accessibile solo a poche grandi aziende".
El Maghraoui ha sottolineato che l'architettura mHC di DeepSeek potrebbe rivoluzionare il pre-addestramento dei modelli. "Si tratta di scalare l'AI in modo più intelligente, piuttosto che semplicemente ingrandirla", ha affermato. "È un modo più intelligente di progettare questi modelli che funzionerebbe meglio anche per l'hardware". mHC può anche integrarsi facilmente con l'hardware personalizzato di un'azienda, ha detto El Maghraoui, rendendolo un'opzione potenzialmente attraente per le aziende in cerca di un'AI economica. A titolo di esempio, ha citato gli acceleratori hardware specializzati di IBM, progettati per accelerare i workload di AI, machine learning e deep learning per i clienti aziendali on-premise.
In un post su LinkedIn, Pierre-Carl Langlais, cofondatore della startup di AI francese Pleias, ha affermato che il vero significato del documento va oltre la semplice dimostrazione della scalabilità di mHC. La "flessibilità effettiva" è la capacità di DeepSeek di riprogettare ogni dimensione dell'ambiente di addestramento, ha scritto. "Questo è ciò che rende [DeepSeek] un laboratorio di frontiera".
Per Hay, il fatto che DeepSeek continui a mantenere open source la sua nuova soluzione è notevole, perché rende l'AI più accessibile a un pubblico più ampio. "Apprezzo il fatto che introducano innovazioni, le aprano al mondo, permettano alle persone di provarle e poi portino con sé l'intero campo", ha affermato.
Mentre i leader dell'AI nelle organizzazioni più piccole affrontano le complessità dell'implementazione di soluzioni AI economiche, innovazioni come il framework mHC di DeepSeek rendono più facile accedere a potenti modelli di base che storicamente erano disponibili solo per le aziende con portafogli molto più grandi. Riducendo in modo significativo il costo del pre-addestramento degli LLM e rendendo l'AI più accessibile, le scoperte di DeepSeek sono destinate a rivoluzionare il panorama dell'AI per le piccole e medie imprese.
