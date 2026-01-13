Quasi un anno dopo che il modello R1 a basso costo e alte prestazioni di DeepSeek ha scosso sia la Silicon Valley che Wall Street, il laboratorio cinese di AI è pronto a scuotere nuovamente il settore dell'AI. Questa volta, DeepSeek ha rilasciato un nuovo framework che potrebbe rendere l'addestramento dei modelli linguistici di grandi dimensioni (LLM) molto più efficiente, stabile e scalabile. Forse la cosa più importante è che questo riduce i costi dell'addestramento preliminare, il che rende gli LLM accessibili anche alle aziende più piccole e ai singoli sviluppatori.

"Con questa innovazione, DeepSeek si sta chiedendo come guadagnare di più durante il pre-addestramento", ha dichiarato Chris Hay, Distinguished Engineer di IBM, in un'intervista con IBM Think. "L'addestramento dei modelli è la parte più costosa".

I ricercatori di DeepSeek hanno testato questa nuova architettura, chiamata Manifold-Constrained Hyper-Connections (mHC), su modelli con tre miliardi, nove miliardi e 27 miliardi di parametri. Hanno riscontrato che i modelli scalavano senza aggiungere un carico computazionale significativo né instabilità, che solitamente aumentano entrambi con la scalabilità.