Casi un año después de que el modelo R1 de bajo coste y alto rendimiento de DeepSeek sacudiera tanto a Silicon Valley como a Wall Street, el laboratorio chino de IA está a punto de revolucionar el sector de la IA una vez más. Esta vez, DeepSeek ha lanzado un nuevo marco que podría hacer que el entrenamiento de modelos de lenguaje de gran tamaño (LLM) sea mucho más eficiente, estable y escalable. Quizá lo más importante es que esto reduce el coste de la preentrenación, lo que desbloquea el poder de los LLM para empresas pequeñas y desarrolladores individuales.

“Con esta innovación, DeepSeek está diciendo '¿cómo puedo obtener más por mi dinero durante el entrenamiento previo?'”, dijo el ingeniero distinguido de IBM, Chris Hay, en una entrevista con IBM® Think. “El entrenamiento de modelos es la parte cara”.

Los investigadores de DeepSeek probaron esta nueva arquitectura, denominada hiperconexiones con restricciones de variedad (mHC), en modelos con tres mil millones, nueve mil millones y 27 mil millones de parámetros. Descubrieron que los modelos escalaban sin añadir una carga computacional significativa o inestabilidades, ambas que suelen aumentar al mismo tiempo que la escalabilidad.