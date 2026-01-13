Casi un año después de que el modelo R1 de bajo costo y alto rendimiento de DeepSeek sacudiera tanto Silicon Valley como Wall Street, el laboratorio chino de IA está listo para revolucionar de nuevo la industria de la IA. Esta vez, DeepSeek lanzó un nuevo marco que podría hacer que el entrenamiento de modelos de lenguaje grandes (LLM) sea mucho más eficiente, estable y escalable. Quizás lo más importante es que esto reduce el costo del preentrenamiento, lo que desbloquea el poder de los LLM para las empresas más pequeñas y los desarrolladores individuales.

“Con esta innovación, DeepSeek está diciendo '¿cómo puedo obtener más beneficios por mi parte durante el preentrenamiento?'”, dijo el distinguido ingeniero de IBM Chris Hay en una entrevista con IBM Think. “El entrenamiento de modelos es la parte costosa”.

Los investigadores de DeepSeek probaron esta nueva arquitectura, llamada Manifold-Constrained Hyper-Connections (mHC), en modelos con tres mil millones, nueve mil millones y 27 mil millones de parámetros. Descubrieron que los modelos se escalaban sin agregar una carga computacional o inestabilidades significativas, las cuales generalmente aumentan junto con el escalado.