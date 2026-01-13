Casi un año después de que el modelo R1 de bajo coste y alto rendimiento de DeepSeek sacudiera tanto a Silicon Valley como a Wall Street, el laboratorio chino de IA está a punto de revolucionar el sector de la IA una vez más. Esta vez, DeepSeek ha lanzado un nuevo marco que podría hacer que el entrenamiento de modelos de lenguaje de gran tamaño (LLM) sea mucho más eficiente, estable y escalable. Quizá lo más importante es que esto reduce el coste de la preentrenación, lo que desbloquea el poder de los LLM para empresas pequeñas y desarrolladores individuales.
“Con esta innovación, DeepSeek está diciendo '¿cómo puedo obtener más por mi dinero durante el entrenamiento previo?'”, dijo el ingeniero distinguido de IBM, Chris Hay, en una entrevista con IBM® Think. “El entrenamiento de modelos es la parte cara”.
Los investigadores de DeepSeek probaron esta nueva arquitectura, denominada hiperconexiones con restricciones de variedad (mHC), en modelos con tres mil millones, nueve mil millones y 27 mil millones de parámetros. Descubrieron que los modelos escalaban sin añadir una carga computacional significativa o inestabilidades, ambas que suelen aumentar al mismo tiempo que la escalabilidad.
Por lo general, los laboratorios de IA fronterizos se basan en la “fuerza bruta” para mejorar la IA, dijo Kaoutar El Maghraoui, científico de investigación principal de IBM, en el último episodio del pódcast Mixture of Experts. Eso significa “agregar más datos, más potencia de cálculo, más parámetros”, dijo. Pero ese enfoque es “cada vez más ineficiente y solo asequible para unas pocas grandes empresas”.
El Maghraoui destacó que la arquitectura mHC de DeepSeek podría revolucionar el preentrenamiento de modelos. “Es escalar la IA de forma más inteligente en lugar de simplemente hacerla más grande”, dijo. “Es una forma más inteligente de diseñar estos modelos que también funcionarían mejor para el hardware”. La mHC también puede integrarse fácilmente con el hardware personalizado de una empresa, dijo El Maghraoui, lo que lo convierte en una opción potencialmente atractiva para las empresas que buscan una IA rentable. Como ejemplo, señaló los aceleradores de hardware especializados de IBM, diseñados para acelerar las cargas de trabajo de IA, machine learning y deep learning para clientes empresariales en las instalaciones.
En una publicación de LinkedIn, Pierre-Carl Langlais, cofundador de la startup francesa de IA Pleias, sugirió que la verdadera importancia del artículo va más allá de demostrar la escalabilidad de mHC. La “flexibilidad real” es la capacidad de DeepSeek para rediseñar cada dimensión del entorno de entrenamiento, escribió. “Eso es lo que hace que [DeepSeek] sea un laboratorio de vanguardia”.
Para Hay, el hecho de que DeepSeek mantenga el código abierto de sus nuevos trabajos es notable porque hace que la IA sea más accesible a un público más amplio. “Aprecio que propongan innovaciones, las abran al mundo, permitan que la gente las pruebe y luego involucren a todo el sector”, dijo.
A medida que los líderes en IA de las organizaciones más pequeñas se enfrentan a las complejidades de implementar soluciones de IA rentables, innovaciones como el marco mHC de DeepSeek les facilitan el acceso a potentes modelos fundacionales que, históricamente, solo estaban al alcance de empresas con presupuestos mucho más elevados. Al reducir significativamente el coste del preentrenamiento de los LLM y hacer que la IA sea más accesible, los avances de DeepSeek están preparados para revolucionar el panorama de la IA para las pequeñas y medianas empresas.
