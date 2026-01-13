Casi un año después de que el modelo R1 de bajo costo y alto rendimiento de DeepSeek sacudiera tanto Silicon Valley como Wall Street, el laboratorio chino de IA está listo para revolucionar de nuevo la industria de la IA. Esta vez, DeepSeek lanzó un nuevo marco que podría hacer que el entrenamiento de modelos de lenguaje grandes (LLM) sea mucho más eficiente, estable y escalable. Quizás lo más importante es que esto reduce el costo del preentrenamiento, lo que desbloquea el poder de los LLM para las empresas más pequeñas y los desarrolladores individuales.
“Con esta innovación, DeepSeek está diciendo '¿cómo puedo obtener más beneficios por mi parte durante el preentrenamiento?'”, dijo el distinguido ingeniero de IBM Chris Hay en una entrevista con IBM Think. “El entrenamiento de modelos es la parte costosa”.
Los investigadores de DeepSeek probaron esta nueva arquitectura, llamada Manifold-Constrained Hyper-Connections (mHC), en modelos con tres mil millones, nueve mil millones y 27 mil millones de parámetros. Descubrieron que los modelos se escalaban sin agregar una carga computacional o inestabilidades significativas, las cuales generalmente aumentan junto con el escalado.
Por lo general, los laboratorios fronterizos de IA se basan en la “fuerza bruta” para mejorar la IA, según afirmó Kaoutar El Maghraoui, científico de investigación principal de IBM, en el episodio más reciente del podcast Mixture of Experts. Eso significa “agregar más datos, más poder, más parámetros”, señaló. Pero ese enfoque es “cada vez más ineficiente y solo asequible para unas pocas grandes empresas”.
El Maghraoui enfatizó que la arquitectura mHC de DeepSeek podría revolucionar el preentrenamiento de modelos. “Es escalar la IA de manera más inteligente en lugar de simplemente hacerla más grande”, agregó. “Es una forma más inteligente de diseñar estos modelos que también funcionaría mejor para el hardware”. El Maghraoui comentó que mHC también puede integrarse fácilmente con el hardware personalizado de una empresa, lo que lo convierte en una opción potencialmente atractiva para las empresas que buscan una IA rentable. Como ejemplo, señaló los aceleradores de hardware especializados de IBM, diseñados para acelerar las cargas de trabajo de IA, machine learning y aprendizaje profundo para clientes empresariales on premises.
Boletín de la industria
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
En una publicación de LinkedIn, Pierre-Carl Langlais, cofundador de la startup francesa de IA Pleias, sugirió que la verdadera importancia del artículo va más allá de demostrar la escalabilidad de mHC. El “verdadero beneficio” es la capacidad de DeepSeek de rediseñar cada dimensión del entorno de entrenamiento, escribió. “Eso es lo que hace que [DeepSeek] sea un laboratorio fronterizo”.
Para Hay, el hecho de que DeepSeek mantenga el código abierto de su nuevo trabajo es notable porque hace que la IA sea más accesible para una audiencia más amplia. “Aprecio que propongan innovaciones, las abran al mundo, dejen que la gente las pruebe y luego traigan todo el campo junto con ellos”, dijo.
A medida que los líderes de IA en organizaciones más pequeñas abordan las complejidades de implementar soluciones de IA rentables, innovaciones como la infraestructura mHC de DeepSeek les facilitan el acceso a modelos fundacionales poderosos que históricamente solo estaban disponibles para empresas con presupuestos mucho más grandes. Al reducir significativamente el costo del entrenamiento previo de los LLM y lograr que la IA sea más accesible, los avances de DeepSeek están destinados a revolucionar el panorama de la IA para pequeñas y medianas empresas.
Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.