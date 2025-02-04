La carrera armamentística de la IA ya no es solo para los gigantes multimillonarios.
Empresas como OpenAI, Google y Microsoft han dominado los titulares en lo que respecta al debate sobre la inteligencia artificial. Sin embargo, una nueva ola de innovación de código abierto, ejemplificada por el reciente modelo DeepSeek, está nivelando el campo de juego. El éxito del modelo subraya una tendencia creciente: las empresas más pequeñas pueden desafiar cada vez más a los actores más destacados de la IA.
"Esto no hace más que reforzar cosas que ya sabíamos", afirma David D. Cox, Vicepresidente de modelos de IA en IBM Research. "No pensamos que se necesiten miles de millones de dólares para construir grandes modelos. DeepSeek es una prueba de que los enfoques de código abierto se están poniendo al día, y eso es algo bueno".
Los investigadores de IA están en una carrera constante para crear modelos más potentes, sin aumentar los costes de cálculo. Con la creciente preocupación por las limitaciones del hardware y el consumo de energía, las innovaciones que mejoran la eficiencia se están volviendo tan importantes como las ganancias brutas de rendimiento.
"Durante demasiado tiempo, la carrera de la IA ha sido un juego de escala en el que modelos más grandes significaban mejores resultados", escribió el CEO de IBM, Arvind Krishna, en LinkedIn. "Pero no existe ninguna ley de la física que dicte que los modelos de IA deban seguir siendo grandes y caros. El coste de la formación y la inferencia no es más que otro desafío tecnológico que resolver".
El avance de DeepSeek en la eficiencia de la IA proviene de una nueva técnica llamada Multi-Head Latent Attention (MLA). Este método cambia la forma en que los modelos de IA manejan y almacenan su información. La mejora clave es que MLA reduce el tamaño de algo llamado caché KV, que es esencial para que los sistemas de IA funcionen de manera eficiente. Según Cox, esto hace que los sistemas de IA utilicen menos memoria y les permite crecer más fácilmente.
"Hicieron un trabajo realmente bueno", señala Cox. "Reducir el tamaño de la caché KV es crucial porque permite que los modelos se ejecuten más rápido y utilicen menos recursos".
Bajo el capó de DeepSeek, los avances se multiplicaron. Prasanna Sattigeri, científico principal de investigación en IBM Research, señaló que las innovaciones de la empresa giraban en torno a la eficiencia y las mejoras arquitectónicas.
"Optimizaron la comunicación entre las GPU, que suele ser un cuello de botella en el entrenamiento de IA a gran escala", afirma Sattigeri. "Esto les permitió entrenar de manera efectiva utilizando hardware antiguo, una hazaña de ingeniería notable".
Pero como cualquier proyecto de ingeniería ambicioso, este salto adelante conllevó costes. DeepSeek también utilizó técnicas de aprendizaje por refuerzo (RL), similares a las utilizadas en el enfoque de escalado de inferencia o1 de OpenAI. Este método refina el rendimiento del modelo reforzando los outputs exitosos en múltiples iteraciones. Sin embargo, Cox señala que la implementación de DeepSeek llevó a compensaciones, como una menor capacidad de llamada a funciones y preocupaciones sobre la alineación de seguridad .
"Es un gran paso adelante, pero aún hay algunos aspectos que pulir", afirma. "El modelo es fantástico para las tareas de razonamiento, pero otras áreas se han visto afectadas".
Aunque los avances facilitan la creación de grandes modelos de IA, sigue existiendo un reto mayor: la enorme potencia informática necesaria para seguir siendo competitivos. Xia "Ben" Hu, profesor asociado de informática en la Universidad de Rice, reconoce que DeepSeek es un paso adelante más eficiente en el desarrollo de la IA. Sin embargo, señala que esto no cambia de manera radical la dinámica general de poder en la infraestructura de IA, donde el acceso a amplios recursos informáticos sigue determinando quién lidera el proceso.
"DeepSeek está respaldado por un gran fondo de riesgo en China y tiene acceso a decenas de miles de GPU", dice Hu. "Esa sigue siendo una barrera importante para muchas startups más pequeñas".
Sin embargo, Hu predice que el cambio más significativo probablemente se produzca en la adopción de la IA empresarial. "Los sectores tradicionales, como el del petróleo y el gas y el manufacturero , se han mostrado reacios a desarrollar sus propias soluciones de IA", afirma. “Con la reducción de costes y la mejora de los modelos de código abierto, las empresas que antes dependían de servicios externos de IA ahora están considerando desarrollar modelos internos adaptados a sus necesidades específicas”.
Las implicaciones van más allá de un modelo. Con la multiplicación de los proyectos de IA de código abierto, las startups más pequeñas pueden acceder ahora a herramientas que antes requerían centros de datos masivos y presupuestos enormes. Cox dijo que OpenAI y sus homólogos han proyectado durante mucho tiempo un "aire de inevitabilidad": que solo aquellos con mucho dinero podrían liderar en IA. Pero a medida que surgen DeepSeek y otros modelos, esa idea empieza a quebrarse.
"Estamos viendo un cambio en el que una gama mucho más amplia de actores puede competir en este espacio", afirma Cox. "No es que cualquiera que tenga cinco millones de dólares pueda ponerse manos a la obra y crear un modelo de primera categoría de la noche a la mañana, pero ¿y las pymes con buena financiación? Por supuesto que sí".
Los investigadores también se centran en la eficiencia más que en la potencia computacional bruta. Cox y su equipo de investigación se han centrado en el enfoque Mixture of Experts, que permite a la IA ser más selectiva en el uso de los recursos de procesamiento.
"Mixture of Experts es solo una pieza del rompecabezas; hay mucho más por venir", afirma, sugiriendo que el futuro de la IA puede depender menos del acceso a chips avanzados y más de formas más inteligentes de utilizar el hardware existente.
Sattigeri destacó una de esas innovaciones: el auge de los datos sintéticos, o información generada artificialmente que imita los datos del mundo real. "Con modelos como DeepSeek, estamos viendo una transición hacia el uso de datos sintéticos generados por IA para refinar y entrenar modelos de manera más eficiente", dice. "Esto podría reducir significativamente los costes y hacer que la IA de alta calidad sea accesible para más actores".
La creciente accesibilidad del desarrollo de la IA plantea nuevos interrogantes sobre el futuro de la competencia. ¿Seguirán la infraestructura y la potencia de cálculo determinando a los ganadores, o la capacidad de innovar se convertirá rápidamente en el activo más valioso? Según Cox, es una mezcla de ambos.
"Sigue siendo necesario contar con una infraestructura sólida y con grandes talentos, pero la ventaja competitiva de OpenAI y Google no es tan grande como quieren hacer creer", afirma. “Los secretos no permanecen en secreto en este campo. Las ideas se propagan y la gente se mueve. Estamos viendo una rápida convergencia".
Hu añadió que el desarrollo de la IA aún requiere cuatro componentes críticos: "Lo llamo el modelo ABCD: algoritmos, big data, computación y distribución", dice. “Las mejores empresas de IA tienen los cuatro. DeepSeek está haciendo mella en los dos primeros, pero la computación y la distribución siguen dando una ventaja a los principales actores".
El creciente número de empresas que utilizan la IA gracias a técnicas más eficaces no es solo una cuestión de competencia: podría desencadenar una revolución creativa. Si más empresas pueden desarrollar la IA sin presupuestos multimillonarios, la innovación se basará en diversas perspectivas y no en un puñado de agendas corporativas, afirma Cox. Eso significa más soluciones de IA a medida y modelos especializados, así como un mercado más dinámico.
"La innovación ocurrirá más rápido, de una manera más segura e inclusiva", dijo Cox. “Si moveremos más allá de una monocultura donde unos pocos actores establecen las condiciones, veremos un florecimiento de enfoques diferentes”.
Cox dijo que para IBM, que se ha comprometido con la IA de código abierto, el ascenso de DeepSeek valida su enfoque. “En realidad es algo bueno para nosotros”, dice. “Demuestra que los modelos abiertos pueden funcionar y que existe demanda para ellos. Cuanta más gente contribuya, más nos beneficiamos todos".
Hu señala que, mientras las empresas más pequeñas están ganando terreno, los grandes actores se están adaptando. "Amazon, Meta y Microsoft no se sentarán y dejarán que el código abierto se coma su almuerzo", afirma. “Están trabajando arduamente para descubrir cómo integrar modelos de código abierto y, al mismo tiempo, mantener el control sobre la infraestructura y los datos”.
¿Qué sucede a continuación? Cox y otros expertos afirman que el desarrollo de IA no será un caos total, pero está claro que las empresas más pequeñas ya no están a merced de los gigantes tecnológicos. Las herramientas de código abierto están acelerando el progreso, y son las empresas que adoptan este cambio las que obtienen el mayor beneficio.
"Esto forma parte de una tendencia actual", afirma Cox. "No comenzó con DeepSeek y no terminará con él. Pero, sin duda, ha despertado a algunas personas".
Descubra IBM Granite, nuestra familia de modelos de IA abiertos, de alto rendimiento y fiables, diseñados para la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Busque artículos, blogs y tutoriales de IBM Developer y profundice en ellos para ampliar sus conocimientos sobre los LLM.
Aprenda a impulsar continuamente a los equipos para que mejoren el rendimiento de los modelos y superen a la competencia utilizando las últimas técnicas e infraestructuras de IA.
Explore el valor de los modelos fundacionales de nivel empresarial que proporcionan confianza, rendimiento y beneficios rentables a todos los sectores.
Aprenda a incorporar la IA generativa, el machine learning y los modelos fundacionales en sus operaciones empresariales para mejorar el rendimiento.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.