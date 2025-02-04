La carrera armamentística de la IA ya no es solo para los gigantes multimillonarios.
Empresas como OpenAI, Google y Microsoft han dominado los titulares en lo que respecta a la conversación sobre inteligencia artificial. Sin embargo, una nueva ola de innovación de código abierto, ejemplificada por el reciente modelo DeepSeek,está nivelando el campo de juego. El éxito del modelo subraya una tendencia creciente: las empresas más pequeñas pueden desafiar cada vez más a los jugadores más destacados de la IA.
"Esto simplemente refuerza cosas que ya sabíamos", dice David D. Cox, vicepresidente de modelos de IA en IBM® Research. “No creemos que se necesiten miles y miles de millones de dólares para construir grandes modelos. DeepSeek es una prueba de que los enfoques de código abierto se están poniendo al día, y eso es algo bueno”.
Los investigadores de IA están en una carrera constante para hacer que los modelos sean más potentes, sin aumentar los costos computacionales. Con la creciente preocupación por las limitaciones de hardware y el consumo de energía, las innovaciones que mejoran la eficiencia se están volviendo tan importantes como las ganancias brutas de rendimiento.
“Durante demasiado tiempo, la carrera de IA ha sido un juego de escala donde modelos más grandes significaban mejores resultados”, escribió el director ejecutivo (CEO) de IBM, Arvind Krishna, en LinkedIn. Pero no existe ninguna ley de la física que dicte que los modelos de IA deban seguir siendo grandes y caros. El costo del entrenamiento y la inferencia es solo otro desafío tecnológico por resolver”.
El avance de DeepSeek en la eficiencia de la IA proviene de una nueva técnica llamada Multi-Head Latent Attention (MLA). Este método cambia la forma en que los modelos de IA manejan y almacenan su información. La mejora clave es que MLA reduce el tamaño de algo llamado caché KV, que es esencial para que los sistemas de IA funcionen de manera eficiente. Según Cox, esto hace que los sistemas de IA utilicen menos memoria y les permite crecer más fácilmente.
“Hicieron un muy buen trabajo aquí”, señala Cox. "Reducir el tamaño de la caché KV es crucial porque permite que los modelos se ejecuten más rápido y utilicen menos recursos".
Bajo el capó de DeepSeek, los avances se multiplicaron. Prasanna Sattigeri, una científica investigadora principal en IBM investigación, señaló que las innovaciones de la empresa tenían que ver con la eficiencia y las mejoras arquitectónicas.
"Optimizaron la comunicación entre las GPU, que a menudo es un cuello de botella en el entrenamiento de IA a gran escala", dice Sattigeri. "Esto les permitió entrenar de manera efectiva utilizando hardware más antiguo, una hazaña de ingeniería notable".
Pero como cualquier proyecto de ingeniería ambicioso, este salto adelante tuvo costos. DeepSeek también utilizó técnicas de aprendizaje por refuerzo (RL), similares a las utilizadas en el enfoque de escalado de inferencia o1 de OpenAI. Este método refina el rendimiento del modelo al reforzar los resultados exitosos en múltiples iteraciones. Sin embargo, Cox señala que la implementación de DeepSeek llevó a compensaciones, como una menor capacidad de llamada a funciones y preocupaciones sobre la alineación de seguridad .
"Es un gran paso adelante, pero hay algunas asperezas", dice. "El modelo es fantástico en tareas de razonamiento, pero otras áreas se vieron afectadas".
Aunque los avances facilitan la creación de grandes modelos de IA, sigue existiendo un desafío mayor: la enorme Power necesaria para seguir siendo competitivos. Xia "Ben" Hu, profesor asociado de informática en la Universidad de Rice, reconoce que DeepSeek es un paso adelante más eficiente en el desarrollo de la IA. Sin embargo, señala que esto no cambia fundamentalmente la dinámica general de poder en la infraestructura de IA, donde el acceso a vastos recursos informáticos sigue determinando quién lidera la carrera.
"DeepSeek está respaldado por un gran fondo de riesgo en China y tiene acceso a decenas de miles de GPU", dice Hu. “Eso sigue siendo una barrera importante para muchas startups más pequeñas”.
Sin embargo, Hu predice que el cambio más significativo probablemente se produzca en la adopción de la IA empresarial. "Las industrias tradicionales (petróleo y gas, fabricación) han dudado en desarrollar sus propias soluciones de IA", dice. “Con la disminución de los costos y la mejora de los modelos de código abierto, las empresas que alguna vez confiaban en servicios externos de IA ahora están considerando construir modelos internos adaptados a sus necesidades específicas”.
Las implicaciones van más allá de un solo modelo. Con la multiplicación de los proyectos de IA de código abierto, las pequeñas empresas emergentes ahora pueden acceder a herramientas que antes requerían enormes centros de datos y presupuestos gigantescos. Cox dijo que OpenAI y sus contrapartes han proyectado durante mucho tiempo un "aire de inevitabilidad": que solo aquellos con mucho dinero podrían liderar en IA. Pero a medida que surgen DeepSeek y otros modelos, esa noción comienza a resquebrajarse.
"Estamos viendo un cambio en el que una apertura mucho más amplia de jugadores puede competir en este espacio", dice Cox. “No es que cualquiera con 5 millones de dólares pueda acumular y construir un modelo de primer nivel de la noche a la mañana. ¿Pero las empresas emergentes y medianas empresas bien financiadas? Absolutamente”.
Los investigadores también se centran en la eficiencia más que en la potencia computacional bruta. Cox y su equipo de investigación se han centrado en el enfoque Mixture of Experts, que permite a la IA ser más selectiva sobre cómo utiliza los recursos de procesamiento.
"Mixture of Experts es solo una pieza del rompecabezas: hay mucho más por venir", dice, sugiriendo que el futuro de la IA puede depender menos del acceso a chips avanzados y más de formas más inteligentes de usar el hardware existente.
Sattigeri destacó una de esas innovaciones: el auge de los datos sintéticos, o información generada artificialmente que imita los datos del mundo real. "Con modelos como DeepSeek, estamos viendo un cambio hacia el uso de datos sintéticos generados por IA para refinar y entrenar modelos de manera más eficiente", dice. "Esto podría reducir significativamente los costos y hacer que la IA de alta calidad sea accesible para más jugadores".
La creciente accesibilidad del desarrollo de la IA plantea nuevas preguntas sobre el futuro de la competencia. ¿La infraestructura y la potencia informática seguirán determinando a los ganadores, o la capacidad de innovar rápidamente se convertirá en el activo más valioso? Según Cox, es una mezcla de ambos.
"Todavía se necesita una infraestructura seria, un gran talento, pero el foso que tienen OpenAI y Google no es tan profundo como les gustaría que la gente creyera", dice. “Los secretos no permanecen en secreto en este campo. Las ideas se propagan y la gente se mueve. Estamos viendo una rápida convergencia”.
Hu agregó que el desarrollo de IA aún requiere cuatro componentes críticos: "Lo llamo el modelo ABCD: algoritmos, big data, computación y distribución", dice. “Las mejores empresas de IA tienen los cuatro. DeepSeek está haciendo mella en los dos primeros, pero la computación y la distribución siguen dando una ventaja a los principales actores”.
El creciente número de empresas de IA habilitadas por técnicas más eficientes no se trata solo de competencia: podría desatar una revolución creativa. Si más empresas pueden desarrollar IA sin presupuestos de miles de millones de dólares, la innovación será impulsada por diversas perspectivas en lugar de un puñado de agendas corporativas, dice Cox. Eso significa soluciones de IA más personalizadas y modelos especializados, así como un mercado más dinámico.
“La innovación ocurrirá más rápido, de una manera más segura e inclusiva”, dijo Cox. "Si mover más allá de un monocultivo en el que unos pocos jugadores establecen los términos, veremos un florecimiento de diferentes enfoques".
Cox dijo que para IBM, que se ha comprometido con la IA de código abierto, el ascenso de DeepSeek valida su enfoque. “En realidad es algo bueno para nosotros”, dice. “Demuestra que los modelos abiertos pueden funcionar y que hay demanda para ellos. Cuanto más gente contribuya, más nos beneficiamos todos de este beneficio”.
Hu señala que mientras las empresas más pequeñas van ganando terreno, los principales actores se están adaptando. “Amazon, Meta y Microsoft no se sentarán y dejarán que el código abierto se coma su almuerzo”, dice. “Están trabajando arduamente para descubrir cómo integrar modelos de código abierto mientras mantienen el control sobre la infraestructura y los datos”.
¿Qué sucede a continuación? Cox y otros expertos dicen que el desarrollo de IA no se convertirá en un programa gratuito para todos, pero está claro que las empresas más pequeñas ya no están a merced de los gigantes tecnológicos. Las herramientas de código abierto están acelerando el progreso, y son las empresas que adoptan este cambio las que obtienen el mayor beneficio.
“Esto es parte de una tendencia continua”, dice Cox. “No comenzó con DeepSeek y no terminará con él. Pero definitivamente ha despertado a algunas personas”.
