Si leyó los titulares del 20 de enero de 2025, es posible que haya pensado que el cielo se estaba cayendo. Esto se debe a que DeepSeek, con sede en China, lanzó su modelo de lenguaje grande R1 (LLM), que rápidamente se convirtió en uno de los modelos más descargados y activos poco luego de su lanzamiento.
Lo que desencadenó el entusiasmo fue el hecho de que el laboratorio de investigación de IA con sede en Hangzhou, China, que lanza modelos con su nombre, creó un modelo a un costo mucho menor(5.6 millones de dólares) y con muchos menos recursos informáticos y acceso a chips NVIDIA que los principales modelos estadounidenses.
Como un reloj, la gente se preocupaba abiertamente de que algunas de las compañías estadounidenses de IA con mayor financiación estuvieran a punto de quedar atrás. Dado que DeepSeek utilizaba menos chips NVIDIA que esas otras empresas, el precio de las acciones de la compañía cayó. Sin embargo, eso fue más una reacción instintiva a la noticia que algo materialmente preocupante sobre la suerte del fabricante de chips.
Los reporteros de tecnología y negocios vieron esta noticia como un shock para el sistema. Sin embargo, para otros expertos en IA y para mí, la única sorpresa del anuncio de R1 de DeepSeek fue lo sorprendidos que parecían estar todos.
Si bien el modelo era nuevo, DeepSeek está lejos de ser un nuevo participante en el mercado. Tiene un amplio historial de producción de valiosos modelos de código abierto en el mercado chino, especialmente el modelo V3 lanzado en diciembre. De hecho, publicó un documento técnico adjunto, que ofrece una educación para cualquiera que quiera profundizar en cómo construir estos laboratorios. El modelo V3 fue más una sorpresa, pero aparentemente pasó desapercibido.
El modelo R1 de DeepSeek, por supuesto, es otro ejemplo de una herramienta de IA generativa que puede convertirse en la base para el futuro de la IA agéntica, donde las herramientas de IA no solo responden a las solicitudes de sus usuarios, sino que funcionan de forma independiente para proporcionar servicios a esos usuarios.
Si bien IBM, por diseño , se asocia con todos estos modelos y los emplea, también somos grandes defensores e ingenieros del movimiento de código abierto. Ver un modelo de código abierto como R1 recibir elogios muy merecidos es excelente para la industria.
Es comprensible que fuera un poco discordante para los grandes jugadores ver que DeepSeek producía un modelo a la par o mejor que sus modelos, pero construido por una fracción del costo de los modelos más conocidos. Sin embargo, eso es precisamente para lo que está diseñada la comunidad de código abierto.
El anuncio de DeepSeek R1 demuestra una historia de dos mundos: los mercados financieros proyectaron turbulencias mientras que los expertos en IA estaban entusiasmados con el avance tecnológico y cómo podría informar modelos más nuevos más eficientes y potentes.
R1 solo reforzó lo que muchos sabían, y el resto del mundo se está poniendo al día. Obviamente, DeepSeek se basa en todos los que contribuyen al entorno de código abierto, incluidos IBM, Meta y más. Los modelos código abierto continuarán liderando la innovación. Si bien R1 fue un shock inicial para el sistema, todos tendrán beneficio de su existencia. Especialmente teniendo en cuenta que DeepSeek acaba de anunciar una Semana del código abierto, en la que compartía un repositorio de código abierto al día.
DeepSeek R1 utiliza el enfoque de machine learning Mixture of Experts (MoE) que divide un modelo de inteligencia artificial (IA) en subredes separadas (o "expertos"), cada uno especializado en un subconjunto de la entrada, para realizar una tarea de forma conjunta.
Por lo tanto, cuando se utiliza el enfoque MoE, no todos los parámetros del modelo deben activarse al mismo tiempo. Por ejemplo, hay alrededor de 671 000 millones de parámetros en el modelo v3 o R1 de DeepSeek, pero solo 37 000 millones de parámetros están activos a la vez. Entonces, la porción muy pequeña de todo el modelo que realmente responde la pregunta lo hace mucho más eficiente.
Históricamente, los investigadores han encontrado dificultades de entrenamiento con los modelos MoE. DeepSeek ideó algunas técnicas novedosas para solucionar esos problemas mientras mantenía la carga de trabajo general que hizo que su combinación de expertos fuera moderada y eficiente.
Por ejemplo, los modelos V3 y R1 utilizaron el aprendizaje por refuerzo en lugar de depender de datos etiquetados. Esta técnica analiza varias rutas para llegar a la respuesta. Cada ruta que recorre, la reevalúa a lo largo del camino. Por lo tanto, determina más rápidamente si va por el camino equivocado. Entonces, puede retroceder rápidamente y determinar una ruta potencialmente más ventajosa.
Este razonamiento de "cadena de pensamiento" le ayuda a encontrar el camino hacia el destino final, que es preciso, y a obtener la recompensa por ello. Esta metodología de aprendizaje por refuerzo les ayudó a entrenar el modelo para que funcionara al mismo nivel o por encima de OpenAI y otros modelos.
A veces, las limitaciones generan innovación. DeepSeek tiene limitaciones en los chips NVIDIA que puede adquirir debido a los controles de exportación estadounidenses sobre las ventas de chips a China. Obviamente, la empresa matriz tenía a mano una cantidad significativa de chips NVIDIA(2000 de los chips H800 de NVIDIA),pero aún así tenía que ser ágil en la forma en que los desplegaba. Realizó un trabajo increíble hasta el nivel de hardware para poder impulsar algunas optimizaciones.
Todos en la comunidad de código abierto utilizan la plataforma Cuda de NVIDIA, que pone a disposición un buen conjunto de bibliotecas que pueden ayudarlo a conectar todas las diferentes GPU para que puedan comunicarse de manera más eficiente, distribuir su carga de trabajo, etc. Pero DeepSeek fue un paso más allá, allende la biblioteca, y optimizó aún más el hardware.
La realidad es que el ritmo al que los modelos abiertos han mejorado y seguirán mejorando es fenomenal.
La IA no ocurre sin chips. La noticia inicial de que puede requerir menos chips en el futuro para producir modelos excelentes creó, en algunos observadores de la industria, la falacia lógica de que la demanda de chips disminuiría. Según Jevons Paradox, ocurre lo contrario: una mayor eficiencia a menudo conduce a un mayor consumo. Desde el consumo de combustible y energía a lo largo del tiempo y los aumentos en la eficiencia del aire acondicionado que llevan a las personas a construir casas más grandes, nunca hay demasiado de algo bueno.
Tomemos, por ejemplo, el negocio global del whisky. En los últimos años, el auge de las destilerías independientes y de lotes pequeños no ha hecho más que aumentar la demanda de cereales. Es lo mismo en cualquier industria, ya que la economía mejora las oportunidades para las pequeñas empresas. Puede que una empresa utilice menos chips, pero DeepSeek demostró que muchos más jugadores pueden entrar en el mercado y utilizar técnicas de código abierto para crear modelos impresionantes por menos.
Para mí, esta es la conclusión más importante. Lo que desbloquea es que no solo será la élite que tenga acceso a una computación increíble la que podrá construir la próxima serie de modelos. Tal vez haya rutas alternativas donde los laboratorios más pequeños también puedan comenzar a invertir en la construcción de algunos modelos más. Eso es una gran cosa para aquellos entusiasmados con los agentes de IA y el futuro agéntico que todos anticipamos.
La competencia entre todos los grandes actores va y viene, así que es mejor no pensar en ganadores y perdedores a corto plazo. Cada día, las empresas, los investigadores y los científicos de IA innovan para producir mejores modelos basados en un razonamiento más científico.
Es por eso que estamos tan entusiasmados con nuestras recientes actualizaciones de razonamiento a nuestra familia de LLM Granite, que han superado el rendimiento R-1 en puntos de referencia como ArenaHard y AlpacaEvaNuestros modelos de razonamiento combinan lo mejor de ambos mundos: alto rendimiento con características de seguridad, a la vez que permiten a los usuarios elegir si quieren usar capacidades de razonamiento o no, dependiendo de la situación. Cuanto más compartimos lo que sabemos y compartimos el código abierto de lo que es posible hacer, más beneficiamos a todos, y sobre todo a los consumidores.
Si bien OpenAI y otros pueden sentir cierta presión inicial por el auge de una competencia más pequeña pero potente, esta es una gran victoria para la comunidad y se alinea con la perspectiva de IBM para el futuro de la IA. Es una gran victoria para la comunidad de código abierto y demuestra que los modelos más pequeños pueden superar a algunos de los demás. Obviamente, esto de ninguna manera excluye a los jugadores más grandes; si son inteligentes, utilizarán lo que DeepSeek les enseñó para seguir construyendo modelos más grandes a costos más bajos.
Pero, en última instancia, la competencia es excelente tanto para las empresas como para los consumidores. Todo el mundo gana cuando tenemos estos eventos sísmicos como DeepSeek R1.
