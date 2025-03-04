Si leyó los titulares del 20 de enero de 2025, es posible que haya pensado que el cielo se estaba cayendo. Esto se debe a que DeepSeek, con sede en China, lanzó su modelo de lenguaje grande R1 (LLM), que rápidamente se convirtió en uno de los modelos más descargados y activos poco luego de su lanzamiento.

Lo que desencadenó el entusiasmo fue el hecho de que el laboratorio de investigación de IA con sede en Hangzhou, China, que lanza modelos con su nombre, creó un modelo a un costo mucho menor(5.6 millones de dólares) y con muchos menos recursos informáticos y acceso a chips NVIDIA que los principales modelos estadounidenses.

Como un reloj, la gente se preocupaba abiertamente de que algunas de las compañías estadounidenses de IA con mayor financiación estuvieran a punto de quedar atrás. Dado que DeepSeek utilizaba menos chips NVIDIA que esas otras empresas, el precio de las acciones de la compañía cayó. Sin embargo, eso fue más una reacción instintiva a la noticia que algo materialmente preocupante sobre la suerte del fabricante de chips.

Los reporteros de tecnología y negocios vieron esta noticia como un shock para el sistema. Sin embargo, para otros expertos en IA y para mí, la única sorpresa del anuncio de R1 de DeepSeek fue lo sorprendidos que parecían estar todos.

Si bien el modelo era nuevo, DeepSeek está lejos de ser un nuevo participante en el mercado. Tiene un amplio historial de producción de valiosos modelos de código abierto en el mercado chino, especialmente el modelo V3 lanzado en diciembre. De hecho, publicó un documento técnico adjunto, que ofrece una educación para cualquiera que quiera profundizar en cómo construir estos laboratorios. El modelo V3 fue más una sorpresa, pero aparentemente pasó desapercibido.

El modelo R1 de DeepSeek, por supuesto, es otro ejemplo de una herramienta de IA generativa que puede convertirse en la base para el futuro de la IA agéntica, donde las herramientas de IA no solo responden a las solicitudes de sus usuarios, sino que funcionan de forma independiente para proporcionar servicios a esos usuarios.

Si bien IBM, por diseño , se asocia con todos estos modelos y los emplea, también somos grandes defensores e ingenieros del movimiento de código abierto. Ver un modelo de código abierto como R1 recibir elogios muy merecidos es excelente para la industria.

Es comprensible que fuera un poco discordante para los grandes jugadores ver que DeepSeek producía un modelo a la par o mejor que sus modelos, pero construido por una fracción del costo de los modelos más conocidos. Sin embargo, eso es precisamente para lo que está diseñada la comunidad de código abierto.

El anuncio de DeepSeek R1 demuestra una historia de dos mundos: los mercados financieros proyectaron turbulencias mientras que los expertos en IA estaban entusiasmados con el avance tecnológico y cómo podría informar modelos más nuevos más eficientes y potentes.