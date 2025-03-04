Si leyó los titulares del 20 de enero de 2025, podría haber pensado que el cielo se estaba cayendo. Esto se debe a que DeepSeek, con sede en China, lanzó su modelo de lenguaje de gran tamaño (LLM) R1, que rápidamente se convirtió en uno de los LLM más descargados y activos poco después de su lanzamiento.
Lo que desencadenó el entusiasmo fue el hecho de que el laboratorio de investigación de IA con sede en Hangzhou (China), que lanza modelos con su nombre, creó uno a un coste mucho menor (5,6 millones de dólares) y con muchos menos recursos informáticos y acceso a chips NVIDIA que los principales modelos estadounidenses.
Como era de esperar, la gente expresó abiertamente su preocupación por que algunas de las empresas estadounidenses de IA con gran financiación estuvieran a punto de quedarse atrás. Como DeepSeek utilizaba menos chips NVIDIA que esas otras empresas, el precio de las acciones de la compañía bajó. Sin embargo, se trató más de una reacción instintiva a la noticia que de algo materialmente preocupante sobre la fortuna del fabricante de chips.
Los periodistas tecnológicos y empresariales consideraron esta noticia como un shock para el sistema. Sin embargo, para otros expertos en IA y para mí, la única sorpresa del anuncio de R1 de DeepSeek fue lo sorprendidos que parecían estar todos.
Aunque el modelo era nuevo, DeepSeek está lejos de ser un nuevo participante en el mercado. Tiene un amplio historial de producción de valiosos modelos de código abierto en el mercado chino, especialmente el modelo V3 lanzado en diciembre. De hecho, publicó un documento técnico adjunto, que ofrece formación para cualquiera que quiera profundizar en cómo crear estos laboratorios. El modelo V3 fue más una sorpresa, pero aparentemente pasó desapercibido.
El modelo R1 de DeepSeek, por supuesto, es otro ejemplo de una herramienta de IA generativa que puede convertirse en la base del futuro de la IA agéntica, en la que las herramientas de IA no solo responden a las peticiones de sus usuarios, sino que trabajan de forma independiente para prestar servicios a esos usuarios.
Si bien IBM, por diseño, se asocia con todos estos modelos y los utiliza, también somos grandes defensores e ingenieros del movimiento de código abierto. Ver un modelo de código abierto como R1 recibir elogios muy merecidos es genial para el sector.
Es comprensible que a los grandes actores les disgustara un poco ver que DeepSeek producía un modelo a la par o mejor que sus modelos, pero creado por una fracción del coste de los modelos más conocidos. Sin embargo, eso es para lo que está diseñada la comunidad de código abierto.
El anuncio de DeepSeek R1 muestra dos mundos diferentes: los mercados financieros pronosticaban turbulencias, mientras que los expertos en IA estaban entusiasmados con el avance tecnológico y con la forma en que podría dar lugar a modelos nuevos más eficientes y potentes.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
R1 solo reforzó lo que muchos sabían, y el resto del mundo se está poniendo al día. Obviamente, DeepSeek recae sobre los hombros de todos los que contribuyen al entorno de código abierto, incluidos IBM, Meta y más. Los modelos código abierto continuarán liderando la innovación. Aunque R1 fue un shock inicial para el sistema, todos se beneficiarán de su existencia. Especialmente teniendo en cuenta que DeepSeek acaba de anunciar una Semana del Código Abierto, en la que compartía un repositorio de código abierto al día.
DeepSeek R1 utiliza el enfoque de machine learning Mixture of Experts (MoE) que divide un modelo de inteligencia artificial (IA) en subredes separadas (o “expertos”), cada una especializada en un subconjunto de los datos de entrada, para realizar conjuntamente una tarea.
Por lo tanto, cuando se utiliza el enfoque MoE, no todos los parámetros del modelo deben activarse al mismo tiempo. Por ejemplo, hay unos 671 000 millones de parámetros en el modelo v3 o R1 de DeepSeek, pero solo 37 000 millones de parámetros están activos a la vez. Por lo tanto, la porción muy pequeña de todo el modelo que realmente responde a la pregunta lo hace mucho más eficiente.
Históricamente, los investigadores se han encontrado con dificultades de entrenamiento con los modelos MoE. DeepSeek ideó algunas técnicas novedosas para solucionar esos problemas manteniendo la carga de trabajo general que hizo que su mezcla de expertos fuera moderada y eficiente.
Por ejemplo, los modelos V3 y R1 utilizaron aprendizaje de refuerzo en lugar de depender de datos etiquetados. Esta técnica piensa en varias rutas para llegar a la respuesta. Cada ruta que recorre, la reevalúa a lo largo del camino. Por lo tanto, determina más rápidamente si va por el camino equivocado. A continuación, puede retroceder rápidamente y determinar una ruta potencialmente más ventajosa.
Este razonamiento de “cadena de pensamiento” le ayuda a encontrar el camino hacia el destino final, que es preciso, y a obtener la recompensa por ello. Esta metodología de aprendizaje por refuerzo les ayudó a entrenar el modelo para que funcionara al mismo nivel o por encima del de OpenAI y otros modelos.
A veces, las limitaciones generan innovación. DeepSeek tiene limitaciones en los chips NVIDIA que puede adquirir debido a los controles de exportación estadounidenses sobre las ventas de chips a China. La empresa matriz obviamente disponía de un número significativo de chips NVIDIA (2000 chips H800 de NVIDIA), pero aún así tenía que ser ágil en cómo los implementó. Realizó un trabajo increíble hasta el nivel de hardware para poder impulsar algunas optimizaciones.
Todos los miembros de la comunidad de código abierto utilizan la plataforma Cuda de NVIDIA, que pone a su disposición un buen conjunto de librerías que pueden ayudarle a conectar entre sí las distintas GPU para que se comuniquen de forma más eficiente, distribuyan su carga de trabajo, etc. Pero DeepSeek fue un paso más allá, por debajo de la biblioteca, y también optimizó aún más el hardware.
La realidad es que el ritmo al que los modelos abiertos han mejorado y seguirán mejorando es fantástico.
La IA no funciona sin chips. La noticia inicial de que podría requerir menos chips en el futuro para producir modelos excelentes creó, según algunos observadores del sector, una falacia lógica de que la demanda de chips disminuiría. Según Jevons Paradox, ocurre lo contrario: una mayor eficiencia a menudo conduce a un mayor consumo. Desde el consumo de combustible y energía a lo largo del tiempo y el aumento de la eficiencia del aire acondicionado que lleva a la gente a construir casas más grandes, nunca hay demasiado de algo bueno.
Tomemos, por ejemplo, el negocio mundial del whisky. En los últimos años, el auge de destilerías independientes y de pequeños lotes solo ha incrementado la demanda de cereales. Es lo mismo en cualquier sector, ya que la economía mejora las oportunidades de las pequeñas empresas. Puede que haya menos chips utilizados por una empresa determinada, pero DeepSeek demostró que muchos más actores pueden entrar en el mercado y utilizar técnicas de código abierto para crear modelos impresionantes por menos dinero.
Para mí, esto es lo más importante. Lo que esto desbloquea es que no solo la élite tendrá acceso a una capacidad de cálculo increíble que le permitirá crear la próxima serie de modelos. Tal vez haya rutas alternativas en las que laboratorios más pequeños también puedan empezar a invertir en la creación de más modelos. Eso es algo genial para aquellos que están entusiasmados con los agentes de IA y el futuro agéntico que todos anticipamos.
La competencia entre los principales actores tendrá altibajos, por lo que es mejor no pensar en ganadores y perdedores a corto plazo. Cada día, empresas, investigadores y científicos de IA innovan para producir mejores modelos basados en un razonamiento más científico.
Por eso estamos tan entusiasmados con las recientes actualizaciones de razonamiento de nuestra familia Granite de LLM, que han superado el rendimiento del R-1 en puntos de referencia como ArenaHard y AlpacaEva. Nuestros modelos de razonamiento combinan lo mejor de ambos mundos: alto rendimiento con características de seguridad, a la vez que permiten a los usuarios elegir si quieren utilizar la capacidad de razonamiento o no, según la situación. Cuanto más compartimos lo que sabemos y compartimos el código abierto, más se beneficiarán todos, sobre todo los consumidores.
Aunque OpenAI y otros pueden sentir cierta presión inicial por el auge de una competencia más pequeña pero potente, esta es una gran victoria para la comunidad y se alinea con la perspectiva de IBM para el futuro de la IA. Es una gran victoria para la comunidad de código abierto y demuestra que los modelos más pequeños pueden superar a algunos de los demás. Obviamente, esto no descarta a los jugadores más grandes; si son inteligentes, usarán lo que DeepSeek les enseñó para seguir creando modelos más grandes a menor coste.
Pero, en última instancia, la competencia es excelente tanto para las empresas como para los consumidores. Todos salen ganando cuando se producen acontecimientos tan trascendentales como DeepSeek R1.
Descubra IBM Granite, nuestra familia de modelos de IA abiertos, de alto rendimiento y fiables, diseñados para la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Busque artículos, blogs y tutoriales de IBM Developer y profundice en ellos para ampliar sus conocimientos sobre los LLM.
Aprenda a impulsar continuamente a los equipos para que mejoren el rendimiento de los modelos y superen a la competencia utilizando las últimas técnicas e infraestructuras de IA.
Explore el valor de los modelos fundacionales de nivel empresarial que proporcionan confianza, rendimiento y beneficios rentables a todos los sectores.
Aprenda a incorporar la IA generativa, el machine learning y los modelos fundacionales en sus operaciones empresariales para mejorar el rendimiento.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.