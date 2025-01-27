DeepSeek-R1, el modelo de IA de la startup china DeepSeek, se disparó hasta lo más alto de las listas de modelos más descargados y activos en la plataforma de código abierto de IA Hugging Face horas después de su lanzamiento la semana pasada. También impactó a los mercados financieros, ya que dio instrucciones a los inversores para que reconsideraran las valoraciones de fabricantes de chips como NVIDIA y las colosales inversiones que los gigantes estadounidenses de la IA están haciendo para escalar sus negocios de IA.
¿Por qué tanto alboroto? El llamado "modelo de razonamiento", DeepSeek-R1 es un asistente digital que funciona tan bien como el o1 de OpenAI en ciertos puntos de referencia de IA para tareas matemáticas y de codificación, se entrenó con muchos menos chips y es aproximadamente un 96 % más barato, según la empresa.
"DeepSeek está, sin duda, remodelando el panorama de la IA, desafiando a los gigantes con su ambición de código abierto y sus innovaciones de vanguardia", afirma Kaoutar El Maghraoui, investigador científico principal y director de IBM AI Hardware.
Mientras tanto, ByteDance, el gigante tecnológico chino propietario de TikTok, anunció recientemente su propio agente de razonamiento, IU-TARS, que según afirma supera a GPT-4o de OpenAI, Claude de Anthropic y Gemini de Google en ciertas referencias. El agente de ByteDance puede leer interfaces gráficas, razonar y emprender acciones autónomas paso a paso.
Desde startups hasta gigantes establecidos, las empresas chinas de IA parecen estar cerrando la brecha con sus rivales estadounidenses, en gran parte gracias a su voluntad de compartir el código abierto con otras empresas y desarrolladores de software. "DeepSeek ha sido capaz de proliferar algunos modelos bastante potentes en toda la comunidad", afirma Abraham Daniels, director técnico sénior de productos para el modelo Granite de IBM. DeepSeek-R1 se ofrece en Hugging Face con una licencia del MIT que permite un uso comercial sin restricciones. “DeepSeek realmente podría acelerar la democratización de la IA”, afirma.
El verano pasado, la empresa china Kuaishou presentó una herramienta de generación de vídeo que era similar a Sora de OpenAI, pero disponible para el público desde el principio. Sora se presentó el pasado febrero, pero no se lanzó completamente en diciembre y, aun así, solo quienes tenían una suscripción a ChatGPT Pro podían acceder a todas sus características. Los desarrolladores de Hugging Face también han adquirido nuevos modelos de código abierto de los gigantes tecnológicos chinos Tencent y Alibaba. Mientras que Meta ha puesto en código abierto sus modelos Llama, tanto OpenAI como Google han seguido un enfoque predominantemente de código cerrado para el desarrollo de sus modelos.
Además de la ventaja del código abierto, los ingenieros de DeepSeek también utilizaron solo una fracción de los chips NVIDIA altamente especializados que utilizan los de sus competidores estadounidenses para entrenar sus sistemas. Por ejemplo, los ingenieros de DeepSeek afirmaron que solo necesitaban 2000 GPU (unidades de procesamiento gráfico), o chips, para entrenar su modelo DeepSeek-V3, según un artículo de investigación que publicaron con el lanzamiento del modelo.
"Lo que es realmente impresionante es la capacidad de razonamiento de los modelos DeepSeek", afirma Kush Varshney, miembro de IBM. Los modelos de razonamiento básicamente se verifican o comprueban a sí mismos, lo que representa un tipo de "metacognición" o "pensamiento sobre el pensamiento", dice Varshney. "Ahora estamos empezando a incorporar sabiduría a estos modelos, y eso supone un gran paso adelante".
Los modelos de razonamiento se convirtieron en el tema candente de conversación en septiembre pasado cuando OpenAI presentó su modelo de razonamiento o1. A diferencia de los modelos anteriores de IA, que ofrecían una respuesta sin explicar el razonamiento, este resuelve problemas complejos dividiéndolos en pasos. Por eso, los modelos de razonamiento pueden tardar unos segundos o minutos más en responder, ya que reflexionan sobre su análisis paso a paso o en forma de "cadena de pensamiento".
DeepSeek-R1 combina el razonamiento de cadena de pensamiento con el aprendizaje por refuerzo en el que un agente autónomo aprende a realizar una tarea mediante prueba y error y sin instrucciones de un usuario humano. El aprendizaje por refuerzo se diferencia de las formas de aprendizaje más utilizadas, como el aprendizaje supervisado, que utiliza datos etiquetados manualmente para producir predicciones o clasificaciones, y el aprendizaje no supervisado, que tiene como objetivo descubrir y aprender patrones ocultos a partir de datos sin etiquetar.
DeepSeek-R1 cuestiona la suposición de que los modelos mejorarán su capacidad de razonar al ser entrenados con ejemplos etiquetados de comportamiento correcto o incorrecto, o al extraer información de patrones ocultos, dice Yihua Zhang, estudiante de doctorado en la Universidad Estatal de Michigan y autor de docenas de artículos sobre machine learning. "La hipótesis clave es simple pero audaz", dice Zhang. "¿Podemos simplemente recompensar al modelo por su corrección y dejar que descubra la mejor manera de pensar por sí mismo?"
Zhang afirma que él y otros han encontrado especialmente notable en el entrenamiento a gran escala de modelos de lenguaje de gran tamaño, como el de DeepSeek, que "el modelo comienza a mostrar un auténtico momento de revelación, en el que da un paso atrás, detecta los errores y se corrige a sí mismo".
Parte del revuelo en torno a DeepSeek proviene de su bajo precio. DeepSeek-V3, lanzado el día de Navidad, costó 5,5 millones de dólares para entrenar y es mucho más barato para los desarrolladores que quieren probarlo, según el informe técnico publicado por la compañía. "Es realmente impresionante lo que hicieron por el coste del modelo y el tiempo que tardaron en entrenarlo", afirma Chris Hay, ingeniero distinguido de IBM.
Sin embargo, este bajo precio puede no ser toda la historia, afirma Kate Soule, directora de gestión técnica de productos para Granite en IBM Research. El coste de 5,5 millones de dólares “representa solo una fracción del cálculo necesario”, afirma. No incluye detalles sobre los costes que las empresas mantienen como información confidencial, ni siquiera en modelos de código abierto. "Los costes informáticos del aprendizaje por refuerzo, las ablaciones de datos y las búsquedas de hiperparámetros son algunos ejemplos", afirma Soule.
Sin embargo, lo que no cabe duda es que DeepSeek logró una mayor rentabilidad mediante el uso de una arquitectura de mezcla de expertos (MoE), que requiere mucho menos recursos para entrenar. La arquitectura MoE divide un modelo de IA en subredes independientes (o "expertos"), cada una de las cuales se especializa en un subconjunto de los datos de entrada. El modelo solo activa a los expertos específicos necesarios para una tarea dada, en lugar de activar toda la red neuronal. En consecuencia, la arquitectura MoE reduce en gran medida los costes de cálculo durante el entrenamiento previo y logra un rendimiento más rápido durante el tiempo de inferencia. Varias empresas de todo el mundo, incluida la empresa francesa pionera en IA Mistral e IBM, han popularizado la arquitectura MoE durante el último año y han logrado una mayor eficiencia combinando MoE y código abierto.
En el caso de la serie de modelos Granite de código abierto de IBM (desarrollados con una arquitectura MoE), las empresas pueden alcanzar un rendimiento de vanguardia a un coste mucho menor, ya que pueden adaptar un gran modelo preentrenado a sus aplicaciones o casos de uso específicos y crear así modelos más pequeños y adecuados para cada finalidad. Al incorporar una gran capacidad en modelos más pequeños, pueden utilizarse en teléfonos inteligentes y otros dispositivos móviles que funcionan en el edge, como ordenadores de a bordo de automóviles o sensores inteligentes en una planta de fabricación.
Este proceso, que consiste en partir de un modelo más grande y destilarlo en modelos más pequeños que consumen menos recursos, también contribuyó al éxito de DeepSeek. Junto con el lanzamiento de su modelo estandarte R1, la startup china también lanzó una serie de modelos más pequeños y aptos para todo tipo de usos. Curiosamente, demostraron que los modelos más grandes destilados en modelos más pequeños funcionan mejor en el razonamiento en comparación con el uso del aprendizaje por refuerzo de modelos pequeños desde el principio.
A medida que rivalizan o superan a sus competidores más antiguos en determinados puntos de referencia, ¿cómo influirán estos nuevos modelos chinos en el panorama mundial de la IA? "No se trata solo del rendimiento bruto en las pruebas de referencia", afirma El Maghraoui. "Se trata de si hay una integración de extremo a extremo de estos modelos de forma segura y ética". Como resultado, dice El Maghraoui, es demasiado pronto para saber si DeepSeek-R1 y otros "transformarán las interacciones humanas, la tecnología y las aplicaciones empresariales".
En última instancia, "la tasa de adopción por parte de los desarrolladores determinará la popularidad de los modelos de DeepSeek", afirma Daniels. Además, será "muy interesante ver los casos de uso que descubran para los modelos", afirma.
Y como lo ve Varshney de IBM, las diferencias geopolíticas también pueden importar menos de lo que uno podría suponer en esta carrera global de IA. “Una vez que un modelo es de código abierto, su origen deja de importar en muchos aspectos”, afirma.
