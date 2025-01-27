DeepSeek-R1, el modelo de IA de la startup china DeepSeek, se disparó a lo más alto de las listas de los modelos más descargados y activos en la plataforma de código abierto de IA Hugging Face horas después de su lanzamiento la semana pasada. También causó conmoción en los mercados financieros, ya que llevó a los inversionistas a reconsiderar las valoraciones de fabricantes de chips como NVIDIA y las colosales inversiones que los gigantes estadounidenses de la inteligencia artificial (IA) están realizando para ampliar sus negocios en este sector.
¿Por qué tanto revuelo? Llamado "modelo de razonamiento", DeepSeek-R1 es un asistente digital que funciona tan bien como o1 de OpenAI en ciertos puntos de referencia de IA para tareas matemáticas y de programación, fue entrenado con muchos menos chips y es aproximadamente un 96 % más barato de usar, según la empresa.
“DeepSeek definitivamente está transformando el panorama de la IA, desafiando a los gigantes con ambición de código abierto e innovaciones de última generación”, afirma Kaoutar El Maghraoui, científico investigador principal y gerente de hardware de IA en IBM.
Mientras tanto, ByteDance, el gigante tecnológico chino propietario de TikTok, anunció recientemente su propio agente de razonamiento, UI-TARS, que según afirma supera a GPT-4o de OpenAI, Claude de Anthropic y Gemini de Google en ciertos puntos de referencia. El agente de ByteDance puede leer interfaces gráficas, razonar y tomar medidas autónomas paso a paso.
Desde startups hasta gigantes establecidos, las empresas chinas de IA parecen estar cerrando la brecha con sus rivales estadounidenses, en gran parte gracias a su voluntad de trabajar con código abierto o compartir el código de software subyacente con otras empresas y desarrolladores de software. "DeepSeek ha podido proliferar algunos modelos bastante potentes en toda la comunidad", dice Abraham Daniels, gerente técnico sénior de productos del modelo Granite de IBM. DeepSeek-R1 se ofrece en Hugging Face bajo una licencia del MIT que permite el uso comercial sin restricciones. “DeepSeek realmente podría acelerar la democratización de la IA”, afirma.
El verano pasado, la empresa china Kuaishou presentó una herramienta de generación de video que era similar a Sora de OpenAI, pero estuvo disponible para el público desde el principio. Sora se presentó el pasado mes de febrero, pero no se lanzó por completo hasta diciembre, e incluso entonces solo aquellos con una suscripción a ChatGPT Pro podían acceder a todas sus características. Los desarrolladores de Hugging Face también han adquirido nuevos modelos de código abierto de los gigantes tecnológicos chinos Tencent y Alibaba. Mientras que Meta ha convertido sus modelos Llama en código abierto, tanto OpenAI como Google han seguido un enfoque predominantemente de código cerrado para el desarrollo de sus modelos.
Además de la ventaja del código abierto, los ingenieros de DeepSeek también utilizaron solo una fracción de los chips NVIDIA altamente especializados utilizados por sus competidores estadounidenses para entrenar sus sistemas. Por ejemplo, los ingenieros de DeepSeek afirmaron que solo necesitaban 2000 GPU (unidades de procesamiento gráfico), o chips, para entrenar su modelo DeepSeek-V3, según un artículo de investigación que publicaron con el lanzamiento del modelo.
“Lo que es realmente impresionante es la capacidad de razonar de los modelos DeepSeek”, dice Kush Varshney, miembro de IBM. Los modelos de razonamiento esencialmente se verifican o comprueban a sí mismos, lo que representa un tipo de"metacognición" o "pensar sobre el pensamiento", dice Varshney. "Ahora estamos empezando a poner sabiduría en estos modelos, y eso es un gran paso".
Los modelos de razonamiento se convirtieron en el tema candente de conversación en septiembre pasado cuando OpenAI presentó una vista previa de su modelo de razonamiento o1. A diferencia de los modelos de IA anteriores, que producían una respuesta sin explicar el razonamiento, resuelve problemas complejos dividiéndolos en pasos. Los modelos de razonamiento pueden tardar unos segundos o minutos más en responder porque reflexionan sobre su análisis paso a paso o en una "cadena de pensamiento".
DeepSeek-R1 combina el razonamiento de cadena de pensamiento con el aprendizaje por refuerzo en el que un agente autónomo aprende a realizar una tarea mediante prueba y error y sin instrucciones de un usuario humano. El aprendizaje por refuerzo difiere de las formas de aprendizaje más comunes, como el aprendizaje supervisado, que utiliza datos etiquetados manualmente para generar predicciones o clasificaciones, y el aprendizaje no supervisado, cuyo objetivo es descubrir y aprender patrones ocultos a partir de datos sin etiquetar.
DeepSeek-R1 cuestiona la suposición de que los modelos mejorarán su capacidad de razonamiento al ser entrenados con ejemplos etiquetados de comportamiento correcto o incorrecto, o al extraer información de patrones ocultos, afirma Yihua Zhang, estudiante de doctorado de la Michigan State University y autor de docenas de artículos sobre machine learning. “La hipótesis clave es simple, pero audaz”, dice Zhang. “¿Podemos simplemente premiar al modelo por su corrección y dejar que descubra la mejor manera de pensar por sí solo?”
Zhang dice que lo que él y otros han encontrado particularmente notable sobre el entrenamiento a gran escala de modelos de lenguaje grandes como el de DeepSeek es que “el modelo comienza a mostrar un momento revelador real, donde da un paso atrás, ve errores y se corrige a sí mismo”.
Parte del revuelo en torno a DeepSeek proviene de su bajo precio. DeepSeek-V3, lanzado en Navidad, costó 5.5 millones de dólares estadounidenses en capacitación y es mucho más barato para los desarrolladores que quieran probarlo, según el informe técnico publicado por la empresa. "Es realmente impresionante lo que hicieron por el costo del modelo y el tiempo que tardaron en entrenarlo", dice Chris Hay, ingeniero distinguido de IBM.
Sin embargo, es posible que este precio bajo no sea toda la historia, dice Kate Soule, directora de gestión técnica de productos para Granite en IBM Research. El costo de 5.5 millones de dólares “representa solo una fracción de la informática necesaria”, afirma. No incluye detalles de costos que las empresas mantienen como propiedad incluso con modelos de código abierto, como “los costos informáticos para el aprendizaje por refuerzo, ablaciones de datos y búsquedas de hiperparámetros”, dice Soule.
Sin embargo, lo que no está en duda es que DeepSeek logró una mayor rentabilidad mediante el uso de una arquitectura mixture of experts (MoE), que requiere mucho menos recursos para entrenar. La arquitectura MoE divide un modelo de IA en subredes separadas (o "expertos"), cada una de las cuales se especializa en un subconjunto de los datos de entrada. El modelo solo activa a los expertos específicos necesarios para una tarea determinada en lugar de activar toda la red neuronal. En consecuencia, la arquitectura MoE reduce en gran medida los costos informáticos durante el entrenamiento previo y logra un rendimiento más rápido durante el tiempo de inferencia. Varias empresas de todo el mundo, incluida Mistral, la empresa francesa pionera en IA e IBM, popularizaron la arquitectura MoE durante el año pasado y lograron una mayor eficiencia al combinar MoE y código abierto.
En el caso de la serie de modelos Granite de código abierto de IBM (desarrollados con una arquitectura MoE), las empresas pueden lograr el rendimiento del modelo de frontera a una fracción del costo porque pueden adaptar un gran modelo previamente entrenado para sus aplicaciones o casos de uso específicos, creando efectivamente modelos más pequeños y adecuados para su propósito. Al tener una capacidad tremenda en modelos más pequeños, estos modelos se pueden usar en teléfonos inteligentes y otros dispositivos móviles que operan en el borde, como computadoras de automóviles o sensores inteligentes en una fábrica.
Este proceso de tomar un modelo más grande y destilarlo en modelos más pequeños que consumen menos recursos también contribuyó al éxito de DeepSeek. Junto con el lanzamiento del modelo R1, la startup china también lanzó una serie de modelos más pequeños y adecuados para su propósito. Curiosamente, demostraron que los modelos más grandes destilados en modelos más pequeños funcionan mejor en el razonamiento en comparación con el uso del aprendizaje por refuerzo de modelos pequeños desde el principio.
A medida que rivalizan o superan a sus competidores más antiguos en ciertos puntos de referencia, ¿cómo afectarán estos nuevos modelos chinos al escenario global de la IA? "No se trata solo del rendimiento bruto en los puntos de referencia", dice El Maghraoui. "Se trata de si hay una integración de extremo a extremo de estos modelos de manera segura y ética". Como resultado, dice El Maghraoui, es demasiado pronto para saber si DeepSeek-R1 y otros "transformarán las interacciones humanas, la tecnología y las aplicaciones empresariales".
En última instancia, "la tasa de adopción por parte de los desarrolladores determinará la popularidad de los modelos de DeepSeek", dice Daniels. Además, será "muy interesante ver los casos de uso que descubren para los modelos", dice.
Y como lo ve Varshney de IBM, las diferencias geopolíticas también pueden importar menos de lo que uno podría suponer en esta carrera global de la IA. “Una vez que un modelo es de código abierto, su origen deja de importar en muchos aspectos”, afirma.
