DeepSeek es un laboratorio de investigación de IA con sede en Hangzhou, China. También es el nombre de los modelos de IA generativa de peso abierto que desarrolla.
A fines de enero de 2025, DeepSeek-R1 LLM fue noticia financiera y tecnológica por su rendimiento, rivalizando con el de los mejores modelos propietarios de OpenAI, Anthropic y Google, a un precio significativamente más bajo.
Los orígenes de DeepSeek (la empresa) se encuentran en los de High-Flyer, un fondo de cobertura chino fundado en 2016 por un trío de informáticos centrado en estrategias de negociación algorítmica. En 2019, la empresa utilizó los ingresos de sus operaciones comerciales para establecer una subsidiaria impulsada por IA, High-Flyer AI, invirtiendo 28 millones de dólares en infraestructura de capacitación de aprendizaje profundo y quintuplicando esa inversión en 2021.
Para 2023, la investigación de IA de High-Flyer había crecido hasta el punto de justificar el establecimiento de una entidad separada centrada únicamente en la IA, más específicamente, en el desarrollo de inteligencia general artificial (AGI). El laboratorio de investigación resultante se llamó DeepSeek, con High-Flyer como su principal inversionista. A partir de DeepSeek-Coder en noviembre de 2023, DeepSeek ha desarrollado una serie considerada exitosa de modelos de peso abierto que se centran principalmente en el rendimiento de las matemáticas y la programación.
En diciembre de 2024, el laboratorio lanzó DeepSeek-V3, el LLM en el que se basa DeepSeek-R1. El rendimiento innovador de DeepSeek-V3 y DeepSeek-R1 ha posicionado al laboratorio como un líder inesperado en el desarrollo de IA generativa en el futuro.
El lanzamiento en enero de 2025 de DeepSeek-R1 inició una avalancha de artículos sobre DeepSeek que, de manera un tanto confusa, es el nombre de una empresa y los modelos que fabrica así como el chatbot que se ejecuta en esos modelos. Dado el volumen de cobertura y el entusiasmo en torno a la economía de un cambio sísmico en el escenario de la IA, puede ser difícil separar los hechos de la especulación y esta de la ficción.
Lo que sigue es una guía sencilla para ayudarle a clasificar otros artículos sobre DeepSeek, separar la señal del ruido y evitar las exageraciones y las hipérboles. Empezaremos con una breve historia de la compañía, explicaremos las diferencias entre cada nuevo modelo de DeepSeek y desglosaremos sus innovaciones más interesantes (sin llegar a ser demasiado técnicos).
Aquí hay un desglose rápido de lo que cubriremos:
DeepSeek-R1 es un modelo de razonamiento creado mediante el ajuste de un LLM (DeepSeek-V3) para generar un extenso proceso de cadena de pensamiento (CoT) paso a paso antes de determinar el "resultado" final que ofrece al usuario. Otros modelos de razonamiento incluyen o1 (basado en GPT-4o) y o3 de OpenAI, Gemini Flash 2.0 Thinking de Google (basado en Gemini Flash) y Open QwQ ("Qwen with Questions") de Alibaba, basado en su modelo Qwen2.5.
La intuición detrás de los modelos de razonamiento proviene de investigaciones iniciales que demuestran que simplemente agregar la frase "pensar paso a paso" mejora significativamente los resultados del modelo.yo Investigaciones posteriores de Google DeepMind teorizaron que ampliar el cómputo en tiempo de prueba (la cantidad de recursos utilizados para generar un resultado) podría mejorar el rendimiento del modelo tanto como ampliar el cómputo en tiempo de entrenamiento(los recursos utilizados para entrenar un modelo).
Aunque los modelos de razonamiento son más lentos y costosos (usted aún debe generar —y pagar— todos los tokens utilizados para "pensar" en la respuesta final, y esos tokens consumen su ventana de contexto disponible, han empujado la vanguardia del rendimiento de última generación desde el lanzamiento de OpenAI de o1. En particular, el énfasis en los modelos de entrenamiento para priorizar la planificación y la previsión los ha hecho adeptos en ciertas tareas que involucran problemas complejos de matemáticas y razonamiento antes inaccesibles para los LLM.
Para obtener más información sobre los modelos de razonamiento, consulte esta excelente guía visual de Maarten Grootendorst.
El rendimiento de DeepSeek-R1 rivaliza con el de los modelos líderes, incluidos el o1 de OpenAI y el Claude 3.5 Sonnet de Anthropic, en tareas de matemáticas, código y razonamiento. Independientemente de qué modelo sea el "mejor", lo cual es subjetivo y específico a la situación, es una hazaña notable para un modelo abierto. Pero los aspectos más importantes de R1 son las técnicas de entrenamiento que introdujo a la comunidad de código abierto.
Normalmente, el proceso de llevar un LLM estándar de no entrenado a listo para los usuarios finales es el siguiente:
En el caso de los modelos de razonamiento patentados, como o1, los detalles específicos de este último paso suelen ser un secreto comercial muy bien almacenado. Pero DeepSeek ha publicado un documento técnico que detalla su proceso.
En su primer intento de convertir DeepSeek-V3 en un modelo de razonamiento, DeepSeek omitió SFT y pasó directamente del entrenamiento previo a un simple esquema de aprendizaje por refuerzo:
El modelo resultante (que lanzaron como "DeepSeek-R1-Zero") aprendió a generar cadenas de pensamiento complejas y a emplear estrategias de razonamiento que produjeron un rendimiento impresionante en tareas matemáticas y de razonamiento. El proceso fue sencillo y evitó costosos datos etiquetados para SFT. Desafortunadamente, como explica el documento técnico, "DeepSeek-R1-Zero enfrenta desafíos como la repetición interminable, la mala legibilidad y la mezcla de idiomas".
Para capacitar al sucesor de R1-Zero, DeepSeek-R1, DeepSeek modificó el proceso:
Pero ese proceso de ajuste es solo la mitad de la historia. La otra mitad es el modelo base para R1: DeepSeek-V3.
DeepSeek-V3, la columna vertebral de DeepSeek-R1, es un modelo de lenguaje de mixture of experts (MoE) de solo texto y 671 mil millones (671B) de parámetros. Particularmente para tareas de matemáticas, razonamiento y programación, podría decirse que es el LLM de código abierto más capaz disponible en febrero de 2025. Más importante aún, es significativamente más rápido y económico de usar que otros LLM líderes.
671 mil millones de parámetros significa que es un modelo enorme. Para contextualizar, cuando Meta lanzó Llama 3.1 405B, que es un 40% más pequeño que DeepSeek-V3, en julio de 2024, su anuncio oficial lo describió como "el modelo fundacional disponible abierto más grande y capaz del mundo".Ii El modelo original de ChatGPT, GPT-3.5, tenía 175 000 millones de parámetros. Cabe señalar que la mayoría de los principales desarrolladores, incluidos OpenAI, Anthropic y Google, no revelan el recuento de parámetros de sus modelos exclusivos.
Un mayor número de parámetros suele aumentar la "capacidad" de conocimiento y complejidad de un modelo. Más parámetros significan más formas de ajustar el modelo, lo que significa una mayor capacidad para adaptarse a los rincones y recovecos de los datos de entrenamiento. Pero al aumentar el número de parámetros de un modelo también aumentan los requisitos computacionales, lo que lo hace más lento y caro.
Entonces, ¿cómo es que DeepSeek-V3 (y, por lo tanto, DeepSeek-R1) es rápido y barato? La respuesta radica principalmente en la arquitectura de mezcla de expertos y cómo DeepSeek la modificó.
Una arquitectura de mezcla de expertos (MoE) divide las capas de una neural network en subredes separadas (o redes de expertos) y agrega una red de compuertas que enruta tokens para seleccionar "expertos". Durante el entrenamiento, cada "experto" se especializa en un tipo concreto de token; por ejemplo, un experto puede aprender a especializarse en puntuación mientras que otro se encarga de las preposiciones, y la red de compuertas aprende a dirigir cada token al experto o expertos más adecuados.
En lugar de activar todos los parámetros del modelo para cada token, un modelo MoE activa sólo a los “expertos” más adecuados para ese token. DeepSeek-V3 tiene un recuento total de parámetros de 671 mil millones, pero tiene un recuento de parámetros activos de solo 37 mil millones. En otras palabras, sólo emplea 37 mil millones de sus 671 mil millones de parámetros para cada token que lee o produce resultados.
Bien hecho, este enfoque de MoE equilibra la capacidad de su recuento total de parámetros con la eficiencia de su recuento de parámetros activos. En términos generales, esto explica cómo DeepSeek-V3 ofrece tanto las capacidades de un modelo masivo como la velocidad de uno más pequeño.
Los MoE llamaron mucho la atención cuando Mistral AI lanzó Mixtral 8x7B a finales de 2023, y corría el rumor de que GPT-4 era un MoE. Si bien algunos proveedores de modelos, en particular IBM Granite, Databricks, Mistral y DeepSeek, han continuado trabajando en modelos MoE desde entonces, muchos continúan enfocándose en modelos "densos" tradicionales.
Entonces, si son tan buenos, ¿por qué los MoE no son más omnipresentes? Hay dos explicaciones sencillas:
DeepSeek-V3 presenta una serie de modificaciones de ingeniería inteligentes en la arquitectura básica de MoE que aumentan su estabilidad al tiempo que disminuyen el uso de memoria y reducen aún más sus requisitos de cálculo. Algunas de estas modificaciones se introdujeron en su predecesor, DeepSeek-V2, en mayo de 2024. Vea a continuación tres innovaciones notables:
El mecanismo de atención que impulsa los LLM implica una gran cantidad de multiplicaciones de matrices (a menudo abreviadas como "matmul" en los diagramas) para calcular cómo se relaciona cada token con los demás. Todos esos cálculos intermedios deben moverse en la memoria a medida que las cosas pasan de la entrada a los resultados finales.
La atención latente multicabezal (MLA), introducida por primera vez en DeepSeek-V2, "descompone" cada matriz en dos matrices más pequeñas. Esto duplica el número de multiplicaciones, pero reduce en gran medida el tamaño de todo lo que necesita almacenar en la memoria. En otras palabras, reduce los costos de memoria (al tiempo que aumenta los costos computacionales), lo cual es excelente para los MoE, ya que ya tienen bajos costos computacionales (pero altos costos de memoria).
En resumen: los valores específicos de cada parámetro en DeepSeek-V3 se representan con menos puntos decimales de lo habitual. Esto reduce la precisión, pero aumenta la velocidad y reduce aún más el uso de memoria. Generalmente, los modelos se entrenan con una precisión mayor (a menudo, 16 o 32 bits) y posteriormente se cuantifican a FP8.
La predicción de múltiples tokens, como el término indica, significa que en lugar de predecir solo un token a la vez, el modelo también predice de forma preventiva algunos de los siguientes tokens, lo cual es más fácil de decir que de hacer.
No. Técnicamente, según se informa, DeepSeek gastó alrededor de 5.576 millones de dólares en la ronda final de preentrenamiento de DeepSeek-V3. Sin embargo, esa cifra se sacó drásticamente de contexto.
DeepSeek no ha anunciado cuánto gastó en datos y computación para producir DeepSeek-R1. La cifra ampliamente divulgada de “6 millones de dólares” se refiere específicamente a DeepSeek-V3.
Además, citar solo el costo de la ronda final de preentrenamiento puede ser engañoso. Como expresó Kate Soule, directora de gestión técnica de productos de Granite, de IBM, en un episodio del podcast Mixture of Experts: “Eso es como pensar que si voy a correr una maratón, la única distancia que correré son [esos] 42 km. La realidad es que para llegar a esa carrera, tendré que entrenar durante meses, practicar y correr cientos o miles de kilómetros”.
Incluso la documentación de DeepSeek-V3 deja claro que 5.576 millones de dólares es solo una estimación de cuánto costaría la ronda final de entrenamiento en términos de precios promedio de alquiler de las GPU NVIDIA H800. Excluye todos los costos previos de investigación, experimentación y datos. También excluye su infraestructura de entrenamiento real (un informe de SemiAnalysis estima que DeepSeek ha invertido más de 500 millones de dólares en GPU desde 2023), así como los salarios de los empleados, las instalaciones y otros gastos comerciales típicos.
Para ser claros, gastar solo 5.576 millones de dólares en una ronda preentrenamiento para un modelo de ese tamaño y capacidad sigue siendo impresionante. A modo de comparación, el mismo informe de SemiAnalysis plantea que el preentrenamiento de Claude 3.5 Sonnet de Anthropic (otro candidato al LLM más robusto del mundo (a principios de 2025)) costó decenas de millones de dólares. Esa misma eficiencia de diseño también permite que los costos (y latencia) que supone el funcionamiento de DeepSeek-V3 sean significativamente más bajos que los de su competencia.
La noción de que llegamos a un cambio sustancial de paradigma, o que los desarrolladores de IA occidentales gastaron miles de millones de dólares sin ninguna razón y que ahora se pueden desarrollar nuevos modelos de frontera con costos bajos de 7 cifras que lo incluyen todo, es errónea.
DeepSeek-R1 es impresionante, pero a fin de cuentas es una versión de DeepSeek-V3, que es un modelo enorme. A pesar de su eficiencia, para muchos casos de uso sigue siendo demasiado grande y consume mucha memoria de acceso aleatorio (RAM).
En lugar de desarrollar versiones más pequeñas de DeepSeek-V3 y luego hacer ajuste fino a esos modelos, DeepSeek adoptó un enfoque más directo y replicable: utilizó destilación de conocimientos en modelos de código abierto más pequeños de las familias de modelos Qwen y Llama para que se comportaran como DeepSeek-R1. Esos modelos recibieron el nombre de “DeepSeek-R1-Distill”.
La destilación de conocimientos, en esencia, es una forma abstracta de compresión de modelos. En lugar de entrenar un modelo directamente con los datos de entrenamiento, la destilación de conocimientos entrena a un “modelo alumno” para que emule la forma en que un “modelo maestro” más amplio procesa esos datos de entrenamiento. Los parámetros del modelo alumno se ajustan para producir no solo las mismas salidas finales que el modelo maestro, sino también el mismo proceso de pensamiento, los cálculos intermedios, las predicciones o los pasos de la cadena de pensamientos.
A pesar de sus nombres, los modelos “DeepSeek-R1-Distill” no son en realidad DeepSeek-R1. Son versiones de los modelos Llama y Qwen a los que se les hizo ajuste fino para que actuaran como DeepSeek-R1. Si bien los modelos R1-distill son impresionantes por su tamaño, no están a la altura de los “verdaderos” DeepSeek-R1.
Por lo tanto, si una plataforma determinada afirma ofrecer o usar “R1”, es aconsejable confirmar cuál “R1” se refieren.
Entre el incomparable interés público y los detalles técnicos desconocidos, el bombo publicitario en torno a DeepSeek y sus modelos a veces ha dado lugar a una tergiversación significativa de alguna información básica.
Por ejemplo, a principios de febrero, se publicó una multitud de historias sobre cómo un equipo de UC Berkeley aparentemente “recreó” o “replicó” DeepSeek-R1 con solo 30 dólaresiii, iv, v. Ese es un titular profundamente intrigante con repercusiones asombrosas si es cierto, pero es fundamentalmente erróneo por muchas razones:
En resumen, el equipo de UC Berkeley no recreó DeepSeek-R1 con 30 USD. Simplemente demostró que el método experimental de ajuste fino solo por aprendizaje por refuerzo de DeepSeek, R1-Zero, se puede utilizar para enseñar a modelos pequeños a resolver problemas matemáticos complejos. Su trabajo es interesante, impresionante e importante. Pero sin conocer detalladamente las ofertas de modelos de DeepSeek, para lo cual muchos lectores (y escritores) ocupados no tienen tiempo, es fácil tener una idea equivocada.
A medida que desarrolladores y analistas pasen más tiempo con estos modelos, es probable que el revuelo se calme un poco. De la misma manera que aplicar una prueba de coeficiente intelectual por sí sola no es una forma adecuada de contratar empleados, los resultados de evaluaciones comparativas sin procesar no son suficientes para determinar si un modelo es el “mejor” para su caso de uso específico. Los modelos, al igual que las personas, tienen fortalezas y debilidades intangibles que lleva tiempo comprender.
Tomará un buen tiempo determinar la eficacia y viabilidad a largo plazo de estos nuevos modelos de DeepSeek en un entorno formal. Como informó WIRED en enero, el desempeño de DeepSeek-R1 fue deficiente en las pruebas de seguridad y jailbreaking. Es probable que haya que solucionar estos problemas para que R1 o V3 sean seguras para la mayoría de los usos empresariales.
Mientras tanto, llegarán nuevos modelos y seguirán avanzando para mantenerse a la vanguardia. Debe tener en cuenta que GPT-4o y Claude 3.5 Sonnet, los principales modelos de código cerrado con los que se comparan los modelos de DeepSeek, se lanzaron por primera vez el verano pasado: hace toda una vida en términos de IA generativa. Tras el lanzamiento de R1, Alibaba anunció el lanzamiento inminente de su propio enorme modelo de mezcla de expertos (MoE) de código abierto, Qwen2.5-Max, que según ellos supera a DeepSeek-V3 en generalvi. Es probable que más proveedores sigan su ejemplo.
Lo más importante es que la industria y la comunidad de código abierto experimentarán con las nuevas y apasionantes ideas que DeepSeek aportó, integrándolas o adaptándolas para nuevos modelos y técnicas. La belleza de la innovación de código abierto es que una marea creciente eleva a todos los barcos.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
[i] “Large language models are zero-shot reasoners”, arXiv, 24 de mayo de 2022
[ii] “Introducing Llama 3.1: Our most capable models to date”, Meta, 24 de julio de 2024
[iii] “Team Says They’ve Recreated DeepSeek’s OpenAI Killer for Literally $30”, Futurism, 30 de enero de 2025
[iv] “DeepSeek AI replicated for just $30 using Countdown game” The Independent, 3 de febrero de 2025
[v] “Berkeley Research Replicate DeepSeek R1’s Core Tech for Just $30”, XYZ Labs, 26 de enero de 2025
[vi] “Qwen2.5-Max: Exploring the Intelligence of Large-Scale MoE Model”, Qwen, 28 de enero de 2025