La sortie en janvier 2025 de DeepSeek-R1 a provoqué une avalanche d’articles sur DeepSeek, qui est à la fois le nom de l’entreprise, des modèles qu’elle crée et du chatbot alimenté par ces modèles. Compte tenu de la couverture médiatique et de l’engouement économique suscité par un tel bouleversement du paysage de l’IA, il peut être difficile de distinguer les faits des spéculations, et les spéculations de la fiction.
Voici un guide simple qui vous permettra de faire le tri dans les articles sur DeepSeek, à séparer le vrai du faux, et à ignorer ce qui tient du battage médiatique et des exagérations. Nous allons commencer par un bref historique de l’entreprise, expliquer les différences entre chaque nouveau modèle DeepSeek et présenter ses innovations les plus intéressantes (sans entrer dans des détails trop techniques).
Voici un bref aperçu des sujets que nous allons aborder :
DeepSeek est un laboratoire de recherche en IA basé à Hangzhou, en Chine. C’est également le nom des modèles d’IA générative à poids ouverts qu’il développe. Fin janvier 2025, son LLM DeepSeek-R1 a fait la une des journaux technologiques et financiers grand public en raison de ses performances comparables à celles des meilleurs modèles propriétaires d’OpenAI, Anthropic et Google à un prix nettement inférieur.
Les origines de DeepSeek (la société) remontent à celles de High-Flyer, un fonds spéculatif chinois fondé en 2016 par un trio d’informaticiens, axé sur les stratégies de trading algorithmique. En 2019, la société utilise le produit de ses opérations de trading pour créer une filiale axée sur l’IA : High-Flyer AI. Elle investit 28 millions de dollars dans une infrastructure d’entraînement basé sur l’apprentissage profond, un investissement qu’elle quintuplera en 2021.
En 2023, la recherche en IA de High-Flyer s’est développée au point qu’elle justifie la création d’une entité distincte exclusivement axée sur l’IA, plus précisément sur le développement d’une intelligence artificielle générale (AGI). Le laboratoire de recherche fondé à cet effet est nommé DeepSeek, High-Flyer étant son principal investisseur. Depuis le lancement de DeepSeek-Coder en novembre 2023, DeepSeek a développé une série de modèles à poids ouverts très appréciés, principalement axés sur les performances mathématiques et de codage.
En décembre 2024, le laboratoire publie DeepSeek-V3, le LLM sur lequel s’appuie DeepSeek-R1. Les performances révolutionnaires de DeepSeek-V3 et DeepSeek-R1 positionnent le laboratoire comme un leader inattendu du développement de l’IA générative.
DeepSeek-R1 est un modèle de raisonnement créé en affinant un LLM (DeepSeek-V3). Il génère un processus étendu de chaîne de pensée (CoT) étape par étape avant de déterminer la « sortie » finale fournie à l’utilisateur. Parmi les autres modèles de raisonnement, citons o1 (basé sur GPT-4o) et o3 d’OpenAI, Gemini Flash 2.0 Thinking de Google (basé sur Gemini Flash) et open QwQ (« Qwen with Questions ») d’Alibaba, basé sur son modèle Qwen2.5.
L’idée à l’origine des modèles de raisonnement provient des premières recherches qui ont démontré que le simple fait d’ajouter l’expression « penser étape par étape » améliorait considérablement les résultats des modèles.i Des recherches ultérieures de Google DeepMind ont émis l’hypothèse que l’augmentation des ressources de calcul au moment du test (la quantité de ressources utilisées pour générer une sortie) pouvait améliorer les performances du modèle autant que l’augmentation des ressources de calcul au moment de l’entraînement (les ressources utilisées pour entraîner un modèle).
Bien que les modèles de raisonnement soient plus lents et plus coûteux (vous devez toujours générer (et payer) tous les tokens utilisés pour « réfléchir » à la réponse finale, des tokens qui consomment votre fenêtre de contexte disponible), ils ont repoussé les limites des performances de pointe établies à la publication d’o1 par OpenAI. Plus particulièrement, entraîner les modèles à donner la priorité à la planification et à la prévoyance leur permet d’exécuter certaines tâches impliquant des problèmes complexes de mathématiques et de raisonnement auparavant impossibles à résoudre pour les LLM.
Pour en savoir plus sur les modèles de raisonnement, consultez cet excellent guide visuel de Maarten Grootendorst.
Les performances de DeepSeek-R1 rivalisent avec celles des modèles les plus populaires, notamment o1 d’OpenAI et Claude 3.5 Sonnet d’Anthropic, sur les tâches de mathématiques, de codage et de raisonnement. Peu importe lequel est le « meilleur » modèle (un avis subjectif qui dépend de la situation), c’est un exploit remarquable pour un modèle ouvert. Mais les aspects les plus importants de R1 concernent les techniques d’entraînement qu’il a introduites dans la communauté open source.
En règle générale, la transformation d’un LLM standard d’un modèle non entraîné à un modèle prêt pour les utilisateurs finaux implique le processus suivant :
Pour les modèles de raisonnement propriétaires tels qu’o1, les détails spécifiques de cette dernière étape sont généralement un secret commercial bien protégé. Mais DeepSeek a publié un document technique détaillant son processus.
Lorsqu’il a tenté pour la première fois de transformer DeepSeek-V3 en modèle de raisonnement, DeepSeek a ignoré l’étape d’affinage supervisé. Il est passé directement du préentraînement à un simple procédé d’apprentissage par renforcement :
Le modèle résultant (publié sous le nom de « DeepSeek-R1-Zero ») a appris à générer des chaînes de pensée complexes et à utiliser des stratégies de raisonnement qui ont donné des performances impressionnantes sur les tâches mathématiques et de raisonnement. Le processus était simple et évitait l’utilisation de données étiquetées coûteuses pour l’affinage supervisé. Malheureusement, comme l’explique le document technique « DeepSeek-R1-Zero rencontre des problèmes comme les répétitions sans fin, une mauvaise lisibilité et le mélange de langues ».
Pour entraîner le successeur de R1-Zero, DeepSeek-R1, DeepSeek a modifié ce processus :
Mais l’évolution du modèle ne se résume pas à ce processus d’affinage. Le modèle de base utilisé pour entraîner R1, DeepSeek-V3, a eu lui aussi son rôle à jouer.
DeepSeek-V3, au cœur de DeepSeek-R1, est un modèle de langage mixture of experts (MoE, mélange d’experts) comptant 671 milliards (671B) de paramètres et basé sur du texte uniquement. Il s’agit sans doute du LLM open source le plus performant disponible en février 2025, en particulier pour les tâches de mathématiques, de raisonnement et de codage. Plus important encore, il est nettement plus rapide et moins coûteux à utiliser que les autres LLM les plus populaires.
Avec 671 milliards de paramètres, ce modèle est énorme.Pour remettre les choses dans leur contexte, lorsque Meta a lancé Llama 3.1 405B, un modèle 40 % plus petit que DeepSeek-V3, en juillet 2024, son annonce officielle le décrivait comme « le modèle de fondation le plus grand et le plus performant au monde en disponibilité ouverte ».ii Le modèle original de ChatGPT, GPT-3.5, comptait 175 milliards de paramètres. Il convient de noter que la plupart des grands développeurs, notamment OpenAI, Anthropic et Google, ne divulguent pas le nombre de paramètres de leurs modèles propriétaires.
Un nombre de paramètres plus important augmente généralement les « capacités » d’un modèle en termes de connaissances et de complexité. Plus la quantité de paramètres est élevée, plus il y a de possibilités d’ajuster le modèle, ce qui lui confère une plus grande capacité à s’adapter à toutes les nuances des données d’apprentissage. Mais l’augmentation du nombre de paramètres d’un modèle augmente également ses besoins en calcul, le rendant plus lent et plus coûteux.
Alors, comment DeepSeek-V3 (et donc DeepSeek-R1) parvient-il à rester rapide et bon marché ? La réponse réside principalement dans cette architecture de mélange d’experts et dans la manière dont DeepSeek l’a modifiée.
Une architecture de mélange d’experts (MoE, mixture of experts) divise les couches d’un réseau de neurones en sous-réseaux distincts (ou réseaux experts) et ajoute un réseau de sélection qui achemine les tokens vers des « experts » spécifiques. Au cours de l’entraînement, chaque « expert » se spécialise dans un type spécifique de token. Par exemple, un expert peut se spécialiser dans la ponctuation tandis qu’un autre gérera les prépositions. Le réseau de sélection apprend à acheminer chaque token vers le ou les experts les plus appropriés.
Au lieu d’activer chaque paramètre de modèle pour chaque token, un modèle MoE active uniquement les « experts » les mieux adaptés à ce token. DeepSeek-V3 compte 671 milliards de paramètres au total, mais seulement 37 milliards de paramètres actifs. En d’autres termes, il n’utilise que 37 milliards de paramètres sur les 671 milliards qu’il compte pour chaque token qu’il lit ou qu’il produit.
Bien menée, cette approche MoE équilibre la capacité du nombre total de paramètres avec l’efficacité du nombre de paramètres actifs. D'une manière générale, cela explique comment DeepSeek-V3 offre à la fois les capacités d’un modèle massif et la vitesse d’un modèle plus petit.
Les MoE ont attiré beaucoup d’attention lorsque Mistral AI a publié Mixtral 8x7B fin 2023, et que la rumeur disait que GPT-4 était un MoE. Bien que certains fournisseurs de modèles, notamment IBM Granite, Databricks, Mistral et DeepSeek, aient continué à travailler sur les modèles MoE depuis, beaucoup continuent de se concentrer sur des modèles « denses » traditionnels.
Alors, s’ils sont si formidables, pourquoi les MoE ne sont-ils pas plus omniprésents ? Il existe deux explications simples à cela :
DeepSeek-V3 apporte un certain nombre de modifications techniques intelligentes à l’architecture MoE de base qui augmentent sa stabilité tout en réduisant son utilisation de mémoire et ses besoins en calcul. Certaines de ces modifications ont été introduites dans son prédécesseur, DeepSeek-V2, en mai 2024. Citons trois innovations notables :
Le mécanisme d’attention qui alimente les LLM implique un nombre immense de multiplications matricielles (souvent abrégées sous la forme « matmul » dans les diagrammes) pour le calcul des relations de tous les tokens les uns avec les autres. Tous ces calculs intermédiaires doivent être stockés en mémoire à chaque étape, de l’entrée à la sortie finale.
L’attention latente multi-tête (MLA), introduite pour la première fois dans DeepSeek-V2, « décompose » chaque matrice en deux matrices plus petites. Cela double le nombre de multiplications, mais réduit considérablement la taille de tout ce qu’il faut stocker en mémoire. En d’autres termes, cela réduit les coûts de mémoire (tout en augmentant les coûts computationnels), parfait pour les MoE, puisqu’ils ont déjà des coûts de calcul faibles (mais des coûts de mémoire élevés).
En bref : les valeurs spécifiques de chaque paramètre de DeepSeek-V3 sont représentées avec moins de points décimaux que d’habitude. Cela réduit la précision, mais augmente la vitesse et réduit davantage l’utilisation de la mémoire. En général, les modèles sont entraînés avec une précision supérieure (souvent sur 16 ou 32 bits), puis quantifiés en FP8.
La prédiction multi-token porte bien son nom : au lieu de prédire un seul token à la fois, le modèle prédit une partie des tokens suivants de manière anticipée, ce qui est plus facile à dire qu’à faire.
Non. Techniquement, DeepSeek aurait prétendument dépensé environ 5,576 millions de dollars pour la dernière phase de préentraînement de DeepSeek-V3. Cependant, ce chiffre a été sorti de son contexte.
DeepSeek n’a pas indiqué combien il avait dépensé en données et en calculs pour créer DeepSeek-R1. Le montant de « 6 millions de dollars » qui a tant circulé a été spécifiquement injecté dans la technologie DeepSeek-V3.
En outre, il est trompeur de ne citer que le coût de la phase de préentraînement final. Comme l’a souligné Kate Soule, directrice de la gestion technique de produit pour Granite chez IBM, dans un épisode du podcast Mixture of Experts : « C’est un peu comme dire que si je courais un marathon, la seule distance que je parcourrais serait [ces] 42 km. En réalité, cela demande des mois d’entraînement, de pratique, il faut parcourir des centaines ou des milliers de kilomètres avant de se lancer dans cette course. »
Même la publication sur DeepSeek-V3 indique clairement que ces 5,576 millions de dollars ne sont qu’une estimation de ce que la phase d’entraînement final aurait coûté sur la base du prix moyen de location des GPU NVIDIA H800. Cela s’entend donc hors coûts engagés pour la recherche, l’expérimentation et les données. Cela exclut également l’infrastructure d’entraînement en elle-même (un rapport de SemiAnalysis estime que DeepSeek aurait investi plus de 500 millions de dollars dans ses GPU depuis 2023), ainsi que les salaires des employés, les installations et d’autres dépenses connexes typiques.
Mais soyons clairs, parvenir à dépenser seulement 5,576 millions de dollars pour une phase de préentraînement sur un modèle de cette taille et de cette capacité reste tout à fait impressionnant. À titre de comparaison, le même rapport de SemiAnalysis affirme que le préentraînement de Claude 3.5 Sonnet d’Anthropic, un autre candidat au titre de LLM le plus puissant au monde (début 2025), a coûté des dizaines de millions de dollars. Cette même efficacité de conception permet également à DeepSeek-V3 d’être exploité à un coût (et une latence) nettement inférieur à celui de ses concurrents.
Mais détrompez-vous, aucun changement de paradigme drastique n’a eu lieu. Non, les développeurs d’IA occidentaux n’ont pas dépensé des milliards de dollars sans raison et non, de nouveaux modèles de pointe ne peuvent pas désormais être développés pour des coûts globaux de 10 millions de dollars.
DeepSeek-R1 est impressionnant, mais c’est en fin de compte une version de DeepSeek-V3, qui est un modèle énorme. Malgré son efficacité, il reste trop volumineux et trop gourmand en mémoire vive pour de nombreux cas d’utilisation.
Plutôt que de développer des versions plus petites de DeepSeek-V3 et d’affiner ces modèles, DeepSeek a adopté une approche plus directe et plus reproductible, en utilisant la distillation des connaissances sur de plus petits modèles open source issus des familles Qwen et Llama pour qu’ils se comportent comme DeepSeek-R1. Il a nommé ces modèles « DeepSeek-R1-Distill ».
La distillation des connaissances est une forme abstraite de compression de modèle. Plutôt que de simplement entraîner un modèle directement sur les données d’apprentissage, la distillation des connaissances entraîne un « modèle élève » à émuler la manière dont un « modèle enseignant » plus grand traite ces données d’entraînement. Les paramètres du modèle élève sont ajustés pour produire non seulement les mêmes sorties finales que le modèle enseignant, mais aussi le même processus de pensée (calculs intermédiaires, prédictions ou étapes de la chaîne de pensée).
Malgré leur nom, les modèles « DeepSeek-R1-Distill » ne sont pas basés sur DeepSeek-R1. Il s’agit de versions des modèles Llama et Qwen affinées pour agir comme DeepSeek-R1. Bien que les modèles R1-distills soient impressionnants pour leur taille, leurs performances ne sont pas comparables à celles du « véritable » modèle DeepSeek-R1.
Par conséquent, si une plateforme prétend offrir ou utiliser le modèle « R1 », il est judicieux de vérifier de quel modèle « R1 » il s’agit.
Entre l’intérêt public sans précédent et les détails techniques inhabituels, l’engouement autour de DeepSeek et ses modèles a parfois mené à des fausses représentations de certains faits de base.
Par exemple, au début du mois de février, une nuée d’articles a été publiée racontant comment une équipe de l’UC Berkeley avait apparemment « recréé » ou « répliqué » DeepSeek-R1 pour seulement 30 $.iii iv v Ce gros titre très intrigant qui aurait des implications incroyables si ce qu’il avance était véridique est fondamentalement inexact à de nombreux égards :
En bref, l’équipe de l’UC Berkeley n’a pas recréé DeepSeek-R1 pour 30 $. Elle a simplement montré que l’approche expérimentale de DeepSeek, R1-Zero, basée uniquement sur l’apprentissage par renforcement, peut être utilisée pour entraîner de petits modèles à résoudre des problèmes mathématiques complexes. Son travail est intéressant, impressionnant et important. Mais sans une compréhension assez détaillée des modèles proposés par DeepSeek, que de nombreux lecteurs (et rédacteurs) très occupés n’ont pas le temps de creuser, il est facile de se méprendre.
Les développeurs et les analystes vont passer du temps sur ces modèles, et l’engouement finira par s’atténuer. Tout comme un test de QI à lui seul n’est pas un bon moyen de recruter des employés, les résultats bruts des analyses comparatives ne suffisent pas à déterminer si tel modèle est le « meilleur » pour votre cas d’utilisation spécifique. Les modèles, comme les personnes, ont des points forts et des points faibles intangibles dont la compréhension prend du temps.
Il faudra un certain temps pour déterminer l’efficacité à long terme et la praticité de ces nouveaux modèles DeepSeek dans un contexte formel. Comme l’a souligné WIRED en janvier, DeepSeek-R1 a obtenu des résultats médiocres aux tests de sécurité et de débridage. Ces problèmes devront être résolus afin de garantir la sûreté de R1 ou V3 pour la plupart des utilisations en entreprise.
En attendant, de nouveaux modèles arriveront et continueront à repousser les limites. Prenons l’exemple de GPT-4o et Claude 3.5 Sonnet, les principaux modèles à source fermée auxquels les modèles DeepSeek sont comparés, sont sortis l’été dernier : ce qui représente une éternité en termes d’IA générative. Après la publication de R1, Alibaba a annoncé la publication imminente de son propre modèle MoE open source massif, Qwen2.5-Max, qui selon ses dires, surpasse DeepSeek-V3 dans tous les domaines.vi D’autres fournisseurs suivront probablement cet exemple.
Plus important encore, le secteur et la communauté open source vont expérimenter les nouvelles idées intéressantes de DeepSeek, en les intégrant ou en les adaptant à de nouveaux modèles et techniques. La beauté de l’innovation open source, c’est qu’une marée montante soulève tous les bateaux.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
[i] « Large language models are zero-shot reasoners », arXiv, 24 mai 2022
[ii] « Introducing Llama 3.1: Our most capable models to date », Meta, 24 juillet 2024
[iii] « Team Says They’ve Recreated DeepSeek’s OpenAI Killer for Literally $30 », Futurism, 30 janvier 2025
[iv] « DeepSeek AI replicated for just $30 using Countdown game », The Independent, 3 février 2025
[v] « Berkeley Research Replicate DeepSeek R1’s Core Tech for Just $30 », XYZ Labs, 26 janvier 2025
[vi] « Qwen2.5-Max: Exploring the Intelligence of Large-Scale MoE Model », Qwen, 28 janvier 2025