DeepSeek : faisons le tri dans tout ce battage médiatique

Un groupe de baleines nageant ensemble dans l’océan bleu, le soleil brillant au-dessus d’elles

Auteurs

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

La sortie en janvier 2025 de DeepSeek-R1 a provoqué une avalanche d’articles sur DeepSeek, qui est à la fois le nom de l’entreprise, des modèles qu’elle crée et du chatbot alimenté par ces modèles. Compte tenu de la couverture médiatique et de l’engouement économique suscité par un tel bouleversement du paysage de l’IA, il peut être difficile de distinguer les faits des spéculations, et les spéculations de la fiction.

Voici un guide simple qui vous permettra de faire le tri dans les articles sur DeepSeek, à séparer le vrai du faux, et à ignorer ce qui tient du battage médiatique et des exagérations. Nous allons commencer par un bref historique de l’entreprise, expliquer les différences entre chaque nouveau modèle DeepSeek et présenter ses innovations les plus intéressantes (sans entrer dans des détails trop techniques).

Voici un bref aperçu des sujets que nous allons aborder :

  • Qu’est-ce que DeepSeek ?

  • Qu’est-ce que DeepSeek-R1 exactement ? Nous décrirons le processus d’affinage (« R1 ») de l’entreprise et le grand modèle de langage (LLM) (DeepSeek-V3) auquel elle l’a appliqué pour l’affiner.

  • Qu’est-ce que DeepSeek-V3 ? Nous allons voir en quoi il se distingue des autres LLM.

  • Combien coûte DeepSeek-R1 ? Nous allons clarifier certaines idées fausses qui circulent.

  • Qu’est-ce que DeepSeek-R1-Distill ? Malgré leur nom, les modèles R1-Distill sont fondamentalement différents des modèles R1.

  • Pourquoi avez-vous besoin de savoir tout cela ? Nous vous montrerons en quoi les titres peuvent être trompeurs.

  • Et ensuite ?
Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Qu’est-ce que DeepSeek ?

DeepSeek est un laboratoire de recherche en IA basé à Hangzhou, en Chine. C’est également le nom des modèles d’IA générative à poids ouverts qu’il développe. Fin janvier 2025, son LLM DeepSeek-R1 a fait la une des journaux technologiques et financiers grand public en raison de ses performances comparables à celles des meilleurs modèles propriétaires d’OpenAI, Anthropic et Google à un prix nettement inférieur.

Les origines de DeepSeek (la société) remontent à celles de High-Flyer, un fonds spéculatif chinois fondé en 2016 par un trio d’informaticiens, axé sur les stratégies de trading algorithmique. En 2019, la société utilise le produit de ses opérations de trading pour créer une filiale axée sur l’IA : High-Flyer AI. Elle investit 28 millions de dollars dans une infrastructure d’entraînement basé sur l’apprentissage profond, un investissement qu’elle quintuplera en 2021.

En 2023, la recherche en IA de High-Flyer s’est développée au point qu’elle justifie la création d’une entité distincte exclusivement axée sur l’IA, plus précisément sur le développement d’une intelligence artificielle générale (AGI). Le laboratoire de recherche fondé à cet effet est nommé DeepSeek, High-Flyer étant son principal investisseur. Depuis le lancement de DeepSeek-Coder en novembre 2023, DeepSeek a développé une série de modèles à poids ouverts très appréciés, principalement axés sur les performances mathématiques et de codage.

En décembre 2024, le laboratoire publie DeepSeek-V3, le LLM sur lequel s’appuie DeepSeek-R1. Les performances révolutionnaires de DeepSeek-V3 et DeepSeek-R1 positionnent le laboratoire comme un leader inattendu du développement de l’IA générative.

Qu’est-ce que DeepSeek-R1 ?

DeepSeek-R1 est un modèle de raisonnement créé en affinant un LLM (DeepSeek-V3). Il génère un processus étendu de chaîne de pensée (CoT) étape par étape avant de déterminer la « sortie » finale fournie à l’utilisateur. Parmi les autres modèles de raisonnement, citons o1 (basé sur GPT-4o) et o3 d’OpenAI, Gemini Flash 2.0 Thinking de Google (basé sur Gemini Flash) et open QwQ (« Qwen with Questions ») d’Alibaba, basé sur son modèle Qwen2.5.

L’idée à l’origine des modèles de raisonnement provient des premières recherches qui ont démontré que le simple fait d’ajouter l’expression « penser étape par étape » améliorait considérablement les résultats des modèles.i Des recherches ultérieures de Google DeepMind ont émis l’hypothèse que l’augmentation des ressources de calcul au moment du test (la quantité de ressources utilisées pour générer une sortie) pouvait améliorer les performances du modèle autant que l’augmentation des ressources de calcul au moment de l’entraînement (les ressources utilisées pour entraîner un modèle).

Bien que les modèles de raisonnement soient plus lents et plus coûteux (vous devez toujours générer (et payer) tous les tokens utilisés pour « réfléchir » à la réponse finale, des tokens qui consomment votre fenêtre de contexte disponible), ils ont repoussé les limites des performances de pointe établies à la publication d’o1 par OpenAI. Plus particulièrement, entraîner les modèles à donner la priorité à la planification et à la prévoyance leur permet d’exécuter certaines tâches impliquant des problèmes complexes de mathématiques et de raisonnement auparavant impossibles à résoudre pour les LLM.

Pour en savoir plus sur les modèles de raisonnement, consultez cet excellent guide visuel de Maarten Grootendorst.
 

Pourquoi DeepSeek-R1 est-il important ?

Les performances de DeepSeek-R1 rivalisent avec celles des modèles les plus populaires, notamment o1 d’OpenAI et Claude 3.5 Sonnet d’Anthropic, sur les tâches de mathématiques, de codage et de raisonnement. Peu importe lequel est le « meilleur » modèle (un avis subjectif qui dépend de la situation), c’est un exploit remarquable pour un modèle ouvert. Mais les aspects les plus importants de R1 concernent les techniques d’entraînement qu’il a introduites dans la communauté open source.

En règle générale, la transformation d’un LLM standard d’un modèle non entraîné à un modèle prêt pour les utilisateurs finaux implique le processus suivant :

  1. Préentraînement : le modèle apprend des schémas linguistiques à l’aide d’un apprentissage autosupervisé.

  2. Affinage supervisé (SFT) : le modèle apprend à appliquer ces schémas linguistiques à partir d’exemples étiquetés.

  3. Apprentissage par renforcement (RL) : le modèle est guidé vers des considérations plus spécifiques et abstraites. Pour les modèles standard orientés chat, cette étape implique généralement un apprentissage par renforcement à partir des commentaires humains (RLHF), qui permet de rendre les réponses plus utiles et plus inoffensives. Pour les modèles de raisonnement, le RL est utilisé pour encourager un « processus de pensée » plus long et approfondi.

Pour les modèles de raisonnement propriétaires tels qu’o1, les détails spécifiques de cette dernière étape sont généralement un secret commercial bien protégé. Mais DeepSeek a publié un document technique détaillant son processus.
 

Fonctionnement de DeepSeek-R1

Lorsqu’il a tenté pour la première fois de transformer DeepSeek-V3 en modèle de raisonnement, DeepSeek a ignoré l’étape d’affinage supervisé. Il est passé directement du préentraînement à un simple procédé d’apprentissage par renforcement :

  • Interrogation du modèle : poser une question au modèle. Demander au modèle de générer son processus de pensée entre les balises <think> et </think>, et de générer sa réponse finale entre les balises <answer> et </answer>.

  • Récompenses de précision : récompenser le modèle pour la qualité de sa réponse (par exemple, en fonction de l’efficacité de l’exécution d’un code généré).

  • Récompenses de format : récompenser le modèle lorsqu’il utilise correctement les formats <think> et <answer> dans ses réponses.

Le modèle résultant (publié sous le nom de « DeepSeek-R1-Zero ») a appris à générer des chaînes de pensée complexes et à utiliser des stratégies de raisonnement qui ont donné des performances impressionnantes sur les tâches mathématiques et de raisonnement. Le processus était simple et évitait l’utilisation de données étiquetées coûteuses pour l’affinage supervisé. Malheureusement, comme l’explique le document technique « DeepSeek-R1-Zero rencontre des problèmes comme les répétitions sans fin, une mauvaise lisibilité et le mélange de langues ».

Pour entraîner le successeur de R1-Zero, DeepSeek-R1, DeepSeek a modifié ce processus :

  1. Le laboratoire a commencé par un affinage supervisé classique pour éviter un « démarrage à froid »

  2. Il a ensuite utilisé un apprentissage par renforcement similaire à celui de R1-Zero, avec un terme de récompense supplémentaire pour éviter le mélange des langues.

  3. Le modèle affiné suite à l’apprentissage par renforcement (et le modèle de base DeepSeek-V3) a ensuite été utilisé pour générer 800 000 exemples supplémentaires pour l’affinage supervisé.

  4. Un affinage supervisé supplémentaire a été ajouté.

  5. Une étape d’apprentissage par renforcement similaire à celui de R1-Zéro a été ajoutée.

  6. Un apprentissage par renforcement à partir des commentaires humains (RLHF) conventionnel a été appliqué.

Mais l’évolution du modèle ne se résume pas à ce processus d’affinage. Le modèle de base utilisé pour entraîner R1, DeepSeek-V3, a eu lui aussi son rôle à jouer.

Qu’est-ce que DeepSeek-V3 ?

DeepSeek-V3, au cœur de DeepSeek-R1, est un modèle de langage mixture of experts (MoE, mélange d’experts) comptant 671 milliards (671B) de paramètres et basé sur du texte uniquement. Il s’agit sans doute du LLM open source le plus performant disponible en février 2025, en particulier pour les tâches de mathématiques, de raisonnement et de codage. Plus important encore, il est nettement plus rapide et moins coûteux à utiliser que les autres LLM les plus populaires.

Avec 671 milliards de paramètres, ce modèle est énorme.Pour remettre les choses dans leur contexte, lorsque Meta a lancé Llama 3.1 405B, un modèle 40 % plus petit que DeepSeek-V3, en juillet 2024, son annonce officielle le décrivait comme « le modèle de fondation le plus grand et le plus performant au monde en disponibilité ouverte ».ii Le modèle original de ChatGPT, GPT-3.5, comptait 175 milliards de paramètres. Il convient de noter que la plupart des grands développeurs, notamment OpenAI, Anthropic et Google, ne divulguent pas le nombre de paramètres de leurs modèles propriétaires.

Un nombre de paramètres plus important augmente généralement les « capacités » d’un modèle en termes de connaissances et de complexité. Plus la quantité de paramètres est élevée, plus il y a de possibilités d’ajuster le modèle, ce qui lui confère une plus grande capacité à s’adapter à toutes les nuances des données d’apprentissage. Mais l’augmentation du nombre de paramètres d’un modèle augmente également ses besoins en calcul, le rendant plus lent et plus coûteux.

Alors, comment DeepSeek-V3 (et donc DeepSeek-R1) parvient-il à rester rapide et bon marché ? La réponse réside principalement dans cette architecture de mélange d’experts et dans la manière dont DeepSeek l’a modifiée.
 

Qu’est-ce qu’un modèle mixture of experts (MoE) ou mélange d’experts ?

Une architecture de mélange d’experts (MoE, mixture of experts) divise les couches d’un réseau de neurones en sous-réseaux distincts (ou réseaux experts) et ajoute un réseau de sélection qui achemine les tokens vers des « experts » spécifiques. Au cours de l’entraînement, chaque « expert » se spécialise dans un type spécifique de token. Par exemple, un expert peut se spécialiser dans la ponctuation tandis qu’un autre gérera les prépositions. Le réseau de sélection apprend à acheminer chaque token vers le ou les experts les plus appropriés.

Au lieu d’activer chaque paramètre de modèle pour chaque token, un modèle MoE active uniquement les « experts » les mieux adaptés à ce token. DeepSeek-V3 compte 671 milliards de paramètres au total, mais seulement 37 milliards de paramètres actifs. En d’autres termes, il n’utilise que 37 milliards de paramètres sur les 671 milliards qu’il compte pour chaque token qu’il lit ou qu’il produit.

Bien menée, cette approche MoE équilibre la capacité du nombre total de paramètres avec l’efficacité du nombre de paramètres actifs. D'une manière générale, cela explique comment DeepSeek-V3 offre à la fois les capacités d’un modèle massif et la vitesse d’un modèle plus petit.

Les MoE ont attiré beaucoup d’attention lorsque Mistral AI a publié Mixtral 8x7B fin 2023, et que la rumeur disait que GPT-4 était un MoE. Bien que certains fournisseurs de modèles, notamment IBM Granite, Databricks, Mistral et DeepSeek, aient continué à travailler sur les modèles MoE depuis, beaucoup continuent de se concentrer sur des modèles « denses » traditionnels.

Alors, s’ils sont si formidables, pourquoi les MoE ne sont-ils pas plus omniprésents ? Il existe deux explications simples à cela :

  • Parce que les MoE sont plus complexes, ils sont également plus difficiles à entraîner et à affiner.

  • Si l’architecture MoE réduit les coûts computationnels, elle ne réduit pas les coûts de mémoire : même si tous les paramètres ne sont pas activés en même temps, il faut tout de même les stocker en mémoire au cas où ils seraient activés pour un token donné. Par conséquent, les MoE nécessitent autant de RAM que les modèles denses de la même taille, ce qui constitue toujours un goulot d’étranglement majeur.

En quoi le MoE de DeepSeek est-il unique ?

DeepSeek-V3 apporte un certain nombre de modifications techniques intelligentes à l’architecture MoE de base qui augmentent sa stabilité tout en réduisant son utilisation de mémoire et ses besoins en calcul. Certaines de ces modifications ont été introduites dans son prédécesseur, DeepSeek-V2, en mai 2024. Citons trois innovations notables :

Attention latente multi-tête (MLA)

Le mécanisme d’attention qui alimente les LLM implique un nombre immense de multiplications matricielles (souvent abrégées sous la forme « matmul » dans les diagrammes) pour le calcul des relations de tous les tokens les uns avec les autres. Tous ces calculs intermédiaires doivent être stockés en mémoire à chaque étape, de l’entrée à la sortie finale.

L’attention latente multi-tête (MLA), introduite pour la première fois dans DeepSeek-V2, « décompose » chaque matrice en deux matrices plus petites. Cela double le nombre de multiplications, mais réduit considérablement la taille de tout ce qu’il faut stocker en mémoire. En d’autres termes, cela réduit les coûts de mémoire (tout en augmentant les coûts computationnels), parfait pour les MoE, puisqu’ils ont déjà des coûts de calcul faibles (mais des coûts de mémoire élevés).

Entraînement en FP8 (précision flottante sur 8 bits)

En bref : les valeurs spécifiques de chaque paramètre de DeepSeek-V3 sont représentées avec moins de points décimaux que d’habitude. Cela réduit la précision, mais augmente la vitesse et réduit davantage l’utilisation de la mémoire. En général, les modèles sont entraînés avec une précision supérieure (souvent sur 16 ou 32 bits), puis quantifiés en FP8.

Prédiction multi-token (MTP)

La prédiction multi-token porte bien son nom : au lieu de prédire un seul token à la fois, le modèle prédit une partie des tokens suivants de manière anticipée, ce qui est plus facile à dire qu’à faire.

 

DeepSeek-R1 a-t-il vraiment seulement coûté 5,5 millions de dollars ?

Non. Techniquement, DeepSeek aurait prétendument dépensé environ 5,576 millions de dollars pour la dernière phase de préentraînement de DeepSeek-V3. Cependant, ce chiffre a été sorti de son contexte.

DeepSeek n’a pas indiqué combien il avait dépensé en données et en calculs pour créer DeepSeek-R1. Le montant de « 6 millions de dollars » qui a tant circulé a été spécifiquement injecté dans la technologie DeepSeek-V3.

En outre, il est trompeur de ne citer que le coût de la phase de préentraînement final. Comme l’a souligné Kate Soule, directrice de la gestion technique de produit pour Granite chez IBM, dans un épisode du podcast Mixture of Experts : « C’est un peu comme dire que si je courais un marathon, la seule distance que je parcourrais serait [ces] 42 km. En réalité, cela demande des mois d’entraînement, de pratique, il faut parcourir des centaines ou des milliers de kilomètres avant de se lancer dans cette course. »

Même la publication sur DeepSeek-V3 indique clairement que ces 5,576 millions de dollars ne sont qu’une estimation de ce que la phase d’entraînement final aurait coûté sur la base du prix moyen de location des GPU NVIDIA H800. Cela s’entend donc hors coûts engagés pour la recherche, l’expérimentation et les données. Cela exclut également l’infrastructure d’entraînement en elle-même (un rapport de SemiAnalysis estime que DeepSeek aurait investi plus de 500 millions de dollars dans ses GPU depuis 2023), ainsi que les salaires des employés, les installations et d’autres dépenses connexes typiques.

Mais soyons clairs, parvenir à dépenser seulement 5,576 millions de dollars pour une phase de préentraînement sur un modèle de cette taille et de cette capacité reste tout à fait impressionnant. À titre de comparaison, le même rapport de SemiAnalysis affirme que le préentraînement de Claude 3.5 Sonnet d’Anthropic, un autre candidat au titre de LLM le plus puissant au monde (début 2025), a coûté des dizaines de millions de dollars. Cette même efficacité de conception permet également à DeepSeek-V3 d’être exploité à un coût (et une latence) nettement inférieur à celui de ses concurrents.

Mais détrompez-vous, aucun changement de paradigme drastique n’a eu lieu. Non, les développeurs d’IA occidentaux n’ont pas dépensé des milliards de dollars sans raison et non, de nouveaux modèles de pointe ne peuvent pas désormais être développés pour des coûts globaux de 10 millions de dollars.

 

Modèles DeepSeek-R1-distill

DeepSeek-R1 est impressionnant, mais c’est en fin de compte une version de DeepSeek-V3, qui est un modèle énorme. Malgré son efficacité, il reste trop volumineux et trop gourmand en mémoire vive pour de nombreux cas d’utilisation.

Plutôt que de développer des versions plus petites de DeepSeek-V3 et d’affiner ces modèles, DeepSeek a adopté une approche plus directe et plus reproductible, en utilisant la distillation des connaissances sur de plus petits modèles open source issus des familles Qwen et Llama pour qu’ils se comportent comme DeepSeek-R1. Il a nommé ces modèles « DeepSeek-R1-Distill ».

La distillation des connaissances est une forme abstraite de compression de modèle. Plutôt que de simplement entraîner un modèle directement sur les données d’apprentissage, la distillation des connaissances entraîne un « modèle élève » à émuler la manière dont un « modèle enseignant » plus grand traite ces données d’entraînement. Les paramètres du modèle élève sont ajustés pour produire non seulement les mêmes sorties finales que le modèle enseignant, mais aussi le même processus de pensée (calculs intermédiaires, prédictions ou étapes de la chaîne de pensée).

Malgré leur nom, les modèles « DeepSeek-R1-Distill » ne sont pas basés sur DeepSeek-R1. Il s’agit de versions des modèles Llama et Qwen affinées pour agir comme DeepSeek-R1. Bien que les modèles R1-distills soient impressionnants pour leur taille, leurs performances ne sont pas comparables à celles du « véritable » modèle DeepSeek-R1.

Par conséquent, si une plateforme prétend offrir ou utiliser le modèle « R1 », il est judicieux de vérifier de quel modèle « R1 » il s’agit.

 

Informations trompeuses rapportées sur DeepSeek

Entre l’intérêt public sans précédent et les détails techniques inhabituels, l’engouement autour de DeepSeek et ses modèles a parfois mené à des fausses représentations de certains faits de base.  

Par exemple, au début du mois de février, une nuée d’articles a été publiée racontant comment une équipe de l’UC Berkeley avait apparemment « recréé » ou « répliqué » DeepSeek-R1 pour seulement 30 $.iii iv v Ce gros titre très intrigant qui aurait des implications incroyables si ce qu’il avance était véridique est fondamentalement inexact à de nombreux égards :

  • L’équipe de Berkeley n’a pas recréé la technique d’affinage de R1. Elle a répliqué la technique d’affinage basée sur l’apprentissage par renforcement de R1-Zero en suivant les directives décrites dans la publication technique de DeepSeek.

  • L’équipe de Berkeley n'a pas affiné DeepSeek-V3, le modèle à 671 milliards de paramètres qui sert de base à DeepSeek-R1 (et DeepSeek-R1-Zero). En fait, elle a affiné de petits modèles Qwen2.5 open source (et a obtenu de bons résultats avec les variantes 1.5B, 3B et 7B). Bien entendu, il est beaucoup moins coûteux d’affiner un modèle comptant 1,5 milliard de paramètres qu’un modèle en comptant 671 milliards, le premier étant littéralement des centaines de fois plus petit.

  • Elle n’a testé les performances de ses modèles miniatures inspirés de R1-Zero que sur une seule tâche mathématique. Comme l’a précisé l’ingénieur Jiayi Pan, l’expérience n’a porté ni sur le code ni sur le raisonnement général.

En bref, l’équipe de l’UC Berkeley n’a pas recréé DeepSeek-R1 pour 30 $. Elle a simplement montré que l’approche expérimentale de DeepSeek, R1-Zero, basée uniquement sur l’apprentissage par renforcement, peut être utilisée pour entraîner de petits modèles à résoudre des problèmes mathématiques complexes. Son travail est intéressant, impressionnant et important. Mais sans une compréhension assez détaillée des modèles proposés par DeepSeek, que de nombreux lecteurs (et rédacteurs) très occupés n’ont pas le temps de creuser, il est facile de se méprendre.

 

Et la suite ?

Les développeurs et les analystes vont passer du temps sur ces modèles, et l’engouement finira par s’atténuer. Tout comme un test de QI à lui seul n’est pas un bon moyen de recruter des employés, les résultats bruts des analyses comparatives ne suffisent pas à déterminer si tel modèle est le « meilleur » pour votre cas d’utilisation spécifique. Les modèles, comme les personnes, ont des points forts et des points faibles intangibles dont la compréhension prend du temps.

Il faudra un certain temps pour déterminer l’efficacité à long terme et la praticité de ces nouveaux modèles DeepSeek dans un contexte formel. Comme l’a souligné WIRED en janvier, DeepSeek-R1 a obtenu des résultats médiocres aux tests de sécurité et de débridage. Ces problèmes devront être résolus afin de garantir la sûreté de R1 ou V3 pour la plupart des utilisations en entreprise.

En attendant, de nouveaux modèles arriveront et continueront à repousser les limites. Prenons l’exemple de GPT-4o et Claude 3.5 Sonnet, les principaux modèles à source fermée auxquels les modèles DeepSeek sont comparés, sont sortis l’été dernier : ce qui représente une éternité en termes d’IA générative. Après la publication de R1, Alibaba a annoncé la publication imminente de son propre modèle MoE open source massif, Qwen2.5-Max, qui selon ses dires, surpasse DeepSeek-V3 dans tous les domaines.vi D’autres fournisseurs suivront probablement cet exemple.

Plus important encore, le secteur et la communauté open source vont expérimenter les nouvelles idées intéressantes de DeepSeek, en les intégrant ou en les adaptant à de nouveaux modèles et techniques. La beauté de l’innovation open source, c’est qu’une marée montante soulève tous les bateaux.

AI Academy

Devenir un expert en IA

Obtenez les connaissances nécessaires pour privilégier les investissements dans l’IA qui favorisent la croissance commerciale. Lancez-vous dès aujourd’hui avec notre AI Academy gratuite et menez l’avenir de l’IA au sein de votre organisation.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct