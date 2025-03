DeepSeek-V3, au cœur de DeepSeek-R1, est un modèle de langage mixture of experts (MoE, mélange d’experts) comptant 671 milliards (671B) de paramètres et basé sur du texte uniquement. Il s’agit sans doute du LLM open source le plus performant disponible en février 2025, en particulier pour les tâches de mathématiques, de raisonnement et de codage. Plus important encore, il est nettement plus rapide et moins coûteux à utiliser que les autres LLM les plus populaires.

Avec 671 milliards de paramètres, ce modèle est énorme.Pour remettre les choses dans leur contexte, lorsque Meta a lancé Llama 3.1 405B, un modèle 40 % plus petit que DeepSeek-V3, en juillet 2024, son annonce officielle le décrivait comme « le modèle de fondation le plus grand et le plus performant au monde en disponibilité ouverte ».ii Le modèle original de ChatGPT, GPT-3.5, comptait 175 milliards de paramètres. Il convient de noter que la plupart des grands développeurs, notamment OpenAI, Anthropic et Google, ne divulguent pas le nombre de paramètres de leurs modèles propriétaires.

Un nombre de paramètres plus important augmente généralement les « capacités » d’un modèle en termes de connaissances et de complexité. Plus la quantité de paramètres est élevée, plus il y a de possibilités d’ajuster le modèle, ce qui lui confère une plus grande capacité à s’adapter à toutes les nuances des données d’apprentissage. Mais l’augmentation du nombre de paramètres d’un modèle augmente également ses besoins en calcul, le rendant plus lent et plus coûteux.

Alors, comment DeepSeek-V3 (et donc DeepSeek-R1) parvient-il à rester rapide et bon marché ? La réponse réside principalement dans cette architecture de mélange d’experts et dans la manière dont DeepSeek l’a modifiée.