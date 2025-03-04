Si vous avez lu les gros titres du 20 janvier 2025, vous avez peut-être pensé que le ciel allait vous tomber sur la tête. En effet, la société chinoise DeepSeek a lancé son grand modèle de langage (LLM) R1, qui est rapidement devenu l’un des modèles les plus téléchargés et les plus actifs peu après sa sortie.
Ce qui a suscité l’enthousiasme, c’est le fait que le laboratoire de recherche en IA basé à Hangzhou, en Chine, qui publie des modèles sous son nom, a construit un modèle à un coût bien moindre (5,6 millions de dollars) et avec beaucoup moins de ressources informatiques et d’accès aux puces NVIDIA que les principaux modèles américains.
Comme on pouvait s’y attendre, les gens ont ouvertement craint que certaines des entreprises américaines d’IA fortement financées ne soient sur le point d’être laissées pour compte. Comme DeepSeek utilisait moins de puces NVIDIA que ces autres entreprises, le cours de l’action de la société a chuté. Cependant, il s’agissait davantage d’une réaction instinctive à la nouvelle que d’une réelle inquiétude quant à l’avenir du fabricant de puces.
Les journalistes techniques et économiques ont considéré cette nouvelle comme un choc pour le système. Cependant, pour d’autres experts en IA et moi-même, la seule surprise de l’annonce de R1 de DeepSeek était de voir à quel point tout le monde semblait surpris.
Bien que le modèle soit nouveau, DeepSeek est loin de débarquer sur le marché. L’entreprise a une longue expérience dans la production de modèles open source de grande valeur sur le marché chinois, en particulier son modèle V3 lancé en décembre. Elle a d’ailleurs publié un document technique d’accompagnement, qui offre une formation à tous ceux qui souhaitent approfondir leurs connaissances en matière de construction de ces laboratoires. Le modèle V3 était plus surprenant, mais il est apparemment passé inaperçu.
Le modèle R1 de DeepSeek est bien sûr un autre exemple d’outil d’IA générative qui peut devenir la base de l’avenir de l’IA agentique, où les outils d’IA ne se contentent pas de répondre aux demandes de leurs utilisateurs, mais travaillent de manière indépendante pour leur fournir des services.
Bien qu’IBM s’associe à tous ces modèles et les utilise, nous sommes également de grands défenseurs et ingénieurs du mouvement open source. C’est une excellente nouvelle pour le secteur de voir un modèle open source comme R1 recevoir les éloges qu’il mérite.
Il est compréhensible que les grands acteurs aient été quelque peu déconcertés de voir DeepSeek produire un modèle équivalent ou supérieur à leurs propres modèles, mais construit pour un coût bien inférieur à celui des modèles plus connus. C’est pourtant précisément la raison d’être de la communauté open source.
L’annonce de DeepSeek R1 illustre un contraste marqué : les marchés financiers anticipaient des turbulences, tandis que les spécialistes de l’IA se réjouissaient de cette avancée technologique et de la manière dont elle pourrait inspirer des modèles nouveaux, plus efficaces et plus puissants.
R1 n’a fait que renforcer ce que beaucoup savaient déjà et que le reste du monde est en train de découvrir. DeepSeek s’appuie clairement sur tous ceux qui contribuent à l’environnement open source, notamment IBM, Meta et bien d’autres. Les modèles open source continueront à être à la pointe de l’innovation. Si R1 a initialement bouleversé le système, tout le monde bénéficiera de son existence. D’autant plus que DeepSeek vient d’annoncer une semaine open source, au cours de laquelle la société partage un référentiel open source par jour.
DeepSeek R1 utilise l’approche de machine learning Mixture of Experts (MoE) qui divise un modèle d’intelligence artificielle (IA) en sous-réseaux distincts (ou « experts »), chacun spécialisé dans un sous-ensemble des données d’entrée, afin d’effectuer conjointement une tâche.
Ainsi, lorsque vous utilisez l’approche MoE, tous les paramètres du modèle ne doivent pas nécessairement être activés en même temps. À titre d’exemple, les modèles v3 et R1 de DeepSeek comptent environ 671 milliards de paramètres, mais seuls 37 milliards de paramètres sont actifs à la fois. Ainsi, la très petite partie du modèle qui répond réellement à la question le rend beaucoup plus efficace.
Historiquement, les chercheurs ont rencontré des difficultés d’entraînement avec les modèles MoE. DeepSeek a mis au point des techniques novatrices pour résoudre ces problèmes tout en préservant la charge de travail globale qui rendait leur Mixture of Experts modérée et efficace.
Par exemple, les modèles V3 et R1 utilisent l’apprentissage par renforcement au lieu de dépendre de données étiquetées. Cette technique prend en compte différentes voies pour aboutir à la réponse. Chaque itinéraire parcouru est réévalué en cours de route. Par conséquent, elle détermine plus rapidement s’il est sur la mauvaise voie. Ensuite, elle peut rapidement revenir en arrière et déterminer un itinéraire potentiellement plus performant.
Ce raisonnement « en chaîne » l’aide à trouver le chemin vers la destination finale de manière précise et à en obtenir la récompense. Cette méthodologie d’apprentissage par renforcement les a aidés à entraîner le modèle pour qu’il fonctionne au même niveau ou à un niveau supérieur à celui d’OpenAI et d’autres modèles.
Les limites favorisent parfois l’innovation. DeepSeek est limité dans les puces NVIDIA qu’il peut acquérir en raison des contrôles à l’exportation imposés par les États-Unis sur les ventes de puces à la Chine. La société mère disposait évidemment d’un nombre important de puces NVIDIA (2 000 puces H800 de NVIDIA), mais elle devait tout de même faire preuve de souplesse dans son déploiement. Elle a réalisé un travail d’optimisation exceptionnel au niveau matériel.
Tous les membres de la communauté open source utilisent la plateforme Cuda de NVIDIA, qui met à disposition un ensemble de bibliothèques permettant de connecter tous les différents GPU entre eux afin qu’ils puissent communiquer plus efficacement, répartir leur workload, et plus encore. Mais DeepSeek est allé plus loin, au-delà de la bibliothèque, et a également optimisé le matériel.
En réalité, le rythme auquel les modèles ouverts se sont améliorés et continueront de le faire est phénoménal.
L’IA ne peut exister sans puces. L’annonce initiale selon laquelle il faudrait moins de puces à l’avenir pour produire d’excellents modèles a conduit certains observateurs du secteur à conclure, à tort, que la demande en puces allait diminuer. Selon le paradoxe de Jevons, c’est l’inverse qui est vrai : une efficacité accrue entraîne souvent une augmentation de la consommation. Qu’il s’agisse de la consommation de carburant et d’énergie au fil du temps ou de l’augmentation de l’efficacité de la climatisation qui incite les gens à construire des maisons plus grandes, nous n’en avons jamais assez.
Prenons l’exemple du commerce mondial du whisky. Ces dernières années, l’essor des distilleries indépendantes et artisanales n’a fait qu’accroître la demande en céréales. Il en va de même dans tous les secteurs, car l’économie améliore les opportunités pour les petites entreprises. Une entreprise donnée peut utiliser moins de puces, mais DeepSeek a démontré que de nombreux autres acteurs peuvent arriver sur le marché et employer des techniques open source pour créer des modèles impressionnants à moindre coût.
Pour moi, c’est le principal enseignement à retenir. Cela signifie que les élites disposant d’une puissance de calcul incroyable ne seront plus les seules à pouvoir créer la prochaine série de modèles. Il existe peut-être d’autres voies permettant à des laboratoires plus modestes de commencer à investir dans la création de nouveaux modèles. C’est une excellente nouvelle pour ceux qui s’enthousiasment pour les agents d’IA et l’avenir agentique que nous anticipons tous.
La concurrence entre tous les principaux acteurs connaîtra inévitablement des hauts et des bas ; il est donc préférable de ne pas raisonner en termes de gagnants et de perdants à court terme. Chaque jour, des entreprises, des chercheurs et des scientifiques spécialisés dans l’IA innovent pour produire de meilleurs modèles basés sur un raisonnement plus scientifique.
C’est pourquoi nous sommes si enthousiastes concernant les récentes mises à jour du raisonnement pour notre famille Granite de LLM, qui ont surpassé les performances du R-1 sur des indicateurs de référence tels qu’ArenaHard et AlpacaEval. Nos modèles de raisonnement allient le meilleur des deux mondes : des performances élevées et des caractéristiques de sécurité, tout en laissant les utilisateurs choisir s’ils souhaitent faire appel aux capacités de raisonnement ou non en fonction de la situation. Plus nous partageons nos connaissances et rendons open source tout ce qui peut l’être, plus chacun en profite, et en particulier les consommateurs.
Même si, de prime abord, OpenAI et d’autres soient confrontés à une certaine difficulté face à la montée d’une concurrence plus restreinte, mais puissante, il s’agit d’une grande victoire pour la communauté et correspond à la vision d’IBM quant à l’avenir de l’IA. C’est une énorme avancée pour la communauté open source, qui montre que les modèles plus petits peuvent surpasser les autres. Évidemment, cela ne prend pas en compte les principaux acteurs ; s’ils sont intelligents, ils utiliseront ce que DeepSeek leur a appris pour continuer à créer de plus grands modèles à moindre coût.
Mais en fin de compte, la concurrence est bénéfique tant pour les entreprises que pour les consommateurs. Tout le monde est gagnant lorsque des événements majeurs tels que DeepSeek R1 se produisent.
