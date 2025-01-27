DeepSeek-R1, le modèle d’IA de la startup chinoise DeepSeek, a grimpé en tête des classements des modèles les plus téléchargés et actifs sur la plateforme open source d’IA Hugging Face, quelques heures après son lancement la semaine dernière. Cela a également provoqué une onde de choc sur les marchés financiers en promptant les investisseurs à reconsidérer la valorisation des fabricants de puces comme NVIDIA et les investissements colossaux que les géants américains de l’IA réalisent pour développer leurs activités dans ce domaine.
Pourquoi tout ce buzz ? DeepSeek-R1, un « modèle de raisonnement », est un assistant numérique qui affiche des performances équivalentes à celles de l'o1 d'OpenAI sur certains benchmarks d'IA pour les tâches mathématiques et de codage. Il a été formé avec beaucoup moins de puces et son utilisation est environ 96 % moins coûteuse, selon la société.
« DeepSeek est définitivement en train de remodeler l’environnement de l’IA, en défiant les géants dotés d’ambitions open source et d’innovations de pointe », déclare Kaoutar El Maghraoui, scientifique de recherche principale et responsable chez IBM.
Parallèlement, ByteDance, le géant technologique chinois propriétaire de TikTok, a récemment annoncé son propre agent de raisonnement, UI-TARS, qui, selon lui, surpasse GPT-4o d'OpenAI, Claude d'Anthropic et Gemini de Google sur certains tests de référence. L'agent de ByteDance peut lire des interfaces graphiques, raisonner et prendre des mesures autonomes, étape par étape.
Des startups aux géants établis, les sociétés d’IA chinoises semblent combler l’écart par rapport à leurs concurrents américains, en grande partie grâce à leur volonté d’open source ou de partager le code logiciel sous-jacent avec d’autres entreprises et développeurs de logiciels. « DeepSeek a su multiplier des modèles assez puissants au sein de la communauté », déclare Abraham Daniels, chef de produit technique senior pour le modèle Granite d’IBM. DeepSeek-R1 est proposé sur Hugging Face sous une licence MIT qui autorise une utilisation commerciale sans restriction. « DeepSeek pourrait vraiment accélérer la démocratisation de l’IA », explique-t-il.
L'été dernier, la société chinoise Kuaishou a présenté un outil de génération de vidéos similaire à Sora d'OpenAI, mais accessible au public dès son lancement. Sora a été dévoilé en février dernier, mais n'a été pleinement lancé qu'en décembre et, même alors, seuls les détenteurs d'un abonnement ChatGPT Pro pouvaient accéder à toutes ses fonctionnalités. Les développeurs de Hugging Face ont également mis la main sur de nouveaux modèles open source proposés par les géants technologiques chinois Tencent et Alibaba. Alors que Meta a ouvert ses modèles Llama sous licence open source, OpenAI et Google ont adopté une approche essentiellement fermée pour le développement de leurs modèles.
Outre les avantages de l'open source, les ingénieurs de DeepSeek n'ont utilisé qu'une fraction des puces NVIDIA hautement spécialisées utilisées par leurs concurrents américains pour former leurs systèmes. Les ingénieurs de DeepSeek ont par exemple déclaré n'avoir eu besoin que de 2 000 GPU (processeurs graphiques), ou puces, pour entraîner leur modèle DeepSeek-V3, selon un article de recherche publié lors du lancement du modèle.
« Ce qui est vraiment impressionnant, c'est la capacité de raisonnement des modèles DeepSeek », explique Kush Varshney, un IBM Fellow. Les modèles de raisonnement se vérifient ou se contrôlent essentiellement eux-mêmes, ce qui représente une forme de « métacognition » ou « réflexion sur la réflexion », précise M. Varshney. « Nous commençons maintenant à intégrer de la sagesse dans ces modèles, ce qui constitue une avancée considérable. »
Les modèles de raisonnement ont fait l'objet de nombreuses discussions en septembre dernier, lorsque OpenAI a présenté son modèle de raisonnement o1. Contrairement aux modèles d'IA précédents, qui fournissaient une réponse sans expliquer leur raisonnement, celui-ci résout des problèmes complexes en les décomposant en plusieurs étapes. Les modèles de raisonnement peuvent prendre quelques secondes ou minutes supplémentaires pour répondre, car ils réfléchissent à leur analyse étape par étape, ou selon une « chaîne de pensées ».
DeepSeek-R1 combine le raisonnement par chaîne de pensées et l'apprentissage par renforcement, dans lequel un agent autonome apprend à effectuer une tâche par essais et erreurs, sans aucune instruction de la part d'un utilisateur humain. L'apprentissage par renforcement diffère des formes d'apprentissage plus couramment utilisées, telles que l'apprentissage supervisé, qui utilise des données étiquetées manuellement pour produire des prédictions ou des classifications, et l'apprentissage non supervisé, qui vise à découvrir et à apprendre des modèles cachés à partir de données non étiquetées.
DeepSeek-R1 remet en question l'hypothèse selon laquelle les modèles amélioreraient leur capacité de raisonnement en étant entraînés sur des exemples étiquetés de comportements corrects ou incorrects, ou en extrayant des informations à partir de modèles cachés, explique Yihua Zhang, doctorant à l'université d'État du Michigan et auteur de nombreuses publications sur le machine learning. « L'hypothèse principale est simple mais audacieuse », déclare M. Zhang. « Pouvons-nous simplement récompenser le modèle pour ses réponses correctes et le laisser découvrir par lui-même la meilleure façon de raisonner ? »
M. Zhang indique que ce qui lui a particulièrement marqué, ainsi qu'à d'autres, dans le cadre de cet entraînement à grande échelle de grands modèles linguistiques tels que celui de DeepSeek, c'est que « le modèle commence à montrer un véritable moment de prise de conscience, où il prend du recul, repère ses erreurs et se corrige lui-même ».
Une partie de l'engouement autour de DeepSeek est due à son prix très abordable. DeepSeek-V3, sorti le jour de Noël, a coûté 5,5 millions de dollars à entraîner et est bien moins cher pour les développeurs souhaitant l’essayer, selon le rapport technique publié par la société. « C’est vraiment impressionnant ce qu’ils ont accompli compte tenu du coût du modèle et du temps qu’il leur a fallu pour l’entraîner », déclare Chris Hay, ingénieur reconnu chez IBM.
Ce prix avantageux ne reflète toutefois pas toute la réalité, selon Kate Soule, directrice de la gestion technique des produits Granite chez IBM Research. Le coût de 5,5 millions de dollars « ne représente qu’une fraction des besoins », explique-t-elle. Il n'inclut pas les détails des coûts que les entreprises gardent confidentiels, même avec des modèles open source, tels que « les coûts informatiques liés à l'apprentissage par renforcement, aux ablations de données et aux recherches d'hyperparamètres », explique Mme Soule.
Ce qui n'est pas remis en question, en revanche, c'est que DeepSeek a atteint un meilleur rapport coût-efficacité en utilisant une architecture mixte d'experts (MoE), dont l'entraînement est nettement moins gourmand en ressources. L’architecture MoE divise les modèles d’IA en sous-réseaux distincts (ou « experts »), chacun spécialisé dans un sous-ensemble de données d’entrée. Le modèle n'active que les experts spécifiques nécessaires à une tâche donnée, plutôt que d'activer l'ensemble du réseau de neurones. Par conséquent, l'architecture MoE réduit considérablement les coûts de calcul avant l'entraînement et permet d'obtenir des performances plus rapides pendant la période d'inférence. Plusieurs entreprises à travers le monde, notamment la société française pionnière dans le domaine de l'IA, Mistral, et IBM, ont popularisé l'architecture MoE au cours de l'année écoulée et ont atteint une plus grande efficacité en combinant MoE et open source.
Dans le cas de la série de modèles open source Granite d'IBM (développés avec une architecture MoE), les entreprises peuvent atteindre des performances de pointe à un coût réduit, car elles peuvent adapter un modèle pré-entraîné de grande taille à leurs applications ou cas d'utilisation spécifiques, créant ainsi des modèles plus petits et mieux adaptés à leurs besoins. Le fait de regrouper d'énormes capacités dans des modèles plus compacts signifie que ces modèles peuvent être utilisés sur des smartphones et d'autres appareils mobiles qui fonctionnent en périphérie, comme les ordinateurs de bord des voitures ou les capteurs intelligents dans les usines.
Ce processus consistant à prendre un modèle plus vaste et à le décomposer en modèles plus petits, moins gourmands en ressources, a également contribué au succès de DeepSeek. Parallèlement au lancement du modèle R1, la start-up chinoise a également lancé une série de modèles plus petits et adaptés aux besoins. Il est intéressant de noter qu'ils ont montré que les grands modèles distillés dans des modèles plus petits donnent de meilleurs résultats en matière de raisonnement que l'utilisation de l'apprentissage par renforcement de petits modèles dès le départ.
Alors qu'ils rivalisent avec leurs concurrents plus anciens ou les dépassent sur certains critères, quel sera l'impact de ces nouveaux modèles chinois sur la scène mondiale de l'IA ? « Il ne s'agit pas seulement des performances brutes sur les critères de référence », explique M. El Maghraoui. « Il s'agit de déterminer si l'intégration de bout en bout de ces modèles peut être réalisée de manière sécurisée et éthique. » Par conséquent, selon M. El Maghraoui, il est trop tôt pour déterminer si DeepSeek-R1 et d'autres modèles « transformeront les interactions humaines, la technologie et les applications d'entreprise ».
En fin de compte, « le taux d'adoption par les développeurs déterminera la popularité des modèles de DeepSeek », explique M. Daniels. En outre, il sera « très intéressant de voir les cas d’utilisation qu’ils découvriront pour les modèles », ajoute-t-il.
Selon M. Varshney d'IBM, les différences géopolitiques pourraient également avoir moins d'importance qu'on pourrait le supposer dans cette course mondiale à l'IA. « Une fois qu'un modèle est open source, son origine n'a plus d'importance à bien des égards », affirme-t-il.
