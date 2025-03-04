Si vous avez lu les gros titres du 20 janvier 2025, vous avez peut-être pensé que le ciel allait vous tomber sur la tête. En effet, la société chinoise DeepSeek a lancé son grand modèle de langage (LLM) R1, qui est rapidement devenu l’un des modèles les plus téléchargés et les plus actifs peu après sa sortie.

Ce qui a suscité l’enthousiasme, c’est le fait que le laboratoire de recherche en IA basé à Hangzhou, en Chine, qui publie des modèles sous son nom, a construit un modèle à un coût bien moindre (5,6 millions de dollars) et avec beaucoup moins de ressources informatiques et d’accès aux puces NVIDIA que les principaux modèles américains.

Comme on pouvait s’y attendre, les gens ont ouvertement craint que certaines des entreprises américaines d’IA fortement financées ne soient sur le point d’être laissées pour compte. Comme DeepSeek utilisait moins de puces NVIDIA que ces autres entreprises, le cours de l’action de la société a chuté. Cependant, il s’agissait davantage d’une réaction instinctive à la nouvelle que d’une réelle inquiétude quant à l’avenir du fabricant de puces.

Les journalistes techniques et économiques ont considéré cette nouvelle comme un choc pour le système. Cependant, pour d’autres experts en IA et moi-même, la seule surprise de l’annonce de R1 de DeepSeek était de voir à quel point tout le monde semblait surpris.

Bien que le modèle soit nouveau, DeepSeek est loin de débarquer sur le marché. L’entreprise a une longue expérience dans la production de modèles open source de grande valeur sur le marché chinois, en particulier son modèle V3 lancé en décembre. Elle a d’ailleurs publié un document technique d’accompagnement, qui offre une formation à tous ceux qui souhaitent approfondir leurs connaissances en matière de construction de ces laboratoires. Le modèle V3 était plus surprenant, mais il est apparemment passé inaperçu.

Le modèle R1 de DeepSeek est bien sûr un autre exemple d’outil d’IA générative qui peut devenir la base de l’avenir de l’IA agentique, où les outils d’IA ne se contentent pas de répondre aux demandes de leurs utilisateurs, mais travaillent de manière indépendante pour leur fournir des services.

Bien qu’IBM s’associe à tous ces modèles et les utilise, nous sommes également de grands défenseurs et ingénieurs du mouvement open source. C’est une excellente nouvelle pour le secteur de voir un modèle open source comme R1 recevoir les éloges qu’il mérite.

Il est compréhensible que les grands acteurs aient été quelque peu déconcertés de voir DeepSeek produire un modèle équivalent ou supérieur à leurs propres modèles, mais construit pour un coût bien inférieur à celui des modèles plus connus. C’est pourtant précisément la raison d’être de la communauté open source.

L’annonce de DeepSeek R1 illustre un contraste marqué : les marchés financiers anticipaient des turbulences, tandis que les spécialistes de l’IA se réjouissaient de cette avancée technologique et de la manière dont elle pourrait inspirer des modèles nouveaux, plus efficaces et plus puissants.