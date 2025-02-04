La course aux armements pour l’IA n’est plus réservée aux géants qui représentent des milliards de dollars.
Des entreprises comme OpenAI, Google et Microsoft ont fait la une de l’actualité en matière d’intelligence artificielle. Toutefois, une nouvelle vague d’innovation open source, illustrée par le récent modèle DeepSeek, est en train d’uniformiser les règles du jeu. Le succès du modèle souligne une tendance croissante : les petites entreprises peuvent de plus en plus défier les acteurs les plus importants de l’IA.
« Cela ne fait que confirmer ce que nous savions déjà, déclare David D. Cox, vice-président des modèles d’IA chez IBM Research. Nous ne pensons pas qu’il faille des milliards et des milliards de dollars pour concevoir d’excellents modèles. DeepSeek prouve que les approches open source rattrapent leur retard, et c’est une bonne chose. »
Les chercheurs en IA sont dans une course continue pour rendre les modèles plus puissants, sans pour autant accroître les coûts de calcul. Avec des préoccupations croissantes concernant les limitations matérielles et la consommation d’énergie, les innovations qui améliorent l’efficacité deviennent tout aussi importantes que les gains bruts de performance.
« Pendant trop longtemps, la course à l’IA a été un jeu d’échelle où des modèles plus grands signifiaient de meilleurs résultats, explique Arvind Krishna, PDG d’IBM, sur LinkedIn. Il n’existe toutefois aucune loi de la physique qui stipule que les modèles d’IA doivent rester grands et coûteux. Le coût de la formation et de l’inférence n’est qu’un autre défi technologique à relever. »
La percée de DeepSeek en matière d'efficacité de l'IA provient d'une nouvelle technique appelée Multi-Head Latent Attention (MLA). Cette méthode modifie la manière dont les modèles d'IA gèrent et stockent leurs informations. La principale amélioration est que le MLA réduit la taille de ce que l'on appelle le cache KV, essentiel au fonctionnement efficace des systèmes d'IA. Selon M. Cox, cela permet aux systèmes d'IA d'utiliser moins de mémoire et de se développer plus facilement.
« Ils ont fait un très beau travail ici, note David Cox. La réduction de la taille du cache KV est cruciale, car elle permet aux modèles de fonctionner plus rapidement en utilisant moins de ressources. »
Sous le capot de DeepSeek, les avancées se sont multipliées. Prasanna Sattigeri, chercheur principal chez IBM Research, a souligné que les innovations de l’entreprise portaient sur l’efficacité et les améliorations architecturales.
« Ils ont optimisé la communication entre les GPU, ce qui constitue souvent un goulot d’étranglement lors de l'entraînement de l'IA à grande échelle », explique Sattigeri. « Cela leur a permis d’entraîner efficacement des modèles en utilisant du matériel plus ancien, un exploit technique remarquable. »
Mais comme tout projet d’ingénierie ambitieux, cette avancée a entraîné des coûts. DeepSeek a également utilisé des techniques d’apprentissage par renforcement (RL), similaires à celles utilisées dans l’approche d’échelonnement de l’inférence o1 d’OpenAI. Cette méthode permet d’affiner les performances du modèle en renforçant les résultats positifs sur plusieurs itérations. Toutefois, David Cox souligne que la mise en œuvre de DeepSeek a donné lieu à des compromis, tels que des capacités d’appel de fonctions plus faibles et des problèmes d’alignement de la sécurité.
« C’est un grand pas en avant, mais il y a des complications, explique-t-il. Le modèle est fantastique pour les tâches de raisonnement, mais d’autres domaines en ont souffert. »
Même si les progrès facilitent l’élaboration de grands modèles d’IA, un défi plus important demeure : l’énorme puissance de calcul nécessaire pour rester compétitif. Xia « Ben » Hu, professeur agrégé d’informatique à l’université Rice, reconnaît que DeepSeek constitue une étape plus efficace dans le développement de l’IA. Il note toutefois que cela ne modifie pas fondamentalement la dynamique globale du pouvoir dans les infrastructures d’IA, où l’accès à de vastes ressources informatiques permet toujours de déterminer qui mène la course.
« DeepSeek est soutenu par un grand fonds de capital-risque en Chine, et a accès à des dizaines de milliers de GPU, explique Ben Hu. Cela reste un obstacle majeur pour de nombreuses petites start-ups. »
Toutefois, le professeur prédit que l’évolution la plus importante concernera probablement l’adoption de l’IA par les entreprises. « Les secteurs traditionnels, comme le pétrole et le gaz ou l’industrie manufacturière, ont hésité à développer leurs propres solutions d’IA. Avec la baisse des coûts et l’amélioration des modèles open source, les entreprises qui dépendaient autrefois de services d’IA externes envisagent désormais de développer des modèles internes adaptés à leurs besoins spécifiques. »
Les implications vont au-delà d’un seul modèle. Avec la multiplication des projets d’IA open source, les petites start-ups peuvent désormais accéder à des outils qui nécessitaient autrefois des centres de données et des budgets considérables. David Cox explique qu’OpenAI et ses homologues projettent depuis longtemps « un air d’inévitabilité », à savoir que seuls ceux qui ont les poches bien garnies peuvent mener en matière d’IA. Mais avec l’émergence de DeepSeek et d’autres modèles, cette notion commence à se fissurer.
« Nous assistons à une évolution qui permet à un éventail beaucoup plus large d’acteurs d’être compétitifs dans ce domaine, affirme David Cox. Personne avec 5 millions de dollars ne peut déployer et construire un modèle de premier plan du jour au lendemain. Mais les start-ups bien financées et les entreprises de taille moyenne ? Absolument. »
Les chercheurs se concentrent également sur l’efficacité plutôt que sur la puissance de calcul brute. David Cox et son équipe de recherche se sont concentrés sur l’approche de Mixture of Experts, qui permet à l’IA d’être plus sélective dans la manière dont elle utilise les ressources de traitement.
« Mixture of Experts n’est qu’une pièce du puzzle ; il y en a beaucoup d’autres à venir », souligne-t-il, suggérant que l’avenir de l’IA pourrait moins dépendre de l’accès à des puces avancées et plus de façons plus intelligentes d’utiliser le matériel existant.
Prasanna Sattigeri a mis en avant l’une de ces innovations : l’essor des données synthétiques, c’est-à-dire des informations générées artificiellement qui imitent des données réelles. « Avec des modèles tels que DeepSeek, nous assistons à une évolution vers l’utilisation de données synthétiques générées par l’IA pour affiner et entraîner les modèles de manière plus efficace, a-t-il déclaré. Cela pourrait réduire considérablement les coûts et rendre une IA de haute qualité accessible à un plus grand nombre d’acteurs. »
L’accessibilité croissante du développement de l’IA soulève de nouvelles questions sur l’avenir de la concurrence. L’infrastructure et la puissance de calcul détermineront-elles toujours les vainqueurs, ou la capacité d’innover deviendra-t-elle rapidement l’actif le plus précieux ? Selon David Cox, c’est un mélange des deux.
« Vous avez toujours besoin d’une infrastructure sérieuse, de grands talents, mais les douves d’OpenAI et de Google ne sont pas aussi profondes qu’ils aimeraient le faire croire, affirme-t-il. Dans ce domaine, les secrets ne restent pas secrets. Les idées se répandent et les gens se déplacent. Nous constatons une convergence rapide. »
Ben Hu ajoute que le développement de l’IA nécessitait encore quatre composants critiques : « J’appelle cela le modèle ABCD : algorithmes, big data, calcul et distribution. Les meilleures entreprises d’IA possèdent les quatre. DeepSeek commence à se faire une place dans les deux premiers domaines, mais la puissance de calcul et la distribution restent un atout majeur pour les acteurs principaux. »
Le nombre croissant d’entreprises d’IA dotées de techniques plus efficaces n’est pas uniquement une question de concurrence : cela pourrait déclencher une révolution créative. Si davantage d’entreprises peuvent développer l’IA sans budgets de plusieurs milliards de dollars, l’innovation sera motivée par des points de vue variés plutôt que par une poignée de priorités d’entreprise, explique David Cox. Les solutions d’IA seront ainsi plus personnalisées, les modèles plus spécialisés et le marché, plus dynamique.
« L’innovation se fera plus rapidement, de manière plus sûre et plus inclusive, révèle David Cox. Si nous allons au-delà d’une monoculture où quelques acteurs fixent les conditions, nous assisterons à une multitude d’approches différentes. »
David Cox a déclaré que pour IBM, qui s’est engagée en faveur de l’IA open source, l’essor de DeepSeek valide son approche. « C’est vraiment une bonne chose pour nous, affirme-t-il. Cela prouve que les modèles ouverts peuvent fonctionner et qu’ils sont demandés. Plus les gens contribuent, plus nous en bénéficions tous. »
Ben Hu souligne que si les petites entreprises gagnent du terrain, les grands acteurs, eux, s’adaptent. « Amazon, Meta et Microsoft ne vont pas se contenter de laisser l’open source manger leur goûter. Ils travaillent dur pour comprendre comment intégrer des modèles open source tout en maintenant le contrôle sur l’infrastructure et les données. »
Que se passera-t-il ensuite ? David Cox et d’autres experts affirment que le développement de l’IA ne sera pas gratuit pour tous, mais il est clair que les petites entreprises ne sont plus à la merci des géants de la technologie. Les outils open source accélèrent les progrès, et ce sont les entreprises qui adoptent cette évolution qui en bénéficieront le plus.
« Cela fait partie d’une tendance continue, souligne David Cox. Cela n’a pas commencé avec DeepSeek, et ça ne s’arrêtera pas là. Mais ça a clairement réveillé certaines personnes. »
