Près d’un an après que le modèle R1, à faible coût et haute performance, de DeepSeek a secoué la Silicon Valley et Wall Street, le laboratoire d’IA chinois promet de bouleverser à nouveau l’industrie de l’IA. Cette fois, DeepSeek a publié un nouveau cadre qui pourrait rendre l’entraînement des grands modèles de langage (LLM) beaucoup plus efficace, plus stable et plus évolutif. Plus important encore, il permet de réduire les coûts de pré-entraînement, ce qui rend les LLM accessibles aux petites entreprises et aux développeurs individuels.
« Avec cette innovation, DeepSeek s’attaque à la question suivante : ‘comment rentabiliser davantage mon investissement pendant le pré-entraînement ?’ », déclare Chris Hay, ingénieur émérite d’IBM, lors d’un entretien avec IBM Think. « L’entraînement des modèles est la partie la plus coûteuse. »
Les chercheurs de DeepSeek ont testé cette nouvelle architecture, appelée Manifold-Constrained Hyper-Connections (mHC), sur des modèles comportant trois milliards, neuf milliards et 27 milliards de paramètres. Ils ont constaté que les modèles évoluaient sans charge de calcul supplémentaire ni instabilité notables, deux facteurs qui augmentent généralement parallèlement à la mise à l’échelle.
En règle générale, les laboratoires de pointe recourent à la « force brute » pour améliorer l’IA, précise Kaoutar El Maghraoui, chercheur scientifique principal chez IBM, dans le dernier épisode du podcast Mixture of Experts. Cela signifie « ajouter plus de données, plus de puissance de calcul, plus de paramètres », explique-t-elle. Mais cette approche est « de plus en plus inefficace et abordable pour quelques grandes entreprises uniquement ».
Selon Kaoutar El Maghraoui, l’architecture mHC de DeepSeek pourrait révolutionner le pré-entraînement des modèles. « Il s’agit de dimensionner l’IA de manière plus intelligente au lieu de l’agrandir », précise-t-elle. « C’est une façon plus intelligente de concevoir ces modèles, qui marcherait également mieux pour le matériel. » En outre, mHC s’intègre facilement au matériel personnalisé des entreprises, ce qui en fait une option intéressante pour les entreprises à la recherche d’une IA rentable, comme l’indique Mme El Maghraoui. À titre d’exemple, elle cite les accélérateurs matériels spécialisés d’IBM, conçus pour accélérer les workloads d’IA, de machine learning et d’apprentissage profond pour les entreprises clientes sur site.
Dans un post LinkedIn, Pierre-Carl Langlais, cofondateur de la startup française d’IA Pleias, a suggéré que la véritable importance de cet article va au-delà de la simple prouve de la scalabilité de mHC. La « flexibilité réelle » est la capacité de DeepSeek à repenser tous les aspects de l'environnement de formation, a-t-il écrit. « C'est ce qui fait de [DeepSeek] un laboratoire de pointe. »
Pour M. Hay, le fait que DeepSeek continue à proposer ses nouvelles œuvres en open source est remarquable, car cela rend l'IA plus accessible à un public plus large. « J’apprécie qu’ils proposent des innovations, les ouvrent au monde, laissent les gens les essayer, puis ils emmènent tout le domaine avec eux », a-t-il déclaré.
Alors que les responsables de l'IA dans les petites organisations doivent gérer la complexité de la mise en œuvre de solutions d'IA rentables, des innovations comme le framework mHC de DeepSeek leur facilitent l'accès à des modèles de base puissants qui n'étaient historiquement disponibles que pour les entreprises disposant de moyens financiers beaucoup plus importants. En réduisant considérablement le coût de la formation préalable des LLM et en rendant l'IA plus accessible, les avancées de DeepSeek sont prêtes à révolutionner le paysage de l'IA pour les petites et moyennes entreprises.
