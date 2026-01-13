Près d’un an après que le modèle R1, à faible coût et haute performance, de DeepSeek a secoué la Silicon Valley et Wall Street, le laboratoire d’IA chinois promet de bouleverser à nouveau l’industrie de l’IA. Cette fois, DeepSeek a publié un nouveau cadre qui pourrait rendre l’entraînement des grands modèles de langage (LLM) beaucoup plus efficace, plus stable et plus évolutif. Plus important encore, il permet de réduire les coûts de pré-entraînement, ce qui rend les LLM accessibles aux petites entreprises et aux développeurs individuels.

« Avec cette innovation, DeepSeek s’attaque à la question suivante : ‘comment rentabiliser davantage mon investissement pendant le pré-entraînement ?’ », déclare Chris Hay, ingénieur émérite d’IBM, lors d’un entretien avec IBM Think. « L’entraînement des modèles est la partie la plus coûteuse. »

Les chercheurs de DeepSeek ont testé cette nouvelle architecture, appelée Manifold-Constrained Hyper-Connections (mHC), sur des modèles comportant trois milliards, neuf milliards et 27 milliards de paramètres. Ils ont constaté que les modèles évoluaient sans charge de calcul supplémentaire ni instabilité notables, deux facteurs qui augmentent généralement parallèlement à la mise à l’échelle.