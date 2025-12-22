En 2026, les modèles d’IA les plus intelligents ne seront peut-être pas les plus grands.
C’est le pari que font désormais les laboratoires, les investisseurs et les chercheurs qui viennent de passer toute une année à voir leurs hypothèses s’effondrer. Les 12 prochains mois, la course consistera non pas à construire des systèmes plus grands, mais à développer des systèmes plus intelligents, des modèles capables de réfléchir avant de parler et de faire plus avec moins.
« Vous pouvez faire en sorte qu’un petit modèle de langage soit aussi performant, voire plus, que les modèles beaucoup plus grands », estimait Kush Varshney, IBM Fellow, lors d’une interview accordée à IBM Think.
Il y a un an, cela aurait été considéré comme une hérésie. Pendant une décennie, l’IA avait fonctionné selon un précepte cruellement simple : plus de données, plus de paramètres, plus de puissance de calcul, plus d’intelligence. Les laboratoires annonçaient leur nombre de paramètres comme des culturistes montrant leurs muscles devant un miroir. L’entraînement consommait l’équivalent de la production électrique d’une petite ville. On aurait dit une course à la terre, sauf que le territoire revendiqué se mesurait en téraflops.
Puis est arrivé janvier 2025. Une société appelée DeepSeek, basée en Chine, a publié un modèle qui a fait chuter les actions de Nvidia de 17 % en une seule journée. L’intelligence algorithmique pourrait remplacer la force de calcul brute. Vous n’aviez pas besoin d’une cathédrale. Vous aviez besoin d’un meilleur plan architectural.
Les principaux laboratoires américains se sont rapidement adaptés. En quelques mois, ils sont passés de la construction de systèmes toujours plus grands à la construction de systèmes qui marquent une pause et réfléchissent avant de répondre. Seyed Emadi, professeur associé d’opérations à l’université de Caroline du Nord Kenan-Flagler, l’a dit sans détour lors d’un entretien avec IBM Think : « si je devais résumer l’année 2025 en matière d’IA, je dirais que nous avons cessé de créer des modèles plus grands et avons commencé à les rendre plus intelligents. »
Ce tournant détermine désormais la suite. Le consensus scientifique est saisissant, presque inquiétant. Lorsqu’on lui a demandé d’identifier le développement le plus important de l’année dernière, Misha Belkin, professeur de machine learning à l’université de San Diego, a souligné « l’essor des modèles de réflexion et la mise à l’échelle du temps d’inférence » , qu’il a qualifié de fondement pour 2026 lors d’une interview. Rada Mihalcea, qui dirige le laboratoire d’IA de l’université du Michigan, a exprimé un point de vue complémentaire : « les avancées en matière de systèmes multi-agents, ainsi qu’une compréhension plus approfondie des ... faiblesses » définiraient la voie à suivre, déclare-t-elle à IBM Think.
Ce changement représente une refonte de ce que représente l’intelligence en silicium. Selon l’ancienne approche, c’était quelque chose que vous pouviez préparer pendant l’entraînement, comme assaisonner un ragoût. Une fois terminé, le modèle était congelé. La nouvelle approche traite l’intelligence comme quelque chose qui peut émerger au moment de l’exécution en donnant au modèle plus de temps pour raisonner, ce que l’on appelle le calcul du temps d’inférence.
Les implications sont encore à l’étude. Gabriel Poesia, chercheur qui étudie le raisonnement IA à l’université de Stanford, a observé que les modèles s’amélioraient pour « réfléchir sur de longues périodes » et « utiliser fluidement des outils pendant de longues périodes de réflexion ». En clair, les machines ont appris à penser avant de parler.
Les anciens modèles fonctionnaient comme des réflexes : entrée, prédiction, pas de pause pour la réflexion. Les nouveaux délibèrent. Posez une question difficile, et le modèle s’y attardera, parfois pendant des minutes, vérifiant sa logique et revenant en arrière en cas d’impasse. Cela ressemble beaucoup à de la réflexion. S’agit-il de réflexion au sens propre du terme ? C’est l’une des grandes questions restées sans réponse.
Si les modèles pensants étaient l’histoire intellectuelle de 2025, la bombe commerciale était plus rudimentaire : l’IA de pointe s’est avérée bien moins chère que prévu. L'économie, qui semblait aussi immuable que la gravité, s'est avérée plus proche de la mode. Cette révélation va redéfinir la compétition en 2026.
La sortie de DeepSeek en janvier a fait l'effet d’une bombe. Le modèle correspondait aux systèmes occidentaux, tout en utilisant environ un dixième du calcul d’entraînement. « Cela a fait avancer les choses », déclare M. Varshney. « Aujourd’hui, il y a un autre concurrent, et tout le monde doit se surpasser. »
L’architecture des modèles a connu ses propres changements discrets. Le nouveau schéma en vogue, le mélange d’experts, achemine les entrées vers des sous-réseaux spécialisés au lieu d’activer chaque paramètre pour chaque requête. C’est un peu comme si vous consultiez le bon spécialiste au lieu de demander à un seul médecin de tout savoir. Andrew Chin, professeur de droit à l’UNC qui étudie les politiques technologiques, explique cette économie à IBM Think : « les modèles denses entraînent à peu près le même coût de calcul pour chaque token ». « Les systèmes clairsemés acheminent les tokens uniquement via un sous-ensemble de paramètres. » L’implication pour les entreprises est importante : « l’échelle devient une question de gestion, et non simplement de maximisation. »
La démocratisation va de l’architecture jusqu’au réglage fin. Christelle Scharff, professeure d’informatique à l’université Pace, confie à IBM Think avoir assisté à « une évolution nette vers LoRA et un réglage fin léger, permettant d’adapter des modèles puissants avec un calcul limité. » Les chercheurs disposant de budgets modestes peuvent désormais personnaliser des modèles qui auraient été hors de portée il y a un an. Les portes s’ouvrent.
Les gains d’efficacité portent également sur la conception des systèmes. Kandyce Brennan, professeure adjointe à l’UNC School of Nursing travaillant sur l’IA dans le domaine de la santé, a indiqué à IBM Think que des approches comme le planificateur DisCIPL du MIT, où « un grand modèle planifie et coordonne... de nombreux petits modèles », obtiennent des résultats avec « un coût de calcul beaucoup plus faible ». Cette efficacité permet également de réduire la consommation d’énergie et la charge environnementale.
« Les limitations en matière de données et les préoccupations énergétiques constituent désormais un véritable défi », déclare Mme Mihalcea, « ce qui a orienté la recherche vers des modèles plus petits. » Ces contraintes ne feront que se renforcer.
Il s’avère que ce dont les entreprises ont réellement besoin, ce n’est pas de pouvoir tout faire, affirme M. Varshney. Il donne un exemple fantaisiste : vous pouvez demander à un modèle de commenter les droits civiques sur la Lune, et il produirait quelque chose de fluide. « Mais la plupart des tâches en entreprise sont autres », dit-il. « Elles sont plus ciblées. » La théologie de l’échelle cède la place au pragmatisme, à l’adaptation aux besoins.
Les progrès sont réels. Il en va de même pour les limites. Malgré leur nouvelle capacité de délibération, les modèles d’IA restent capables d’un type d’erreur particulier : l’erreur confiante, livrée avec l’assurance sereine d’un guide touristique qui s’est trompé de musée.
M. Poesia identifie les principaux problèmes : « la fiabilité et la créativité demeurent des défis majeurs. » Même réussir 99,9 % du temps ne suffit pas », déclare-t-il. Les maths ne pardonnent pas. Un système qui échoue une fois en mille tentatives échouera mille fois en traitant un million de requêtes. En médecine, en droit ou en finance, ces probabilités ne sont pas acceptables.
La créativité est un autre enjeu. « Pour les tâches ouvertes… même les modèles provenant de différentes entreprises tendent à donner des sorties similaires », observe M. Poesia. Les modèles sont devenus remarquablement efficaces pour trouver les bonnes réponses. Ils restent étrangement uniformes lorsqu’’on leur demande d’être originaux.
Les modèles de raisonnement ont leurs propres angles morts. Selon, M. Varshney, « sur les tâches où il est possible de vérifier les étapes intermédiaires... ces flux plus longs sont utiles. Mais il y a énormément d’éléments qui n’ont pas d’étapes intermédiaires vérifiables. »
Un benchmark appelé ARC-AGI-2 illustre cette lacune. Le test présente des problèmes faciles pour les humains, mais que l’IA trouve extrêmement difficiles. « Même les modèles de raisonnement les plus performants obtiennent des résultats bien inférieurs à ceux des humains », déclare M. Emadi. « Les modèles peuvent mieux raisonner qu’avant, mais ils peuvent toujours se tromper avec assurance. »
L’hallucination, le terme poli utilisé dans ce domaine pour désigner le fait d’inventer des choses, a changé dans la manière dont elle se manifeste, mais elle demeure. Mohammad Hossein Jarrahi, professeur à l’UNC qui étudie l’interaction entre l’homme et l’IA, a confié à IBM Think que « les hallucinations avaient changé de nature, mais n’avaient pas complètement disparu. » La tendance à générer des informations plausibles mais factuellement incorrectes reste obstinément persistante.
Certains chercheurs s’inquiètent de la trajectoire globale. Todd Cherner, qui dirige un programme autour des technologies de l’éducation à l’Université de Caroline du Nord, a indiqué à IBM Think que « la capacité croissante des agents IA était provocante. Je pense que l’avenir se dirige vers l’AGI plus vite que les gens ne le pensent. Nous devrions faire bon usage de ce que nous avons avant de nous lancer dans l’IAG. »
Le principe fondamental de l’informatique s’applique toujours. « La qualité des sorties dépend de celle des entrées », a confié Nathalie Volkheimer, spécialiste de l’engagement utilisateur chez RENCI, à IBM Think. « Nous nous concentrons sur la machine qui fabrique la saucisse, et non sur la saucisse. » Mais au final, nous mangeons ce que nous préparons. »
Une avancée moins connue : l’expansion des fenêtres contextuelles, la quantité d’informations qu’un modèle peut contenir dans la mémoire de travail. « Nous constatons un contexte à l’échelle du référentiel bien meilleur, jusqu’à environ un million de tokens », affirme M. Jarrahi. Un million de tokens, c’est en gros plusieurs romans. Les modèles affichent désormais une compréhension cohérente sur des interactions beaucoup plus longues, ce qui est extrêmement important pour la révision des documents juridiques, le développement logiciel et la synthèse des recherches, déclare-t-il.
Les fonctionnalités de citation se sont également améliorées, avec « des fonctions d’ancrage intégrées qui renvoient vers des passages donnés », ajoute M. Jarrahi. Quand un modèle est capable de démontrer son travail, les utilisateurs peuvent le vérifier au lieu de s’y fier aveuglement. Faire confiance, mais vérifier. Ou, plutôt, ne pas faire confiance et vérifier systématiquement.
Mais la vérification ne suffit pas. Aude Oliva, directrice du laboratoire MIT-IBM Watson AI, a confié à IBM Think que « l’avenir de la collaboration IA-humain est le dialogue. » Un système agentique artificiel doit posséder un certain degré de théorie de l’esprit. Comprendre le fonctionnement interne d’un système d’IA... constitue la base de la confiance. » La théorie de l’esprit, c’est-à-dire la capacité à comprendre que les autres ont des perspectives différentes, est fondamentale dans les interactions humaines. Son absence dans l’IA crée des frictions qu’aucune capacité ne peut surmonter.
Les indicateurs de réussite évoluent en conséquence. « Le domaine évolue inexorablement vers des modèles jugés moins sur leur fluidité brute et plus sur leur traçabilité, leur étalonnage et leur robustesse interactionnelle », affirme M. Jarrahi. Les indicateurs d’attractivité cèdent la place aux indicateurs de fiabilité. Le flashy est révolu. La prévisibilité est de mise.
« Le thème prédominant était celui des capacités par les contraintes », affirme M. Chin. « Au lieu de considérer l’échelle comme une fin en soi, les efforts de pointe visent à faire en sorte que les systèmes fonctionnent de manière prévisible dans des limites réelles. » Le progrès ressemble moins à une mission lunaire, et davantage à un problème d’ingénierie.
Trois contraintes détermineront ce que les entreprises pourront faire avec l’IA en 2026, ont confié plusieurs experts à IBM Think. La première est économique, la deuxième est physique et la troisième est réglementaire.
Commençons par l’argent. « L’économie de l’inférence jouera de plus en plus le rôle d’un plafond rigide », affirme M. Chin. « De nombreuses avancées récentes en matière de raisonnement reposent sur une puissance de calcul par requête nettement plus importante. » Un modèle qui met des minutes à réfléchir ne peut pas être déployé là où les réponses en temps réel sont requises à grande échelle, fait-il remarquer.
Les contraintes physiques sont tout aussi redoutables. « La consommation électrique des centres de données devrait plus que doubler dans le monde d’ici 2030 », déclare M. Emadi. « L’année prochaine, la principale contrainte pour de nombreuses entreprises ne sera pas la disponibilité des puces, mais la capacité en gigawatts pour les brancher. » Le secteur a passé des années à se focaliser sur les puces. Le goulot d’étranglement se déplace vers les centrales électriques.
« Les besoins en calcul, et donc les coûts environnementaux, restent élevés », ajoute M. Brennan, « ce qui soulève des questions éthiques importantes sur la durabilité. » L’empreinte carbone de l’IA est désormais impossible à ignorer.
Ensuite, il y a la réglementation. « Les pressions liées à une gouvernance dès la conception façonneront le développement des modèles de manière plus directe », affirme M. Chin. « Pour de nombreux déploiements, l’exigence ne concerne pas uniquement la haute performance, mais aussi un comportement contrôlable et encadré. » L’ère de la boîte noire touche peut-être à sa fin.
Le fossé qui se creuse entre l’industrie et la recherche inquiète certains observateurs. « Les universités doivent se recentrer sur l’IA fondamentale », déclaré Mme Scharff, « et investir dans les idées qui façonneront le domaine dans 10 à 20 ans. » Les plus grands modèles sont de plus en plus inaccessibles aux universités, ce qui soulève des questions peu confortables quant à l’origine de la prochaine génération d’idées.
Une évolution qui n’a pas fait l’objet d’une grande attention est l’essor de l’IA souveraine. « Dans de nombreux pays, les gens développent leurs propres modèles », explique M. Varshney. C’est important parce que les données d’entraînement sont davantage adaptées culturellement et rapprochent le contrôle économique plus près de chez soi, fait-il remarquer.
Pour 2026, M. Varshney s’attend à une poursuite de l’expérimentation, plutôt qu’à des percées spectaculaires. « Tout ne doit pas nécessairement être un transformer, ajoute-t-il. Mme Mihalcea offre un pronostic similaire : « un mélange spécialisé plus restreint de modèles experts, tirant parti de systèmes multi-agents. » Lorsqu’on lui demande si de grands bonds en avant sont à prévoir, M. Varshney se montre prudent. « Il y a toujours une chance… un autre moment ChatGPT », répond-il. « Mais je n’y crois pas trop. » À vrai dire, personne ne le sait.
Les praticiens s’adaptent déjà à ce nouveau paysage. Jayashankar Swaminathan, professeur d’opérations internationales à l’UNC Kenan-Flagler, indique à IBM Think que « les plus grandes avancées concernent les ... capacités agentiques autonomes, où l’IA est désormais capable d’accomplir plusieurs tâches dans un ordre simple. La seconde concerne la logique qui sous-tend la prise de décision. »
Dans le secteur de la santé, la transformation est déjà en cours. Maureen Baker, professeure de médecine agrégée à l’école d’infirmières de l’UNC, a confié à IBM Think que « les modèles d’IA progressaient à un rythme incroyable. » Mais elle a fait la distinction entre capacité et déploiement : « l’esprit critique, le raisonnement clinique et le discernement doivent rester au premier plan. » Son approche est pragmatique : « je recherche des victoires faciles, avec un risque minimal. »
L’écosystème se différencie. David Sachs, professeur de technologie de l’information à la Pace University, explique à IBM Think : « il semble y avoir deux types de modèles qui apparaissent : le grand modèle, qui permet de tout faire, et les plus ciblés, comme Julius ou Perplexity. » Tout comme les logiciels sont passés d’applications monolithiques à des outils spécialisés, l’IA se fragmente en niches.
« L’utilisation réelle de ces systèmes... est façonnée... par la conception de workflows symbiotiques », explique M. Jarrahi. Les humains apportent le discernement, la créativité et la responsabilité. L’IA apporte rapidité, cohérence et capacité à traiter de grandes quantités d’informations. Les entreprises qui trouveront le moyen de les combiner auront une longueur d’avance.
« L’IA de pointe s’éloigne d’une ère définie par la simple échelle », affirme M. Chin, « pour se tourner vers une ère définie par les procédures, les contraintes et les compromis opérationnels. » Les technologies atteignent leur maturité lorsque les ingénieurs commencent à les optimiser en fonction des limites du monde réel. À ce titre, l’IA est enfin en train de grandir.
Mais M. Varshney pense à quelque chose de plus profond que la technologie. « Quelles seront les tâches qui seront déléguées aux systèmes d’IA, et quelles tâches les humains continueront-ils d’effectuer ? », demande-t-il. « Est-ce parce que les humains trouvent un sens... en faisant certaines choses ? Que signifie être humain, à bien des égards ? »
