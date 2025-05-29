Début 2019, un changement subtil mais significatif s'est produit dans le monde de l'intelligence artificielle. OpenAI, acteur clé dans ce domaine, a commencé à s’éloigner de son accent initial sur la recherche ouverte. Au fil du temps, l’accès à ses données s’est restreint, les détails sur ses méthodes d’entraînement sont devenus de plus en plus difficiles à trouver et son travail interne est devenu plus fermé. Ce qui semblait être un simple changement de cap à l'époque allait marquer un tournant pour l'IA, modifiant la manière dont la recherche est partagée, développée et débattue dans le monde entier.
« Il n’y a plus de visibilité sur leurs jeux de données », déclare Karen Hao, observatrice de longue date du terrain et ancienne rédacteur en chef de l’intelligence artificielle au MIT Technology Review, lors d’un entretien avec IBM Think.
Le nouveau livre de Hao, Empire de l'IA, raconte l’évolution de l’IA générative de l’intérieur, en retraçant non seulement les motivations économiques et politiques à l’origine de l’essor d’entreprises comme OpenAI, mais aussi les décisions techniques silencieuses qui ont redéfini la science elle-même. « Même OpenAI ne sait pas toujours ce que contiennent ses kits d'entraînement. Les données sont trop volumineuses pour être auditées manuellement. »
Cette admission peut sembler triviale pour un observateur décontracté. Mais pour les chercheurs, l'incapacité à caractériser ou à reproduire de manière fiable les données utilisées pour former un modèle sape les fondements mêmes de la discipline. Depuis des décennies, le machine learning repose sur un principe scientifique simple : la reproductibilité. Un modèle doit se comporter de la même manière s'il est entraîné dans les mêmes conditions. Mais avec les jeux de données massifs et non organisés d’aujourd’hui, ces conditions sont souvent inconnues.
Dans la plupart des sciences empiriques, la reproductibilité est un test décisif de rigueur. Une expérience de chimie qui ne peut être reproduite est suspecte. Un essai médical avec des entrées introuvables a peu de chances d’être évalué par les avis. Dans le domaine de l'intelligence artificielle, la reproductibilité repose traditionnellement sur la publication par les chercheurs non seulement des architectures de modèles et des paramètres d'entraînement, mais aussi des jeux de données exacts utilisés pour entraîner ces modèles. Ces jeux de données, qu’il s’agisse de collections d’images, d’enregistrements audio ou de documents texte, constituent la base des connaissances des modèles et de la manière dont ils sont généralisés à de nouvelles entrées.
Au début des années 2010, ce modèle d'ouverture était la norme. Les laboratoires universitaires et les chercheurs d'entreprise ont partagé leurs corpus de formation, décrit leurs étapes de prétraitement et effectué des tests de référence par rapport à des normes communes. Mais en 2020, le paysage avait changé. Alors que des entreprises comme OpenAI ont commencé à se concurrencer de plus en plus agressivement pour obtenir un avantage commercial, la pratique consistant à partager des ensembles de données est tombée en désuétude.
Ce changement ne concernait pas seulement la propriété intellectuelle. Comme le souligne Hao, la taille même des jeux de données modernes, qui comprennent souvent des centaines de milliards de tokens récupérés sur l'internet, a rendu pratiquement impossible leur documentation exhaustive. Les entreprises ont commencé à s'appuyer sur des outils automatisés d'extraction et de filtrage pour assembler leurs jeux de données. Cependant, ces outils n'ont pas permis de détecter des problèmes subtils et ont introduit un nouveau niveau d'incertitude dans le processus de formation.
Un cas révélateur est celui de chercheurs de l'université de Stanford, qui ont vérifié le jeu de données d'images LAION-5B. Même s’il était public, le jeu de données contenait des milliers de cas de matériel vérifié ou suspecté d’abus sexuel sur enfant. Cette découverte est intervenue des années après que le jeu de données ait circulé librement et ait déjà été utilisé pour entraîner des générateurs d'images commerciaux. L’épisode a servi de prise de conscience. Si un tel préjudice peut être intégré dans un jeu de données ouvert, qu'est-ce qui peut se cacher dans les données privées ?
« Nous ne pouvons même plus garantir une division d'entraînement-test », explique M. Hao en faisant référence à une pratique méthodologique de base en machine learning.
Dans une configuration typique d’IA, le jeu de données est divisé en deux parties : une partie sert à entraîner le modèle et l’autre à tester ses performances. Cela permet de mesurer la précision du modèle sur des données qu'il n'a jamais vues auparavant. Mais lorsqu'un jeu de données est si vaste et si opaque que son contenu est en fait inconnu, le risque existe que le contenu dupliqué apparaisse dans les deux ensembles, ce qui contamine l'évaluation et gonfle les indicateurs de performance.
Il en résulte un domaine qui repose de plus en plus sur la confiance plutôt que sur la vérification. « C'est devenu plus alchimique que scientifique », explique Hao. « Nous apportons plus de calcul et plus de données au modèle et espérons que quelque chose en émerge. »
Tout le monde ne s'est pas précipité pour dimensionner. Comme le décrit Hao, un autre mouvement subtil est intervenu de la part de chercheurs qui ont suivi une autre voie. Au lieu de s’attaquer à des bases de données toujours plus étendues, ils s’attaquent à de petits ensembles de données triées sur le volet. Ce n’était pas de la quantité de données dont ils disposaient, mais de la façon dont ces données capturaient les nuances du langage, l’étendue de l’expérience humaine et les impératifs d’équité.
Au moment où le secteur poussait à aller plus loin, il se demandait également ce qui avait été négligé en cours de route. DeepSpeechde Mozilla, par exemple, était un projet de reconnaissance vocale construit à partir de clips audio donnés par des utilisateurs avec le plein consentement. Chaque extrait a été examiné manuellement et étiqueté, avec un effort considérable consacré à l’affinage du jeu de données afin d’assurer la clarté et la diversité en termes de voix, d’accents et de modèles linguistiques.
De même, le modèlelinguistique BLOOM, développé par un consortium mondial de recherche sous la direction de Hugging Face, a été entraîné à partir de jeux de données publics collectés en tenant compte de la diversité linguistique, géographique et thématique. Chaque source a été documentée. Des audits communautaires ont été sollicités. Contrairement aux modèles de fondation opaques, BLOOM a rendu sa méthodologie de formation lisible.
Mais ces efforts sont de plus en plus relégués au second plan. Selon M. Hao, la logique qui prévaut dans le secteur favorise désormais les économies d'échelle. Les modèles plus grands entraînés à partir de grands ensembles de données ont tendance à présenter des propriétés émergentes, telles que le raisonnement complexe ou la génération de code, même sans réglage spécifique à la tâche. Cela encourage les équipes à abandonner la conception minutieuse des données en faveur de la récupération de tout ce qu'elles peuvent.
L’état d’esprit d’OpenAI n’était pas simplement une conclusion technique. C'était le résultat d'un système de croyances cohérent, bien que peu orthodoxe, partagé par ses dirigeants, souligne M. Hao. Elle a déclaré qu'Ilya Sutskever, le scientifique en chef d'OpenAI, était un absolutiste de l'apprentissage profond. Il pensait qu’un réseau neuronal suffisamment grand, s’il fournissait suffisamment de données, développerait à terme une intelligence humaine. D'autre part, Sam Altman, PDG d'OpenAI, a abordé l'intelligence artificielle en tant qu'entrepreneur, considérant la croissance exponentielle comme le chemin le plus rapide vers la domination. Greg Brockman, le président d'OpenAI, était l'ingénieur qui s'occupait de la mise à l'échelle.
L'architecture qui a permis cette doctrine est le transformateur, un type de Neural Networks introduit pour la première fois en 2017. Les transformateurs excellent dans la modélisation de séquences de données, telles que le texte, car ils peuvent suivre les relations entre les mots sur de longues distances dans une phrase. Surtout, ils peuvent être mis à l’échelle efficacement. L'ajout de couches et de paramètres améliore les performances.
L’équipe de recherche d’OpenAI a compris que si elle entraînait les transformers sur un jeu de données suffisamment massif et doté d’une puissance de calcul suffisante, elle pourrait contourner le besoin de fonctionnalités artisanales, de raisonnement symbolique ou de conception modulaire. Le renseignement, à leur avis, émergerait des données.
Pour entraîner des modèles comme le GPT-4, l'OpenAI avait besoin non seulement d'idées, mais aussi d'infrastructures. Les modèles de langage de cette taille nécessitent des clusters de dizaines de milliers d’unités de traitement graphique. Conçus initialement pour le rendu d'images tridimensionnelles, les GPU se sont révélés exceptionnellement utiles pour les multiplications de matrices au cœur des neural networks. Mais les relier pour agir comme un système unifié nécessitait une orchestration logicielle et matérielle personnalisée.
Les ingénieurs d'OpenAI ont développé des techniques permettant de partitionner les modèles en fragments, qui pouvaient être répartis sur plusieurs puces et entraînés en parallèle. Ils ont créé des protocoles de point de contrôle pour préserver les parcours d'entraînement partiels, réduisant ainsi le risque de défaillance catastrophique. Ils ont élaboré des protocoles de communication personnalisés pour synchroniser les mises à jour entre les machines. Il ne s'agissait pas d'avancées prestigieuses, mais essentielles.
« Personne n’avait entraîné 10 000 puces auparavant », explique Mme Hao. « Il fallait les résoudre en temps réel. »
Ces avancées ont permis de développer des modèles plus rapidement et plus efficacement que les concurrents. Mais elles ont également contribué à créer un nouveau type de confidentialité. OpenAI a cessé de publier de nombreux détails sur ses avancées. Selon l'entreprise, en divulguer trop reviendrait à renoncer à un avantage concurrentiel.
En 2024, la plupart des grandes entreprises technologiques avaient rattrapé leur retard. IBM, Google, Meta, Amazon, Anthropic et les nouveaux entrants, tels que Mistral, ont tous produit de grands modèles de langage en utilisant des architectures transformatrices et des techniques d’entraînement similaires. Nombre d'entre eux ont utilisé l'apprentissage par renforcement avec commentaires humains, une méthode dans laquelle les humains évaluent la qualité de la production d'un modèle, ce qui permet d'affiner le modèle pour qu'il corresponde mieux aux préférences humaines.
Pour les observateurs extérieurs, les différences entre ces systèmes devenaient plus difficiles à discerner. Les développeurs d'applications ont commencé à concevoir des interfaces qui pouvaient fonctionner avec n'importe quel modèle en coulisses, ce qui leur permettait de changer de fournisseur si nécessaire. En matière de renseignements, la tarification, la latence et le temps de fonctionnement sont devenus plus importants que les différences marginales en matière d’intelligence.
« Tout le monde essaie d'être indépendant des modèles maintenant », explique Mme Hao. « OpenAI ne détient plus le monopole des bons modèles. »
L'échelle n'étant plus un facteur de différenciation, les entreprises ont commencé à investir dans un paradigme différent : l'agence. En intelligence artificielle, l'agence fait référence à la capacité d'un système à prendre des initiatives, à persister dans le temps et à agir pour atteindre ses objectifs. Plutôt que de réagir à un prompt, un agent planifie ses actions, surveille les résultats et ajuste son comportement.
Cela nécessitait de nouvelles capacités. Les modèles devaient conserver la mémoire d'une session à l'autre, s'intégrer à des outils tiers et prendre des décisions sans instructions explicites. L'objectif était de déplacer d'un chatbot passif à un collaborateur actif.
OpenAI s'inspire depuis longtemps du film « Her », dans lequel un utilisateur tombe amoureux d'une assistante IA qui s'adapte de façon fluide à ses besoins. Pour créer un tel système, il fallait développer non seulement l'intelligence, mais aussi la présence. Mme Hao a fait remarquer que les équipes internes d'OpenAI ont poursuivi ce rêve dans les domaines des produits et de la recherche.
« On ne peut pas construire ce genre d’assistant sans donner au modèle mémoire, persévérance et autonomie », dit-elle.
Mais pour que les agents soient véritablement efficaces, OpenAI avait besoin de plus que de simples algorithmes. Il fallait de nouveaux types de données et de nouveaux moyens de les collecter. L'internet, qui était autrefois une source abondante de données de formation, est aujourd'hui saturé de contenus synthétiques. La plupart des documents désormais disponibles en ligne ont été générés par les modèles précédents.
Cela crée une boucle de rétroaction dans laquelle la formation en ligne devient de moins en moins utile. Pour briser la boucle, les entreprises se tournent vers une collecte de données plus intime. Mme Hao a indiqué qu'OpenAI découvre des appareils mobiles capables de capturer le comportement des utilisateurs en temps réel, qu'il s'agisse d'interactions mobiles, de conversations vocales ou de contextes environnementaux.
« Il y a trop de contenu généré par l'IA en ligne », explique Mme Hao. « Si vous voulez des données de haute qualité, vous devez les obtenir directement auprès des gens. »
Le flot croissant de contenus générés par l’IA, explique Mme Hao, soulève des questions difficiles sur le consentement, la surveillance et le contrôle. Les gens peuvent-ils vraiment choisir de ne pas laisser leurs données être collectées ? Et que disent-elles par rapport aux modèles entraînés sur leurs mots, leurs images ou leur comportement ?
Pour Mme Hao, la réponse ne réside pas dans l'optimisme technologique ou l'alarmisme, mais dans la transparence. Elle ne s'abonne pas aux idéologies dominantes en matière d'IA, qu'elle appelle les « boomers », qui pensent que l'intelligence artificielle va sauver l'humanité, ou les « doomers » qui craignent qu'elle ne nous détruise.
« Je suis dans le camp de la responsabilité », affirme-t-elle. « Ces systèmes reflètent le pouvoir institutionnel. Nous devons savoir comment ils sont fabriqués et qui en profite. »
Les entreprises doivent expliquer comment leurs modèles sont testés, quelles données elles utilisent et comment elles interprètent les résultats, explique Mme Hao. Ils doivent garder une trace des erreurs et partager leurs découvertes afin que d'autres puissent y jeter un coup d'œil plus attentif.
Sans ce type d'ouverture, prévient Mme Hao, l'IA risque de devenir une boîte noire propriétaire, puissante mais non responsable.
