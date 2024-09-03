Aucune technologie dans l’histoire de l’humanité n’a suscité autant d’intérêt en si peu de temps que l’IA générative. De nombreuses entreprises technologiques de premier plan consacrent des milliards de dollars à l'entraînement de grands modèles linguistiques (LLM). Mais cette technologie peut-elle justifier cet investissement ? Est-ce que c’est à la hauteur du battage médiatique ?
Au printemps 2023, après une longue période consacrée au domaine de l’intelligence artificielle (IA), Goldman Sachs a publié un rapport estimant que l’émergence de l’IA générative pourrait stimuler le PIB mondial de 7 % par an, soit plus de 7 000 milliards de dollars chaque année.
Comment l’IA générative pourrait-elle y parvenir ? Les applications de cette technologie sont nombreuses, mais elles peuvent généralement être décrites comme améliorant l’efficacité de la communication entre les humains et les machines. Cette amélioration conduira à l’automatisation des tâches de bas niveau et à l’augmentation des capacités humaines, permettant aux travailleurs d’accomplir davantage avec une plus grande maîtrise.
En raison du large éventail d’applications et de la complexité de l’IA générative, de nombreux articles de presse pouvaient amener les lecteurs à penser que cette technologie était la panacée. En effet, cette perspective caractérise une grande partie de la couverture médiatique autour de l’IA générative : la sortie de ChatGPT et d’autres outils a généralisé la technologie en 2022, certains analystes prédisant que nous étions à l’aube d’une révolution qui allait refaçonner l’avenir du travail.
À peine deux ans plus tard, l’engouement médiatique pour l’IA générative est légèrement retombé. En juin, Goldman Sachs a publié un autre rapport plus mesuré, remettant en question la possibilité que les avantages de l’IA générative justifient l’investissement de plusieurs milliers de milliards de dollars dans le cadre de son développement. Le Financial Times, entre autres, a publié un article d’opinion faisant preuve du même scepticisme. L’équipe en charge de la newsletter IBM Think a résumé et répondu à certaines de ces incertitudes dans un billet précédent.
Les fluctuations boursières ultérieures ont conduit plusieurs analystes à proclamer que la « bulle de l’IA » était sur le point d’éclater et qu’une correction du marché comparable à celle de l’effondrement des dot-com des années 90 pourrait suivre.
Le scepticisme médiatique autour de l’IA générative peut se décomposer globalement en 4 crises distinctes auxquelles les développeurs sont confrontés :
Il s’agit là d’obstacles importants, mais beaucoup restent optimistes et pensent que la résolution du dernier problème (les cas d’utilisation) aidera à résoudre les trois autres. La bonne nouvelle, c’est qu’ils sont déjà en train d’identifier et de travailler sur des cas d’utilisation significatifs.
« L’IA générative a un impact marqué et mesurable sur nous et sur nos clients, en modifiant fondamentalement notre façon de travailler », déclare Chris Hay, ingénieur émérite chez IBM. « Cela concerne tous les secteurs et toutes les disciplines, de la transformation des processus RH ou marketing grâce au contenu de marque, jusqu’aux centres de contact ou au développement de logiciels. » Chris Hay estime que nous sommes dans la phase de correction qui suit souvent une période d’enthousiasme débordant, et le pessimisme récent des médias peut sans doute être considéré comme une tentative d’équilibrer les déclarations antérieures qui, avec le recul, prennent l’apparence de déclarations à l’emporte-pièce.
« Je ne voudrais pas être cet analyste », ironise Chris Hay, faisant référence à l’une des prédictions les plus pessimistes de ces derniers temps concernant l’avenir de l’IA. « Je ne voudrais pas être celui qui dit que "l’IA ne fera rien d’utile dans les 10 prochaines années", car on va lui en reparler toute sa vie. »
De telles déclarations pourraient s’avérer aussi peu perspicaces que les affirmations selon lesquelles l’internet à ses débuts n’aboutirait pas à grand-chose ou que le fondateur d’IBM, Thomas Watson, qui estimait en 1943 que le monde n’aurait pas besoin de plus de cinq ordinateurs. M. Hay affirme que le problème s’explique en partie par le fait que les médias confondent souvent l’IA générative avec une application plus étroite de chatbots alimentés par des LLM tels que ChatGPT, qui ne sont en effet peut-être pas équipés pour résoudre tous les problèmes auxquels les entreprises sont confrontées.
Si nous commençons à rencontrer des problèmes d’approvisionnement, que ce soit au niveau des données, de la puissance de calcul ou de la puissance, Chris Hay estime que les ingénieurs feront preuve de créativité pour surmonter ces obstacles.
« Quand on a quelque chose en abondance, on le consomme, explique-t-il. « Si vous avez des centaines de milliers de GPU à disposition, vous allez les utiliser. Mais quand on a des contraintes, on devient plus créatif. »
Par exemple, les données synthétiques constituent un moyen prometteur de faire face à la crise des données. Ces données sont créées de manière algorithmique afin d’imiter les caractéristiques des données réelles et peuvent servir d’alternative ou de complément à ces dernières. Bien que les ingénieurs en machine learning doivent veiller à ne pas surutiliser les données synthétiques, une approche hybride pourrait aider à pallier la pénurie de données du monde réel à court terme. Par exemple, les récents modèles Microsoft PHI-3.5 ou les modèles Hugging Face SMOL ont été entraînés à partir d’importantes quantités de données synthétiques, ce qui a permis de créer de petits modèles très performants.
Les LLM d’aujourd’hui sont gourmands en énergie, mais il n’y a pas de raison de croire que les transformers actuels constituent l’architecture finale. Les modèles basés sur des SSM, tels que Mistral Codestral Mamba, Jamba 1.5 ou Falcon Mamba 1.5, gagnent en popularité grâce à leurs capacités accrues en termes de longueur de contexte. Les architectures hybrides qui utilisent plusieurs types de modèles gagnent également du terrain. Au-delà de l’architecture, les ingénieurs trouvent de la valeur dans d’autres méthodes, telles que la quantification, les puces conçues spécifiquement pour l’inférence, et le réglage fin, une technique d’apprentissage profond qui implique l’adaptation d’un modèle pré-entraîné à des cas d’utilisation spécifiques.
« J’aimerais voir une communauté plus soudée autour du réglage fin au sein du secteur, plutôt qu'autour du pré-entraînement », déclare M. Hay. « L’entraînement initial est la partie la plus coûteuse du processus.» Le réglage fin est beaucoup moins cher, et vous pouvez potentiellement en tirer beaucoup plus de valeur. »
Hay suggère qu’à l’avenir, nous aurons peut-être plus de GPU que nous ne saurons quoi en faire, car nos techniques sont devenues bien plus efficaces. Il a récemment expérimenté la transformation d’un ordinateur portable personnel en une machine capable d’entraîner des modèles. En reconstruisant des pipelines de données plus efficaces et en ajustant le batching, il trouve des moyens de travailler dans les limites imposées. Il aurait pu naturellement faire tout cela sur un GPU H100 Tensor Core coûteux, mais une mentalité axée sur la rareté lui a permis de trouver des moyens plus efficaces d’obtenir les résultats souhaités. La nécessité est la mère de l’invention.
Les modèles sont de plus en plus petits et plus puissants.
« Si vous regardez les petits modèles d’aujourd’hui, ils sont entraînés avec plus de tokens que les grands modèles de l’année dernière, explique Chris Hay. Les gens insèrent de plus en plus de tokens dans des modèles plus petits, et ces modèles deviennent plus efficaces et plus rapides. »
« Lorsque nous pensons aux applications de l’IA pour résoudre de réels problèmes commerciaux, ce que nous constatons, c’est que ces modèles spécialisés prennent de plus en plus d’importance », explique Brent Smolinksi, responsable mondial de la technologie, des données et de la stratégie IA chez IBM. Cela inclut les modèles dits petits modèles linguistiques et les modèles non génératifs, tels que les modèles de prévision, qui nécessitent un ensemble de données plus restreint. Dans ce contexte, la qualité des données l’emporte souvent sur la quantité. De plus, ces modèles spécialisés consomment moins d'électricité et sont plus faciles à contrôler.
« De nombreuses recherches sont menées pour développer des algorithmes plus efficaces sur le plan du calcul », ajoute Brent Smolinksi. Des modèles plus efficaces répondent aux quatre crises incriminées : ils consomment moins de données, d’énergie et de calculs et, étant plus rapides, ils ouvrent la voie à de nouveaux cas d’utilisation.
« Les LLM sont excellents parce qu’ils ont une interface conversationnelle très naturelle, et plus vous fournissez de données, plus la conversation est naturelle », explique M. Smolinksi. « Mais dans le contexte de domaines ou de problèmes restreints, ces LLM sont sujets à des hallucinations, ce qui est un vrai problème. Nos clients optent donc souvent pour de petits modèles linguistiques, et si l’interface n’est pas parfaitement naturelle, ce n’est pas grave, car pour certains problèmes, ce n’est pas nécessaire. »
L’IA générative n’est peut-être pas la panacée, mais c’est un outil puissant. Prenons l’exemple du workflow agentique, qui désigne une approche en plusieurs étapes utilisant des LLM et des agents IA pour réaliser des tâches. Ces agents agissent avec un certain degré d’indépendance et de prise de décision, interagissant avec des données, des systèmes et parfois des personnes, pour accomplir les tâches qui leur sont assignées. Les agents spécialisés peuvent être conçus pour gérer des tâches ou des domaines d’expertise spécifiques, en apportant des connaissances et une expérience approfondies qui pourraient faire défaut aux LLM. Ces agents peuvent soit exploiter des données plus spécialisées, soit intégrer des algorithmes et des modèles spécifiques au domaine.
Imaginez une entreprise de télécommunications où un workflow agentique orchestré par un LLM gère efficacement le support client. Lorsqu’un client envoie une demande, le LLM traite la requête, catégorise le problème et déclenche des agents spécifiques pour gérer diverses tâches. Par exemple, un agent récupère les informations du compte du client et vérifie les informations fournies, tandis qu’un autre diagnostique le problème, comme effectuer des vérifications sur le réseau ou examiner les écarts de facturation.
Lorsque le problème est identifié, un troisième agent formule une solution, qu’il s’agisse de réinitialiser l’équipement, d’offrir un remboursement ou de planifier une visite technique. Le LLM aide ensuite un agent de communication à générer une réponse personnalisée au client, en veillant à ce que le message soit clair et cohérent avec la voix de la marque de l’entreprise. Une fois le problème résolu, un processus de commentaires est lancé, et dans ce cadre, un agent recueille les commentaires des clients afin de déterminer leur niveau de satisfaction. Si le client n’est pas satisfait, le LLM analyse les commentaires et peut déclencher d’autres actions de suivi, comme un appel par un agent humain.
Les LLM, bien que polyvalents, peuvent avoir du mal à effectuer des tâches qui nécessitent une expertise approfondie du domaine ou des connaissances spécialisées, en particulier lorsque ces tâches ne relèvent pas des données de formation du LLM. Ils sont également lents et peu adaptés pour prendre des décisions en temps réel dans des environnements dynamiques. En revanche, les agents peuvent fonctionner de manière autonome et proactive, en temps réel, en utilisant des algorithmes de prise de décision plus simples.
Contrairement aux grands LLM monolithiques, les agents peuvent également être conçus pour tirer des leçons de leur environnement et s’y adapter. Ils peuvent utiliser l’apprentissage par renforcement ou les commentaires pour améliorer la performance au fil du temps, en ajustant des stratégies en fonction de la réussite ou de l’échec des tâches précédentes. Les workflows agentiques eux-mêmes génèrent de nouvelles données, qui peuvent ensuite être utilisées pour un entraînement ultérieur.
Ce scénario montre qu’un LLM est un élément utile pour résoudre un problème d’entreprise, mais qu’il ne s’agit pas d’une solution complète. C’est une bonne nouvelle car le LLM est souvent l’élément le plus coûteux de la chaîne de valeur.
M. Smolinksi soutient que les gens vont souvent à l’extrême lorsqu’ils sont enthousiasmés par les nouvelles technologies. On peut imaginer qu’une nouvelle technologie va changer le monde, et lorsqu’elle n’y parvient pas, nous sommes sans doute trop pessimistes.
« Je crois que la réponse se situe quelque part entre les deux », affirme-t-il, en faisant valoir que l’IA doit faire partie d’une stratégie plus large visant à résoudre les problèmes métier. « Il ne s’agit généralement jamais de l’IA seule, et même si c’est le cas, on utilise potentiellement plusieurs types de modèles IA appliqués simultanément pour résoudre un problème. » Mais il faut commencer par le problème. Si une application d’IA pouvait avoir un impact important sur votre capacité de prise de décision, ce qui aurait un impact financier important, concentrez-vous sur ces domaines, puis déterminez comment appliquer le bon ensemble de technologies et d’IA. Tirez parti de la boîte à outils complète, pas seulement des LLM, mais de l’ensemble des outils disponibles. »
En ce qui concerne ce que l’on appelle la « crise des cas d’utilisation », Chris Hay est convaincu que des cas d’utilisation encore plus convaincants vont apparaître pour justifier le coût de ces modèles.
« Si vous attendez que la technologie soit parfaite et n’entrez sur le marché que lorsque tout est normalisé, c’est une bonne façon d’être de subir les perturbations », dit-il. « Je ne suis pas sûr que je tenterais cela. »