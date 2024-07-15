Dans la course à la maîtrise de l’IA, les choses plus grandes sont généralement meilleures. Plus de données et plus de paramètres permettent de créer des systèmes d’IA plus importants, qui sont non seulement plus puissants, mais aussi plus efficaces et plus rapides, et qui génèrent généralement moins d’erreurs que les systèmes plus petits.
Les entreprises technologiques qui font la une des journaux renforcent cette tendance. « Le système que nous venons de déployer est, en termes d’échelle, à peu près aussi gros qu’une baleine », a déclaré Kevin Scott, directeur technique de Microsoft, à propos du superordinateur qui alimente Chat GPT-5. Scott discutait de la dernière version du chatbot d’IA générative d’Open AI lors de l’événement Build organisé par l’entreprise à la fin du mois de mai. « Et il s’avère que vous pouvez créer un tas d’IA avec un superordinateur de la taille d’une baleine. »
Par ailleurs, la capitalisation boursière de Nvidia a atteint la barre des 3 000 milliards de dollars en juin. Le fabricant de puces connaît une croissance vertigineuse alors que ses puces alimentent des modèles de langage volumineux, des superordinateurs et les centres de données qui se multiplient dans le monde.
Mais les choses plus grandes sont-elles toujours meilleures ? Ceci dépend de votre point de vue. Pour les entreprises qui développent de grands modèles linguistiques, l'échelle est un avantage dans la plupart des cas. Mais alors que les entreprises cherchent à éloigner le battage médiatique des cas où l'IA peut apporter une véritable valeur ajoutée, il n'est pas sûr que des modèles de langage de plus en plus ouverts conduiront toujours à de meilleures solutions pour les entreprises.
À l’avenir, « nous n’aurons plus besoin de modèles 100 fois supérieurs à ceux que nous avons aujourd’hui pour en tirer le meilleur parti », a déclaré Kate Soule, directrice du programme de recherche en IA générative d’IBM dans un épisode récent du podcast Mixture of Experts d’IBM. De nombreuses entreprises qui obtiennent déjà un retour sur leurs investissements dans l’IA l’utilisent pour des tâches telles que la classification et la synthèse, qui n’utilisent même pas toutes les capacités des modèles linguistiques actuels.
L'expression « Bigger is better » (plus c'est grand, mieux c'est) provient des lois d'échelonnement des données qui ont fait leur apparition dans les conversations grâce à un article publié en 2012 par Prasanth Kolachina, qui appliquait les lois d'échelonnement au machine learning. M. Kolachina et ses collègues ont montré qu'à mesure que les modèles grossissaient, ils devenaient généralement plus précis et plus performants. En 2017, Hestness et al. ont montré que la mise à l'échelle de l'apprentissage profond est également prévisible de manière empirique. En 2020, Kaplan et al. ont montré que les lois de mise à l'échelle des données s'appliquaient également aux modèles de langage.
Bien que ces lois soient utiles pour les fournisseurs de modèles de langage qui s’efforcent de créer une intelligence générale artificielle, il est loin d’être évident que les entreprises ont besoin de cette échelle d’investissement ou de l’IA pour obtenir le maximum de valeur.
« Même si vous connaissez la méthode la plus rentable pour former un modèle de taille n, les avantages réels que vous tirerez de ce modèle justifieront-ils les coûts engagés ? », s’interroge K. Soule d’IBM. « Il s’agit d’une question tout à fait différente à laquelle les lois de l’évolutivité ne répondent pas. »
Le coût des données augmente car les données de haute qualité utilisées pour entraîner les modèles IA deviennent de plus en plus rares. Un article d’Epoch IA, une entreprise de recherche, a révélé que les modèles IA pourraient épuiser toutes les données linguistiques de haute qualité disponibles sur Internet dès 2026.
Les entreprises font donc preuve de créativité pour accéder à de nouvelles données afin d'entraîner des modèles et de gérer les coûts. La dernière version de Chat GPT d'Open IA, par exemple, est proposée gratuitement aux utilisateurs en échange de certaines données d'utilisateurs et de tiers. Les principaux acteurs étudient également les données synthétiques, composées d'images 2D, de données 3D, de texte, etc., qui sont utilisées avec des données du monde réel pour entraîner l'IA.
Alors que les entreprises qui développent des modèles linguistiques à long terme assument les coûts des données, les coûts climatiques des modèles linguistiques de plus en plus volumineux ont été largement négligés. Au fur et à mesure que ces modèles gagnent en complexité et en utilisation, ils consomment de vastes ressources informatiques. Les centres de données abritant les superordinateurs alimentant ces modèles consomment une quantité importante d’énergie, créant des émissions de carbone correspondantes.
« Il ne s’agit pas seulement d’un impact énergétique considérable, mais également d’un impact carbone qui entraînera des coûts pour les personnes qui ne bénéficient pas de cette technologie », a déclaré Emily Bender, professeure de linguistique à l’université de Washington, qui a publié un article intitulé « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? » (Les dangers des perroquets stochastiques : les modèles linguistiques peuvent-ils être trop volumineux ?).
« Lorsque nous effectuons une analyse coûts-avantages, il est important de réfléchir à qui bénéficie de l'avantage et qui en supporte le coût, car il ne s’agit pas des mêmes personnes », a déclaré Bender dans un communiqué de presse de l’Université de Washington.
Une façon pour les entreprises d’équilibrer les coûts et les avantages consiste à utiliser d’abord des modèles plus grands pour adresser les problèmes métier les plus complexes. Ensuite, une fois qu’ils ont obtenu la réponse, ils passent à des modèles plus petits qui reproduisent les résultats des grands modèles, mais à moindre coût et avec une latence réduite.
L'utilisation de modèles linguistiques plus petits est également de plus en plus répandue comme alternative aux grands modèles linguistiques.
« Les LLM plus petits offrent aux utilisateurs plus de contrôle que les grands modèles de langage comme ChatGPT ou Claude d’Anthropic, ce qui les rend plus recherchés dans de nombreux cas », a déclaré Brian Peterson, cofondateur et directeur technique de Dialpad, une plateforme basé sur le cloud et alimenté par l’IA, a raconté à PYMNTS.
« Ils sont capables de filtrer un sous-ensemble plus restreint de données, ce qui les rend plus rapides, plus abordables et, si vous disposez de vos propres données, beaucoup plus personnalisables et encore plus précis. » La course à la création de LLM plus grands et plus puissants ne devrait pas ralentir de sitôt. Cependant, la plupart des experts s’accordent à dire qu’à l’avenir, nous assisterons également à une multiplication des modèles d’IA compacts mais puissants, excellant dans des domaines spécifiques et offrant une alternative aux entreprises qui cherchent à mieux équilibrer la valeur et les coûts de l’IA.
