2022 a été l’année où l’intelligence artificielle (IA) générative a explosé aux yeux du grand public, et 2023 l’année où elle a commencé à s’implanter dans le monde de l’entreprise. 2024 sera donc une année charnière pour l’avenir de l’IA, les chercheurs et les entreprises souhaitant établir comment ce bond technologique peut être intégré de la manière la plus pratique possible dans notre vie quotidienne.
L’évolution de l’IA générative suit celle des ordinateurs, bien qu’elle soit considérablement accélérée. Les ordinateurs mainframe imposants et centralisés de quelques acteurs ont cédé la place à des machines plus petites et plus efficaces, accessibles aux entreprises et aux instituts de recherche. Dans les décennies qui ont suivi, des progrès progressifs ont permis l’apparition d’ordinateurs domestiques que les amateurs pouvaient personnaliser. Avec le temps, les ordinateurs personnels puissants dotés d’interfaces no-code intuitives sont devenus omniprésents.
L’IA générative a déjà atteint sa phase « hobbyiste » ; comme pour les ordinateurs, les progrès futurs visent à atteindre de plus grandes performances dans des unités plus petites. En 2023, on assiste à une explosion de modèles de fondation de plus en plus efficaces avec des licences ouvertes, en commençant par le lancement de la famille de grands modèles de langage (LLM) LlaMa de Meta, puis de modèles tels que StableLM, Falcon, Mistral et Llama 2. DeepFloyd et Stable Diffusion ont atteint la parité relative avec les principaux modèles propriétaires. Améliorés par des techniques de perfectionnement et des jeux de données développés par la communauté open source, de nombreux modèles ouverts peuvent désormais surpasser tous les modèles à source fermée, à l’exception des plus puissants, sur la plupart des points de référence, malgré un nombre de paramètres bien inférieur.
Alors que le rythme des progrès s’accélère, ce sont les capacités toujours croissantes des modèles de pointe qui retiendront le plus l’attention des médias. Cependant, les développements les plus marquants pourraient être ceux axés sur la gouvernance, les intergiciels, les techniques de formation et les pipelines de données qui rendent l’IA générative plus fiable, plus durable et plus accessible, tant pour les entreprises que pour les utilisateurs finaux.
Voici quelques-unes des principales tendances actuelles de l’IA à surveiller au cours de l’année à venir.
Lorsque l’IA générative a commencé à être connue du grand public, les connaissances d’un dirigeant typique provenaient principalement de documents marketing et d’une couverture médiatique essoufflée. L’expérience concrète (s’il y en a une) se limitait à des essais avec ChatGPT et DALL-E. Maintenant que l’agitation est passée, le monde de l’entreprise dispose d’une compréhension plus pointue des solutions alimentées par l’IA.
Le Hype Cycle de Gartner positionne l’IA générative au « pic des attentes exagérées », sur le point de glisser vers le « creux de la désillusion »[1], en d’autres termes, sur le point d’entrer dans une période de transition (relativement) décevante. Le rapport du 1er trimestre 2024 de Deloitte sur l’état de l’IA générative dans les entreprises, quant à lui, indique que de nombreux dirigeants « s’attendent à des impacts transformateurs substantiels à court terme ».[2] La réalité se situera probablement entre les deux : l’IA générative offre des opportunités et des solutions uniques, mais elle ne répondra pas aux besoins de tout le monde.
Comparer les résultats du monde réel au battage médiatique est en partie une question de point de vue. Les outils autonomes comme ChatGPT occupent généralement le devant de la scène dans l’imaginaire populaire, mais une intégration harmonieuse dans des services établis permet souvent d’obtenir une plus grande longévité. Avant le cycle actuel, les outils de machine learning génératifs tels que la fonction Rédaction intelligente lancée par Google en 2018 n’étaient pas considérés comme un changement de paradigme, bien qu’ils soient les précurseurs des services de génération de texte d’aujourd’hui. De même, de nombreux outils d’IA générative à fort impact sont mis en œuvre en tant qu’éléments intégrés aux environnements d’entreprise qui améliorent et complètent plus qu’ils ne révolutionnent ou remplacent les outils existants : citons par exemple les fonctionnalités de copilote dans Microsoft Office, les fonctionnalités de remplissage génératif dans Adobe Photoshop ou les agents conversationnels dans les applications de productivité et de collaboration.
L’évolution de l’IA générative dans les workflows quotidiens aura plus d’influence sur l’avenir des outils d’IA que l’hypothétique montée en puissance de capacités d’IA spécifiques. Selon une récente enquête d’IBM menée auprès de plus de 1 000 employés d’entreprises, les trois principaux facteurs d’adoption de l’IA sont les progrès des outils d’IA qui les rendent plus accessibles, la nécessité de réduire les coûts et d’automatiser les processus clés, et l’utilisation de plus en plus fréquente de l’IA dans les applications commerciales standard.
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Cela dit, l’ambition de l’IA générative de pointe ne cesse de croître. La prochaine vague de progrès se focalisera non seulement sur l’amélioration des performances dans un domaine spécifique, mais aussi sur les modèles multimodaux qui peuvent absorber plusieurs types de données en entrée. Bien que les modèles qui fonctionnent avec différentes modalités de données ne soient pas un phénomène totalement nouveau, puisque des modèles texte-vers-image comme CLIP et des modèles speech-to-text comme Wave2Vec existent depuis des années, ils n’ont généralement fonctionné que dans un sens et ont été formés pour accomplir une tâche spécifique.
La nouvelle génération de modèles interdisciplinaires, comprenant des modèles propriétaires comme GPT-4V d’OpenAI ou Gemini de Google, ainsi que des modèles open source comme LLaVa, Adept ou Qwen-VL, peut passer librement du traitement automatique du langage naturel (NLP) aux tâches de vision par ordinateur. De nouveaux modèles intègrent également la vidéo : fin janvier, Google a annoncé Lumiere, un modèle de diffusion texte-vers-vidéo qui peut également effectuer des tâches image-vers-vidéo ou utiliser des images comme référence stylistique.
L’avantage le plus immédiat de l’IA multimodale réside dans des applications d’IA et des assistants virtuels plus intuitifs et plus polyvalents. Les usagers peuvent, par exemple, poser des questions sur une image et recevoir une réponse en langage naturel, ou demander à haute voix des instructions pour réparer quelque chose et recevoir des aides visuelles en même temps que des instructions textuelles étape par étape.
À un niveau plus avancé, l’IA multimodale permet à un modèle de traiter des données plus diverses, enrichissant et élargissant les informations disponibles pour la formation et l’inférence. La vidéo, en particulier, présente un fort potentiel pour l’apprentissage holistique. « Des caméras allumées 24 heures sur 24, 7 jours sur 7, enregistrent tout ce qui se passe exactement comme cela se passe, sans filtrage et sans intentionnalité », explique Peter Norvig, membre éminent du Stanford Institute for Human-Centered Artificial Intelligence (HAI).[3] « Les modèles IA n’ont jamais eu ce genre de données auparavant. Ces modèles auront tout simplement une meilleure compréhension de tout. »
Dans les modèles propres à un domaine (en particulier les LLM), nous avons probablement atteint le point de rendement décroissant d’un plus grand nombre de paramètres. Sam Altman, PDG d’OpenAI (dont le modèle GPT-4 aurait environ 1,76 trillion de paramètres), l’a suggéré lors de l’événement Imagination in Action du MIT en avril dernier : « Je pense que nous sommes à la fin de l’ère des modèles géants et que nous les améliorerons par d’autres moyens, a-t-il prédit. Je pense que l’on s’est beaucoup trop concentré sur le nombre de paramètres. »
Les modèles massifs ont inauguré l’âge d’or actuel de l’IA, mais ils ne sont pas sans inconvénients. Seules les très grandes entreprises disposent des fonds et de l’espace serveur nécessaires pour former et maintenir des modèles énergivores dotés de centaines de milliards de paramètres. Selon une estimation de l’université de Washington, l’entraînement d’un seul modèle de la taille de GPT-3 exige la même consommation annuelle d’électricité que plus de 1 000 ménages ; une journée normale de requêtes ChatGPT rivalise avec la consommation quotidienne d’énergie de 33 000 ménages américains.[4]
Les modèles plus petits, quant à eux, sont beaucoup moins gourmands en ressources. Un article influent publié en mars 2022 par Deepmind a démontré que l’entraînement de modèles plus petits sur un plus grand nombre de données permet d’obtenir de meilleures performances que l’entraînement de modèles plus grands sur un moins grand nombre de données. La plupart des innovations en cours dans les LLM se sont donc axées sur l’obtention d’un plus grand nombre de résultats à partir de moins de paramètres. Comme le montrent les progrès récents des modèles comportant de 3 à 70 milliards de paramètres, en particulier ceux fondés sur les modèles de fondation LLaMa, Llama 2 et Mistral en 2023, il est possible de réduire la taille des modèles sans trop compromettre les performances.
La puissance des modèles ouverts continuera de croître. En décembre 2023, Mistral a publié « Mixtral », un modèle de mélange d’experts (MoE) intégrant huit réseaux neuronaux, chacun avec 7 milliards de paramètres. Mistral affirme que Mixtral surpasse non seulement la variante à 70 milliards de paramètres de Llama 2 sur la plupart des points de référence avec des vitesses d’inférence six fois supérieures, mais qu’il égale ou surpasse même le modèle GPT-3.5 d’OpenAI, bien plus grand, sur la plupart des points de référence standard. Peu après, Meta a annoncé en janvier avoir déjà commencé l’entraînement des modèles Llama 3 et a confirmé qu’ils seraient open source. Bien que les détails (comme la taille du modèle) n’aient pas été confirmés, on peut raisonnablement s’attendre à ce que Llama 3 suive le cadre établi dans les deux générations précédentes.
Ces avancées dans le domaine des modèles plus petits présentent trois avantages majeurs :
La tendance à la réduction des modèles sera dictée autant par la nécessité que par la vigueur commerciale, alors que les coûts du cloud computing augmentent et que la disponibilité du matériel diminue.
« Les grandes entreprises (et elles sont de plus en plus nombreuses) essaient toutes d’intégrer des capacités d’IA en interne, et on assiste à une certaine ruée sur les GPU », déclare James Landay, vice-directeur et directeur de la recherche du Stanford HAI. « Cela va engendrer une pression énorme, non seulement pour augmenter la production de GPU, mais aussi pour que les innovateurs proposent des solutions matérielles moins chères et plus faciles à fabriquer et à utiliser. »1
Comme l’explique un rapport d’O’Reilly datant de fin 2023, les fournisseurs de cloud supportent actuellement une grande partie de la charge informatique : relativement peu d’adeptes de l’IA maintiennent leur propre infrastructure, et les pénuries de matériel ne feront qu’augmenter les obstacles et les coûts liés à la mise en place de serveurs sur site. À long terme, cela pourrait exercer une pression accrue sur les coûts du cloud à mesure que les fournisseurs actualisent et optimisent leur propre infrastructure pour répondre efficacement à la demande de l’IA générative.[5]
Pour les entreprises, naviguer dans ce paysage incertain exige de la flexibilité, à la fois en termes de modèles, en s’appuyant sur des modèles plus petits et plus efficaces lorsque cela est nécessaire ou sur des modèles plus grands et plus performants lorsque c’est possible, et d’environnement de déploiement. « Nous ne voulons pas limiter les possibilités de déploiement [d’un modèle] », a déclaré Arvind Krishna, PDG d’IBM, dans une interview accordée à CNBC en décembre 2023, en référence au portefeuille de produits d’IA IBM watsonx. « Ainsi, s’ils veulent la déployer sur un grand cloud public, nous le ferons. S’ils veulent le déployer chez IBM, nous le déploierons chez IBM. S’ils veulent le faire eux-mêmes et qu’ils disposent d’une infrastructure suffisante, c’est possible. »
La tendance à optimiser les performances des modèles plus compacts est bien servie par les récents résultats de la communauté open source.
De nombreuses avancées majeures ont été (et continueront d’être) réalisées non seulement grâce à de nouveaux modèles de fondation, mais aussi grâce à de nouvelles techniques et ressources (comme les jeux de données open source) pour l’entraînement, le réglage, le perfectionnement ou l’harmonisation des modèles pré-entraînés. Les principales techniques indépendantes des modèles qui se sont imposées en 2023 sont :
Parallèlement aux progrès des modèles open source dotés de 3 à 70 milliards de paramètres, ces techniques évolutives pourraient modifier la dynamique du paysage de l’IA en permettant à des acteurs plus modestes, comme les start-ups et les amateurs, de disposer de capacités d’IA sophistiquées jusqu’à présent hors de portée.
En 2024, les entreprises peuvent donc chercher à se différencier en développant des modèles sur mesure, plutôt qu’en construisant des enveloppes autour de services reconditionnés de « Big AI ». Avec les bonnes données et un cadre de développement adéquat, les modèles et outils d’IA open source existants peuvent être adaptés à presque tous les scénarios du monde réel, du support client à la gestion de la chaîne d’approvisionnement en passant par l’analyse de documents complexes.
Les modèles open source permettent aux organisations de développer rapidement de puissants modèles d’IA personnalisés (formés sur leurs données propriétaires et adaptés à leurs besoins spécifiques), sans investissements d’infrastructure prohibitifs. Cette possibilité est particulièrement intéressante dans des domaines tels que le droit, la santé ou la finance, où le vocabulaire et les concepts hautement spécialisés n’ont pas forcément été appris par les modèles de fondation lors du pré-entraînement.
Ces domaines illustrent également parfaitement les secteurs d’activité qui peuvent bénéficier de modèles suffisamment petits pour être exécutés localement sur du matériel modeste. Le fait que l’entraînement de l’IA, l’inférence et la génération augmentée de récupération (RAG) restent locaux évite le risque que des données propriétaires ou des données à caractère personnel sensibles soient utilisées pour former des modèles à source fermée ou qu’elles passent par les mains de tiers. De plus, l’utilisation de la RAG pour accéder aux informations pertinentes plutôt que de stocker toutes les connaissances directement dans le LLM lui-même permet de réduire la taille du modèle, ce qui accroît encore sa vitesse et réduit les coûts.
Alors que l’uniformisation des modèles se poursuit en 2024, l’avantage concurrentiel sera de plus en plus lié aux pipelines de données exclusifs qui permettent d’effectuer les meilleurs réglages du secteur.
Avec des outils plus sophistiqués et plus efficaces et un an de retour d’expérience du marché à leur disposition, les entreprises sont prêtes à étendre les cas d’utilisation des agents conversationnels au-delà des simples chatbots d’expérience client.
À mesure que les systèmes d’IA s’accélèrent et intègrent de nouveaux flux et formats d’information, ils élargissent les possibilités non seulement de communication et de suivi des instructions, mais aussi d’automatisation des tâches. « En 2023, il a été possible de discuter avec une IA. De nombreuses entreprises ont lancé des offres, mais l’interaction consistait toujours à saisir un message et à attendre la réponse de l’IA, explique M. Norvig. En 2024, nous verrons la possibilité pour les agents d’accomplir des tâches à votre place : faire des réservations, planifier un voyage ou se connecter à d’autres services. »
Plus particulièrement, l’IA multimodale accroît considérablement les possibilités d’interaction transparente avec les agents conversationnels. Ainsi, au lieu de demander des recettes à un bot, un utilisateur peut orienter sa caméra vers un réfrigérateur ouvert et demander des recettes à base d’ingrédients disponibles. Be My Eyes, une application mobile qui met en relation des personnes aveugles ou malvoyantes avec des bénévoles pour les aider à effectuer des tâches rapides, pilote des outils d’IA qui aident les utilisateurs à interagir directement avec leur environnement grâce à l’IA multimodale sans attendre la présence d’un bénévole humain.
L’augmentation des capacités multimodales et la diminution des barrières à l’entrée ouvrent également de nouvelles portes aux abus : les deepfakes, les problèmes de confidentialité, la perpétuation des préjugés et même le contournement des protections CAPTCHA peuvent devenir de plus en plus faciles pour les acteurs malveillants. En janvier 2024, une vague de deepfakes explicites de célébrités a déferlé sur les réseaux sociaux ; des recherches menées en mai 2023 ont indiqué qu’il y avait eu huit fois plus de deepfakes vocaux mis en ligne par rapport à la même période en 2022.[6]
L’ambiguïté de l’environnement réglementaire pourrait ralentir l’adoption, ou du moins une mise en œuvre plus agressive, à court et à moyen terme. Tout investissement majeur et irréversible dans une technologie ou une pratique émergente qui pourrait nécessiter une adaptation importante (voire devenir illégale) à la suite d’une nouvelle législation ou des turbulences politiques dans les années à venir comporte un risque inhérent.
En décembre 2023, l’Union européenne (UE) est parvenue à un accord provisoire sur la législation sur l’intelligence artificielle. Entre autres mesures, cette loi interdit la collecte aveugle d’images pour créer des bases de données de reconnaissance faciale, les systèmes de catégorisation biométrique susceptibles de présenter des biais discriminatoires, les systèmes de « notation sociale » et l’utilisation de l’IA à des fins de manipulation sociale ou économique. Elle cherche également à définir une catégorie de systèmes d’IA « à haut risque », susceptibles de menacer la sécurité, les droits fondamentaux ou l’État de droit, qui feront l’objet d’une surveillance accrue. De même, elle fixe des exigences de transparence pour ce qu’elle appelle les « modèles d’IA à usage général » (GPAI) (modèles de fondation), notamment en ce qui concerne la documentation technique et les essais contradictoires systémiques.
Mais si certains acteurs clés, comme Mistral, sont établis dans l’UE, la majorité des développements révolutionnaires en matière d’IA ont lieu aux États-Unis, où une législation substantielle sur l’IA dans le secteur privé exigera une action du Congrès, ce qui pourrait s’avérer peu probable en cette année électorale. Le 30 octobre, l’administration Biden a publié un décret détaillé précisant les 150 conditions d’utilisation des technologies d’IA par les agences fédérales ; quelques mois auparavant, l’administration avait obtenu des engagements volontaires de la part d’éminents développeurs d’IA (lien externe à ibm.com) pour adhérer à certaines règles de confiance et de sécurité. La Californie et le Colorado s’emploient activement à légiférer sur les droits des personnes en matière de confidentialité des données dans le cadre de l’intelligence artificielle.
La Chine s’est engagée de manière plus proactive sur la voie de restrictions officielles en matière d’IA, en interdisant la discrimination par les prix pratiquée par les algorithmes de recommandation sur les réseaux sociaux et en rendant obligatoire l’étiquetage clair des contenus générés par l’IA. Les réglementations futures sur l’IA générative visent à exiger que les données d’entraînement employées pour former les LLM et le contenu généré ultérieurement par les modèles soient « vrais et exacts », des mesures que les experts ont interprétées comme une censure de la production des LLM.
Entre-temps, le rôle du matériel protégé par le droit d’auteur dans l’entraînement des modèles d’IA utilisés pour la génération de contenu, qu’il s’agisse de modèles de langage, de générateurs d’images ou de modèles vidéo, reste un sujet très controversé. L’issue du procès très médiatisé intenté par le New York Times contre OpenAI pourrait influer considérablement sur la trajectoire de la législation en matière d’IA. Des outils antagonistes, tels que Glaze et Nightshade (tous deux développés à l’Université de Chicago) ont vu le jour dans ce qui pourrait devenir une véritable course aux armements entre les créateurs et les développeurs de modèles.
Pour les entreprises, ce potentiel croissant de conséquences juridiques, réglementaires, économiques ou de réputation est accentué par la popularité et l’accessibilité des outils d’IA générative. Les organisations doivent non seulement disposer d’une politique d’entreprise prudente, cohérente et clairement articulée en matière d’IA générative, mais aussi se méfier de l’IA fantôme : l’utilisation personnelle « non officielle » de l’IA sur le lieu de travail par les employés.
Également appelée « shadow IT » ou « BYOAI », l’IA fantôme est le fait d’employés impatients à la recherche de solutions rapides (ou simplement désireux d’explorer les nouvelles technologies plus rapidement que ne le permet une politique d’entreprise vigilante) qui mettent en œuvre l’IA générative sur le lieu de travail sans obtenir l’approbation ou la supervision du service informatique. De nombreux services destinés aux consommateurs, dont certains sont gratuits, permettent même aux personnes non techniques d’improviser l’utilisation d’outils d’IA générative. Dans une étude d’Ernst & Young, 90 % des personnes interrogées ont déclaré utiliser l’IA au travail.[7]
Cet esprit entreprenant peut être formidable en vase clos, mais les employés enthousiastes peuvent manquer d’informations pertinentes ou de perspectives en matière de sécurité, de confidentialité ou de conformité. Cela peut exposer les entreprises à de nombreux risques. Ainsi, un employé pourrait, sans le savoir, transmettre des secrets commerciaux à un modèle d’IA public qui s’entraîne continuellement à partir des données de l’utilisateur, ou utiliser du matériel protégé par le droit d’auteur pour entraîner un modèle propriétaire de génération de contenu, exposant ainsi son entreprise à des poursuites judiciaires.
Comme de nombreux développements en cours, cela souligne que les dangers de l’IA générative augmentent presque linéairement avec ses capacités. À grand pouvoir, grandes responsabilités.
Alors que nous traversons une année charnière dans le domaine de l’intelligence artificielle, il est essentiel de comprendre les tendances émergentes et de s’y adapter pour maximiser le potentiel, minimiser les risques et développer de manière responsable l’adoption de l’IA générative.
1 « Gartner Places Generative AI on the Peak of Inflated Expectations on the 2023 Hype Cycle for Emerging Technologies » (lien externe à ibm.com), Gartner, 16 août 2023
2 « Deloitte’s State of Generative AI in the Enterprise Quarter one report » (lien externe à ibm.com), Deloitte, janvier 2024
3 « What to Expect in AI in 2024 » (lien externe à ibm.com), Université de Stanford, 8 décembre 2023
4 « Q&A: UW researcher discusses just how much energy ChatGPT uses » (lien externe à ibm.com), Université de Washington, 27 juillet 2023
5 « Generative AI in the Enterprise » (lien externe à ibm.com), O’Reilly, 28 novembre 2023
6 « Deepfaking it: America’s 2024 election coincides with AI boom » (lien externe à ibm.com), Reuters, 30 mai 2023
7 « How organizations can stop skyrocketing AI use from fueling anxiety » (lien externe à ibm.com), Ernst & Young, décembre 2023
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io