Depuis l’Antiquité, les humains rêvent de créer des machines pensantes. Le folklore et les tentatives de fabrication d’appareils programmables au cours de l’histoire reflètent cette ambition de longue date. Les fictions regorgent d’exemples de possibilités offertes par les machines intelligentes, dépeignant leurs avantages et leurs dangers. Il n’est donc pas étonnant que la première version de GPT (Generative Pretrained Transformer) d’OpenAI ait si rapidement attiré l’attention du monde entier, marquant ainsi un grand pas en avant vers la réalisation de ce rêve ancestral.
GPT-3 marque un tournant historique dans le domaine de l’IA en raison de sa taille sans précédent, avec 175 milliards de paramètres, lui permettant d’effectuer un large éventail de tâches en langage naturel sans affinements approfondis. Ce modèle est entraîné sur le big data : il peut ainsi générer du texte à tonalité humaine et mener des conversations. Il a également pu bénéficier d’un apprentissage few-shot, améliorant considérablement sa polyvalence : il a montré son utilité dans les applications d’IA commerciales telles que les chatbots et les assistants virtuels.
Aujourd’hui, l’IA s’intègre de plus en plus à de nombreux aspects de la vie quotidienne (réseaux sociaux ou processus de travail par exemple). À mesure que la technologie s’améliore, son influence ne fera qu’augmenter. Pour comprendre les directions que la technologie pourrait emprunter, il faut comprendre comment nous en sommes arrivés là. Voici un historique des principaux développements en matière d’IA :
Le roman fantastique de Jonathan Swift, « Les voyages de Gulliver », introduit l’idée de la Machine à écrire, un grand engin mécanique utilisé pour aider les chercheurs à générer de nouvelles idées, des phrases et des livres.
Les savants actionnent les manivelles de la machine, qui font tourner des blocs de bois sur lesquels sont inscrits des mots. La machine est censée créer de nouvelles idées et des traités philosophiques en combinant des mots dans différents agencements :
« Chacun savait à quel point la méthode habituelle est laborieuse pour accéder aux arts et aux sciences, alors qu’à son tour, la personne la plus ignorante, pour une somme raisonnable et avec un peu de travail physique, pourrait écrire des livres de philosophie, de poésie, de politique, de droit, de mathématiques, et de théologie, sans l’aide du génie ou des études. »
- Les voyages de Gulliver de Jonathan Swift (1726)
La satire de Swift anticipe le concept de génération de texte algorithmique, qui est désormais une réalité avec l’IA moderne. Les modèles d’IA peuvent produire un texte cohérent en combinant des mots et des idées sur la base d’algorithmes sous-jacents, similaire à ce que la machine à écrire fictive de Swift était censée faire.
L’ingénieur espagnol Leonardo Torres y Quevedo présente le premier automate joueur d’échecs, El Ajedrecista, à l’Exposition universelle de Paris. Elle utilisait des électro-aimants et était entièrement automatisée. El Ajedrecista a automatiquement joué cette simple finale de jeu d’échecs : mat roi et tour contre roi seul. La machine n’a eu besoin d’aucune intervention humaine une fois configurée : elle a exécuté de manière autonome les déplacements autorisés et, si l’adversaire humain effectuait un déplacement interdit, la machine signalait l’erreur. Si la machine était placée dans une configuration gagnante, elle était en mesure de faire échec et mat face à l’adversaire humain de manière fiable.
Une pièce de théâtre intitulée « Rossum’s Universal Robots » (R.U.R) est jouée à Londres. La pièce de Karel Čapek est la première à inclure le mot « robot » en anglais. En tchèque, le mot « robota » est associé au travail obligatoire ou forcé exécuté par les paysans dans un système féodal. Le terme « robot » a rapidement acquis une reconnaissance internationale après le succès de la pièce et est devenu le terme standard pour désigner les êtres mécaniques ou artificiels créés pour accomplir des tâches. Bien que les robots de Čapek soient organiques, le terme a été associé à des machines humanoïdes mécaniques conçues pour effectuer un travail monotone et non qualifié.
John Vincent Atanasoff, professeur de physique et de mathématiques à l’Université d’État de l’Iowa, et son étudiant diplômé Clifford Berry, créent l’Atanasoff-Berry Computer (ABC) grâce à une subvention de 650 USD dans cette même université. L’ordinateur ABC est considéré comme l’un des premiers ordinateurs électroniques numériques et comme un jalon dans le domaine de l’informatique américaine.
Même si l’ABC n’a jamais été pleinement opérationnel ni largement utilisé, il a introduit plusieurs concepts clés qui deviendront fondamentaux dans le développement de l’informatique moderne.
Contrairement aux dispositifs informatiques précédents qui reposaient sur des systèmes décimaux, l’ABC utilise le système binaire (1 et 0) pour représenter les données, devenu la norme pour les ordinateurs par la suite. L’ABC est également l’un des premiers ordinateurs à utiliser des circuits électroniques pour le calcul au lieu de systèmes mécaniques ou électromécaniques, pour des calculs plus rapides et plus fiables. L’ABC sépare le stockage de données (mémoire) de l’unité de traitement (opérations logiques), un principe toujours suivi dans l’architecture des ordinateurs modernes. Il utilise des condensateurs pour stocker les données et peut traiter jusqu’à 30 équations à la fois.
L’ABC utilise environ 300 tubes électroniques pour ses opérations logiques, le rendant beaucoup plus rapide que les anciennes calculatrices mécaniques. Les tubes électroniques, bien qu’encombrants et susceptibles de tomber en panne, constituent un développement clé de l’informatique électronique. L’ABC pèse plus de 700 livres et peut résoudre jusqu’à 29 équations linéaires à la fois.
Warren S. McCulloch et Walter Pitts publient « A Logical Calculus of the Ideas Immanent in Nervous Activity » dans le Bulletin of Mathematical Biophysics1. Il s’agit de l’un des travaux fondateurs de l’histoire des neurosciences et de l’IA. L’article pose les bases de l’idée selon laquelle le cerveau peut être compris comme un système informatique, et il introduit le concept de réseaux neuronaux artificiels, désormais une technologie clé dans l’IA moderne. Cette idée inspire les systèmes informatiques qui simulent des fonctions et des processus comparables à ceux du cerveau humain, en particulier via les réseaux neuronaux et l’apprentissage profond.
L’article emblématique du mathématicien britannique Alan Turing, « Computing Machinery and Intelligence », est publié dans Mind2. Cet article est un texte fondamental sur le thème de l’IA dont l’objectif est de répondre à la question : « Les machines peuvent-elles penser ? » L’approche de Turing a jeté les bases de discussions futures sur la nature des machines pensantes et sur la manière dont leur intelligence pourrait être mesurée via le « jeu d’imitation », désormais connu sous le nom de test de Turing. Turing a introduit une expérience de pensée pour éviter de répondre directement à la question « Les machines peuvent-elles penser ? » Il reformule le problème sous une forme opérationnelle plus spécifique : une machine peut-elle présenter un comportement intelligent indiscernable de celui d’un être humain ?
Le test de Turing est devenu un concept central dans l’IA, servant à mesurer l’intelligence artificielle en évaluant la capacité d’une machine à imiter de manière convaincante les conversations et les comportements humains.
Marvin Minsky et Dean Edmunds construisent le premier réseau de neurones artificiels. Le SNARC (Stochastic Neural Analog Reinforcement Calculator) est une tentative précoce de modéliser les processus d’apprentissage dans le cerveau humain, en particulier via l’apprentissage par renforcement.
Le SNARC est conçu pour simuler le comportement d’un rat parcourant un labyrinthe. L’idée est que la machine imite l’apprentissage par récompense et par punition qui conditionne les animaux, en ajustant son comportement au fil du temps en fonction du feedback. Cet ordinateur analogique utilise un réseau de 3 000 tubes électroniques ainsi que des poids synaptiques pour simuler 40 unités semblables à des neurones.
Allen Newell, mathématicien et informaticien, et Herbert A. Simon, politologue, développent des programmes influents tels que Logic Theorist et General Problem Solver, parmi les premiers à imiter les capacités humaines de résolution de problèmes à l’aide de méthodes informatiques.
Le terme « intelligence artificielle » est utilisé pour la première fois dans une proposition d’atelier intitulée « A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence »3, envoyée par John McCarthy du Dartmouth College, Marvin Minsky de l’Université Harvard, Nathaniel Rochester d’IBM et Claude Shannon de Bell Telephone Laboratories.
L’atelier, qui a lieu un an plus tard, en juillet et août 1956, est généralement considéré comme la date de naissance officielle du domaine en plein essor de l’IA.
Frank Rosenblatt, psychologue et informaticien, développe le Perceptron, un réseau neuronal artificiel précoce qui permet la reconnaissance de motifs sur la base d’un réseau d’apprentissage informatique à deux couches. Le Perceptron est un classificateur binaire capable d’apprendre à partir des données en ajustant les poids de ses entrées via des algorithmes d’apprentissage. Bien que limité à la résolution de problèmes linéaires, il a jeté les bases des futurs réseaux neuronaux et développements du machine learning.
John McCarthy développe le langage de programmation Lisp4 (LiST Processing). Lisp est développé à partir des travaux de McCarthy sur la formalisation des algorithmes et de la logique mathématique, et il est notamment influencé par son désir de créer un langage de programmation capable de gérer des informations symboliques. Lisp devient rapidement le langage de programmation le plus utilisé dans la recherche en IA.
Arthur Samuel est le pionnier du concept de machine learning. Il développe un programme informatique capable d’améliorer sa performance au jeu de dames au fil du temps. Samuel montre qu’un ordinateur peut être programmé pour suivre des règles prédéfinies et « apprendre » de ses expériences, pour finalement l’emporter sur le programmeur. Son travail marque une étape majeure vers la possibilité pour les machines d’apprendre à s’améliorer en fonction de leurs expériences. Il invente par la même le terme « machine learning ».
Oliver Selfridge publie son article « Pandemonium: A paradigm for learning »5. Son modèle Pandémonium propose un système dans lequel divers « démons » (unités de traitement) s’allient pour reconnaître des schémas. Les démons s’affrontent pour identifier les caractéristiques des données qui n’ont pas été préprogrammées, simulant ainsi un apprentissage non supervisé. Le modèle de Selfridge est une première contribution à la reconnaissance de formes, qui influencera les développements futurs dans le domaine de la vision industrielle et de l’IA.
John McCarthy introduit le concept d’Advice Taker dans son article « Programs with Common Sense »6. Ce programme vise à résoudre des problèmes en manipulant les phrases dans une logique formelle, posant ainsi les bases du raisonnement dans l’IA. McCarthy imagine un système capable de comprendre les instructions, de raisonner avec des connaissances qui relèvent du bon sens et d’apprendre par l’expérience, avec pour objectif à long terme de développer une IA capable de s’adapter et d’apprendre aussi efficacement que les humains. Ce concept permettra de façonner les premières recherches sur la représentation des connaissances et le raisonnement automatisé.
Le mathématicien Hubert Dreyfus publie le livre «Alchemy and Artificial Intelligence »7, dans lequel il affirme que l’esprit humain fonctionne fondamentalement différemment des ordinateurs. Il prédit les limites que poseront les défis liés à la réplication de l’intuition et de la compréhension humaines aux progrès de l’IA. Ses critiques ont suscité des débats sur les limites philosophiques et pratiques de l’IA.
IJ Good écrit « Speculations Concerning the First Ultraintelligent Machine »8, où il affirme qu’une fois créée, une machine ultraintelligente peut concevoir des systèmes encore plus intelligents, ce qui en fera la dernière invention de l’humanité, à condition qu’elle reste contrôlable. Ses idées préfigurent les discussions modernes sur la superintelligence de l’IA et ses risques.
Joseph Weizenbaum développe ELIZA9, un programme qui imite la conversation humaine en répondant à une entrée saisie en langage naturel. Si l’objectif de Weizenbaum était de montrer le caractère superficiel de la communication homme-machine, il est surpris de constater que de nombreux utilisateurs attribuent des émotions humaines au programme, soulevant des questions d’ordre éthique sur l’IA et les interactions humaines.
Edward Feigenbaum, Bruce Buchanan, Joshua Lederberg et Carl Djerassi développent DENDRAL à l’université Stanford10. C’est le premier système expert à automatiser le processus décisionnel des spécialistes en chimie organique en simulant la formulation d’hypothèses. Le succès de DENDRAL marque une avancée dans le domaine de l’IA, car il montre comment les systèmes peuvent effectuer des tâches spécialisées aussi bien, voire mieux que des experts humains.
Développé au SRI à la fin des années 1960, Shakey est le premier robot mobile capable de raisonner sur ses propres actions, en combinant perception, planification et résolution de problèmes11. Dans un article publié dans le magazine Life en 1970, Marvin Minsky prédit que l’IA atteindrait l’intelligence générale d’un humain moyen dans les trois à huit années à venir. Les réalisations de Shakey constituent un cap dans le domaine de la robotique et de l’IA, même si le calendrier ambitieux de Minsky s’est révélé trop optimiste.
Arthur Bryson et Yu-Chi Ho introduisent la rétropropagation, une méthode permettant d’optimiser les systèmes dynamiques à plusieurs étapes. Bien que développé à l’origine pour les systèmes de contrôle, cet algorithme devient indispensable pour entraîner les réseaux neuronaux multicouches. La rétropropagation n’a vraiment gagné en importance que dans les années 2000 et 2010 grâce aux progrès de la puissance de calcul, à l’origine de l’essor de l’apprentissage profond.
Marvin Minsky et Seymour Papert publient Perceptrons: An Introduction to Computational Geometry12, qui analyse de manière critique les limites des réseaux neuronaux monocouches. Leurs travaux sont souvent accusés d’avoir réduit l’intérêt de la communauté pour les réseaux neuronaux. Dans l’édition de 1988, ils soutiennent que les progrès stagnaient déjà en raison d’une compréhension théorique insuffisante, malgré les nombreuses expériences réalisées avec les perceptrons au milieu des années 1960.
Terry Winograd crée SHRDLU, un programme révolutionnaire de compréhension du langage naturel13. SHRDLU peut interagir avec les utilisateurs qui lui parlent en anglais simple pour lui faire manipuler des objets dans un monde de blocs virtuel, démontrant ainsi que les ordinateurs peuvent comprendre et répondre à des instructions complexes. Il s’agit de l’une des premières prouesses du traitement automatique du langage naturel, même si sa réussite se limite à des environnements spécifiques et hautement structurés. Les capacités de SHRDLU mettent en évidence les promesses et les défis liés à une IA dotée d’une compréhension plus vaste du langage.
Développé à l’université Stanford, MYCIN est l’un des premiers systèmes experts créés pour aider les médecins à diagnostiquer les infections bactériennes et à recommander des traitements antibiotiques14. MYCIN utilise une approche basée sur des règles pour simuler le processus de prise de décision des experts humains, et il crée une plateforme pour le développement de systèmes médicaux basés sur l’IA. Cependant, pour des raisons éthiques et juridiques, ce système ne sera jamais mis en œuvre dans la pratique clinique.
James Lighthill présente un rapport critique au British Science Research Council sur les progrès de la recherche en matière d’IA, concluant que l’IA n’a pas tenu ses premières promesses15. Il affirme que le domaine n’a pas connu de percées significatives, entraînant une réduction drastique des financements gouvernementaux pour l’IA au Royaume-Uni. Ce rapport a contribué à l’apparition du premier hiver16 de l’IA, une période de diminution de l’intérêt et des investissements dans la recherche en matière d’IA.
WABOT-217 est un robot humanoïde développé à l’université Waseda, au Japon, entre 1980 et 1984. Il succède à WABOT-1, créé en 1973. Alors que WABOT-1 se focalisait sur la mobilité et la communication de base, WABOT-2, lui, est plus spécialisé : il est conçu spécifiquement comme un robot musicien. Il peut lire des partitions avec ses « yeux » appareil photo, converser avec des humains, jouer de la musique sur un orgue électronique et même accompagner un chanteur humain. Ce projet représente une étape significative vers le développement de robots humanoïdes et d’une IA capable d’effectuer des tâches complexes à la manière des humains, par exemple les tâches touchant à l’expression artistique.
Le Japon lance le projet FGCS (Fifth Generation Computer Systems) dans le but de développer des ordinateurs dotés de capacités de raisonnement logique et de résolution de problèmes, faisant ainsi progresser la recherche en IA. Ce projet ambitieux visait à construire des machines capables d’effectuer des tâches telles que le traitement automatique du langage naturel, et des systèmes experts. Malgré son interruption en 1992, le projet FGCS et ses conclusions ont grandement contribué au développement du domaine de la programmation logique concurrente.
Lors de la réunion annuelle de l’AAAI (Association for the Advancement of Artificial Intelligence), Roger Schank et Marvin Minsky mettent la communauté en garde contre l’imminence d’un « hiver de l’IA », prédisant que les attentes exagérées entourant l’IA conduiraient bientôt à un effondrement des investissements et de la recherche, similaire à la réduction des financements observée au milieu des années 1970. Leurs prédictions se réalisent en l’espace de trois ans : l’intérêt pour l’IA diminue en raison de ses promesses non tenues, entraînant une baisse du financement et un ralentissement des progrès. Il s’agit du deuxième hiver de l’IA.
L’avertissement de Schank et Minsky met en évidence la nature cyclique de l’engouement suscité par l’IA, où des pics d’optimisme sont suivis d’une période de désenchantement lorsque la technologie ne répond pas aux attentes des investisseurs et du public.
David Rumelhart, Geoffrey Hinton et Ronald Williams publient l’article fondateur « Learning representations by back-propagating errors », dans lequel ils décrivent l’algorithme de rétropropagation18. Cette méthode permet aux réseaux neuronaux d’ajuster leurs poids internes en « rétropropageant » l’erreur à travers le réseau, améliorant ainsi la capacité des réseaux multicouches à apprendre des motifs complexes. L’algorithme de rétropropagation devient la base de l’apprentissage profond moderne, suscitant un regain d’intérêt pour les réseaux neuronaux et surmontant certaines limites mises en évidence dans des recherches antérieures sur l’IA. Cette découverte s’appuie sur les travaux de 1969 d’Arthur Bryson et de Yu-Chi Ho : l’algorithme de rétropropagation est appliqué spécifiquement aux réseaux neuronaux, surmontant ainsi les limites existantes de l’entraînement des réseaux multicouches.
Cette avancée permet d’utiliser les réseaux neuronaux dans des applications pratiques et ouvre la voie à la révolution de l’apprentissage profond des années 2000 et 2010.
Au cours de sa présentation à Educom, John Sculley, PDG d’Apple, diffuse la vidéo Knowledge Navigator, qui imagine un avenir où des agents intelligents numériques aideront les utilisateurs à accéder à de grandes quantités d’informations via des systèmes en réseau19. Ce concept visionnaire montre un professeur interagissant avec un assistant à commande vocale savant, capable de récupérer des données, de répondre à des questions et d’afficher des informations à partir de ce que nous appelons désormais Internet. La vidéo laissait entrevoir de nombreux éléments technologiques modernes comme les assistants d’IA, les bases de connaissances en réseau et notre monde numérique interconnecté.
Judea Pearl publie Probabilistic Reasoning in Intelligent Systems, révolutionnant la façon dont l’IA traite l’information dans l’incertitude20. Ce travail introduit les réseaux bayésiens, un formalisme pour représenter des modèles de probabilité complexes et les algorithmes pour y effectuer des inférences. Les méthodes de Pearl permettent aux systèmes d’IA de prendre des décisions raisonnées dans des environnements incertains, influençant des domaines bien au-delà de l’IA, notamment l’ingénierie et les sciences naturelles. Ses contributions sont reconnues par le prix Turing 2011, soulignant son rôle dans la création de la « base représentationnelle et computationnelle » du raisonnement probabiliste moderne en IA21.
Rollo Carpenser développe Jabberwacky22, un ancien chatbot conçu pour simuler des conversations humaines intéressantes, divertissantes et drôles. Contrairement aux systèmes basés sur des règles, Jabberwacky apprend de ses interactions avec les humains pour générer un dialogue plus naturel, ouvrant la voie aux modèles d’IA conversationnelle qui viendront plus tard. Ce chatbot est l’une des premières tentatives de création d’une IA qui imite la conversation humaine spontanée de tous les jours en apprenant de ses interactions avec les utilisateurs en continu.
Des chercheurs du centre de recherche IBM T.J. Watson publient « A Statistical Approach to Language Translation » : un tournant pour la traduction automatique, qui s’éloigne des méthodes basées sur des règles pour adopter des méthodes probabilistes23. Cette approche, utilisée dans le projet Candide d’IBM24, s’appuie sur 2,2 millions de paires de phrases anglais-français, principalement issues des débats du Parlement canadien. Cette nouvelle méthodologie se focalise sur l’apprentissage des schémas statistiques dans les données plutôt que sur la tentative de « comprendre » les langues, reflétant la tendance générale privilégiant un machine learning qui s’appuie sur l’analyse d’exemples connus. Ce modèle probabiliste ouvrira la voie à de nombreuses avancées futures dans le traitement automatique du langage naturel et la traduction automatique.
Marvin Minsky et Seymour Papert publient une édition longue de leur ouvrage de 1969, Perceptrons, une critique fondatrice des premiers réseaux neuronaux. Dans le nouveau prologue, intitulé « A View from 1988 », ils présentent leurs réflexions sur la lenteur des progrès dans le domaine de l’IA, notant que de nombreux chercheurs continuent à répéter certaines erreurs du passé en raison de leur méconnaissance des défis déjà rencontrés12. Ils soulignent la nécessité d’avoir une compréhension théorique plus approfondie du domaine, qui fait défaut dans les recherches antérieures sur les réseaux neuronaux. Ils rappellent leurs critiques originales tout en mentionnant les approches émergentes qui conduiront plus tard aux avancées de l’apprentissage profond moderne.
Yann LeCun et une équipe de chercheurs d’AT&T Bell Labs réalisent une avancée en appliquant avec succès l’algorithme de rétropropagation à un réseau neuronal multicouche pour reconnaître des images de codes postaux manuscrits24. Il s’agit de l’une des premières applications pratiques de l’apprentissage profond utilisant des réseaux neuronaux convolutifs. Malgré les limites du matériel de l’époque, l’entraînement du réseau prend environ trois jours : une amélioration significative par rapport aux tentatives précédentes. Le succès du système dans la reconnaissance des chiffres manuscrits, une tâche clé pour l’automatisation des services postaux, démontre le potentiel des réseaux neuronaux dans les tâches de reconnaissance d’images et jette les bases de la croissance explosive que connaîtra l’apprentissage profond dans les décennies suivantes.
L’auteur de science-fiction et mathématicien Vernor Vinge publie l’essai « The Coming Technological Singularity», dans lequel il prédit l’apparition de la superintelligence dans les 30 prochaines années, transformant fondamentalement la civilisation humaine25. Vinge soutient que les progrès technologiques, en particulier dans le domaine de l’IA, conduiront à une explosion de l’intelligence (avec des machines plus intelligentes que les humains) et à la fin de l’ère humaine telle que nous la connaissons. Son essai a contribué à populariser le concept de « singularité technologique », le moment où l’IA dépassera le contrôle humain, suscitant un débat dans les communautés de l’IA, de l’éthique et du futurisme.
Cette prédiction continue d’influencer les discussions sur les impacts potentiels de l’IA et de la super-intelligence, en particulier les risques existentiels et les considérations éthiques liés à la création de machines dotées d’une intelligence allant bien au-delà des capacités humaines.
Richard Wallace développe le chatbot A.L.I.C.E.26 (Artificial Linguistic Internet Computer Entity), sur les bases posées par le programme ELIZA de Joseph Weizenbaum. Contrairement à ELIZA, qui s’appuyait sur des réponses scriptées pour simuler une conversation, A.L.I.C.E. tire parti du tout nouveau World Wide Web pour collecter et traiter de grandes quantités de données en langage naturel, lui permettant d’engager des conversations plus complexes et plus fluides. A.L.I.C.E. utilise une technique de mise en correspondance de schémas appelée AIML (Artificial Intelligence Markup Language) pour analyser et générer des réponses, ce qui le rend plus adaptable et évolutif que ses prédécesseurs. Les travaux de Wallace ouvrent la voie à d’autres avancées en matière d’IA conversationnelle, influençant les assistants virtuels et les chatbots modernes.
Sepp Hochreiter et Jürgen Schmidhuber présentent la Long Short-Term Memory (LSTM), un type de réseau neuronal récurrent (RNN) conçu pour surmonter les limites des RNN traditionnels, en particulier leur incapacité à capturer efficacement les dépendances à long terme dans les données. Les réseaux LSTM sont largement utilisés dans des applications telles que la reconnaissance de l’écriture manuscrite, la reconnaissance vocale, le traitement automatique du langage naturel et les prévisions de séries temporelles.
L’ordinateur Deep Blue d’IBM entre dans l’histoire en battant le champion du monde d’échecs en titre Garry Kasparov dans un match en six parties27. C’est la première fois qu’un programme d’échecs informatique bat un champion du monde selon les contraintes de temps standard des tournois d’échecs. La victoire de Deep Blue démontre que les ordinateurs peuvent surpasser les humains dans les jeux hautement stratégiques, longtemps considérés comme l’apanage de l’intelligence humaine. La capacité de la machine à calculer des millions de déplacements par seconde, combinée aux progrès de la théorie des jeux et de l’heuristique, lui permet de déjouer Kasparov, renforçant ainsi la place de Deep Blue dans l’histoire de l’IA.
L’événement a également suscité des débats sur la future relation entre la cognition humaine et l’IA, influençant ensuite les recherches en IA dans d’autres domaines tels que le traitement automatique du langage naturel et les systèmes autonomes.
Dave Hampton et Caleb Chung créent Furby, le premier animal de compagnie robotique à grand succès28. Furby peut réagir au toucher, au son et à la lumière et « apprendre » à parler au fil du temps, en commençant par sa propre langue, le furbish, mais en intégrant de plus en plus d’anglais (ou l’une des langues dans lesquelles il était disponible) au fur et à mesure de ses interactions avec les utilisateurs. Sa capacité à imiter l’apprentissage et à interagir avec les utilisateurs en fait un précurseur des robots sociaux plus sophistiqués, mêlant robotique et divertissement pour la première fois dans un produit de grande consommation.
Yann LeCun, Yoshua Bengio et leurs collaborateurs publient des articles influents sur l’application des réseaux neuronaux à la reconnaissance de l’écriture manuscrite29. Leurs travaux portent sur l’utilisation des réseaux neuronaux convolutifs pour optimiser l’algorithme de rétropropagation, le rendant plus efficace pour l’entraînement des réseaux profonds. En affinant le processus de rétropropagation et en démontrant la puissance des CNN pour la reconnaissance d’images et de formes, les recherches de LeCun et Bengio ont ouvert la voie aux techniques modernes d’apprentissage profond utilisées dans un large éventail d’applications d’IA aujourd’hui.
Cynthia Breazeal, du MIT, développe Kismet, un robot conçu pour interagir avec les êtres humains par le biais de signaux émotionnels et sociaux30. Kismet est équipé de caméras, de microphones et de caractéristiques faciales expressives, lui permettant de discerner les émotions humaines telles que la joie, la tristesse et la surprise, et de réagir en conséquence. Ce développement marque une avancée dans le domaine de la robotique sociale, explorant comment les robots peuvent interagir avec les humains de manière plus naturelle.
Geoffrey Hinton publie « Learning Multiple Layers of Representation », qui résume les principales avancées en matière d’apprentissage profond et explique comment les réseaux neuronaux multicouches peuvent être entraînés plus efficacement31. Le travail de Hinton se concentre sur l’entraînement des réseaux avec des connexions graduelles pour générer des données sensorielles plutôt que de se contenter de les classer. Cette approche s’éloigne des réseaux neuronaux traditionnels et s’oriente vers ce que nous appelons désormais l’apprentissage profond, qui permet aux machines d’apprendre à partir de représentations hiérarchiques complexes des données.
Fei-Fei Li et son équipe de l’université de Princeton lancent le projet ImageNet, créant l’une des bases de données d’images annotées les plus importantes et les plus complètes à ce jour32. ImageNet est conçu pour soutenir le développement de logiciels de reconnaissance visuelle d’objets : la base fournit des millions d’images étiquetées dans des milliers de catégories. L’échelle et la qualité du jeu de données permettent des avancées dans la recherche en vision par ordinateur, en particulier pour entraîner les modèles d’apprentissage profond à reconnaître et à classer des objets dans les images.
Rajat Raina, Anand Madhavan et Andrew Ng publient « Large-scale Deep Unsupervised Learning using Graphics Processors », avançant que les processeurs graphiques (GPU) peuvent largement surpasser les processeurs multicœurs traditionnels pour les tâches d’apprentissage profond33. Ils démontrent que la puissance de calcul supérieure des GPU peut révolutionner l’applicabilité des méthodes d’apprentissage profond non supervisé, permettant aux chercheurs d’entraîner plus efficacement des modèles plus vastes et plus complexes. Ces travaux contribuent à accélérer l’adoption des GPU dans l’apprentissage profond, conduisant aux avancées réalisées dans les années 2010 qui optimiseront ensuite les applications d’IA modernes dans des domaines tels que la vision par ordinateur et le traitement automatique du langage naturel.
Les informaticiens de l’Intelligent Information Laboratory de l’université Northwestern développent Stats Monkey, un programme capable de générer automatiquement des actualités sportives sans intervention humaine34. En se basant sur les statistiques des matchs, Stats Monkey peut créer des récits cohérents sur les matchs de baseball, avec des résumés, les performances des joueurs et des analyses.
IBM Watson, un ordinateur avancé qui répond à des questions en langage naturel, fait la une des journaux en participant au jeu télévisé Jeopardy! contre deux des plus grands champions de l’émission, Ken Jennings et Brad Rutter, qu’il finira par battre35. La capacité de Watson à traiter et à interpréter le langage naturel, de même que sa vaste base de connaissances, lui permettent de répondre à des questions complexes avec rapidité et précision. Cette victoire met en lumière les progrès réalisés dans le domaine de l’IA : sa capacité à comprendre le langage humain et à interagir avec de manière sophistiquée.
Apple lance Siri, un assistant virtuel intégré au système d’exploitation iOS. Siri dispose d’une interface utilisateur en langage naturel qui permet aux utilisateurs d’interagir avec leurs appareils via des commandes vocales. Siri peut effectuer des tâches telles que l’envoi de messages, la définition de rappels, la suggestion de recommandations et la réponse aux questions en utilisant le machine learning pour s’adapter aux préférences et aux habitudes vocales de chaque utilisateur. Ce système de reconnaissance vocale personnalisé et adaptatif offre aux utilisateurs une expérience individualisée et marque un bond en avant dans l’utilisation et l’accessibilité des assistants alimentés par l’IA pour les consommateurs de tous les jours.
Jeff Dean et Andrew Ng mènent une expérience avec un réseau neuronal massif contenant 10 millions d’images non étiquetées provenant de vidéos YouTube36. Au cours de l’expérience, le réseau, sans étiquetage préalable, apprend à reconnaître des motifs dans les données et, « à notre grand amusement », un neurone devient particulièrement réactif aux images de chats. Cette découverte est une démonstration de l’apprentissage non supervisé, montrant comment les réseaux neuronaux profonds peuvent apprendre des caractéristiques à partir de grandes quantités de données de manière autonome.
Des chercheurs de l’université de Toronto, dirigés par Geoffrey Hinton, conçoivent un réseau neuronal convolutif qui parvient à obtenir un résultat exceptionnel à l’ImageNet Large Scale Visual Recognition Challenge37. Leur réseau neuronal convolutif, connu sous le nom d’AlexNet, atteint un taux d’erreur de 16 %, une amélioration considérable par rapport au meilleur taux de l’année précédente (25 %). Cette réussite marque un tournant pour l’apprentissage profond dans la vision par ordinateur, montrant que les réseaux neuronaux peuvent surpasser les méthodes traditionnelles de classification des images lorsqu’ils sont entraînés sur de grands jeux de données.
AlphaGo de Google DeepMind bat Lee Sedol, l’un des plus grands maîtres du jeu de Go au monde. Le jeu de Go, un jeu de société complexe avec plus de mouvements possibles que d’atomes dans l’univers, était depuis longtemps considéré comme un défi pour l’IA38. La victoire 4-1 d’AlphaGo sur Sedol est un moment révolutionnaire pour l’IA, mettant en évidence la puissance des techniques d’apprentissage profond pour gérer des tâches stratégiques très complexes jusque là hors de portée pour l’IA.
Hanson Robotics présente Sophia, un robot humanoïde très avancé39. Sophia peut reconnaître les visages, regarder les gens dans les yeux et tenir des conversations en s’appuyant sur une combinaison de capacités de reconnaissance d’images et de traitement automatique du langage naturel.
Les chercheurs du laboratoire Facebook Artificial Intelligence Research (FAIR) entraînent deux chatbots à négocier l’un avec l’autre. Alors que les chatbots sont programmés pour communiquer en anglais, au cours de leurs conversations, ils ont commencé à s’écarter du langage humain structuré et à créer leur propre langage simplifié pour communiquer plus efficacement40. Ce phénomène est inattendu : les bots ont optimisé leur communication sans intervention humaine. L’expérience est interrompue afin de maintenir les bots dans les limites d’un langage compréhensible par l’homme, mais cette occurrence met en évidence le potentiel des systèmes d’IA à évoluer de manière autonome et imprévisible.
OpenAI présente GPT-3, un modèle de langage doté de 175 milliards de paramètres, en faisant l’un des modèles d’IA les plus vastes et les plus sophistiqués à ce jour. GPT-3 est capable de générer des textes à la manière des humains, de tenir des conversations, d’écrire du code, de traduire des langues et de générer une écriture créative basée sur des prompts en langage naturel. Parmi les tout premiers exemples de grands modèles de langage (LLM), la taille et l’échelle massives des modèles GPT leur permettent d’effectuer un large éventail de tâches linguistiques sans entraînement spécifique ou relativement peu. Cet exemple démontre le potentiel de l’IA à comprendre et produire un langage hautement cohérent.
AlphaFold 2 de DeepMind représente une avancée majeure dans le domaine de la biologie en parvenant à prédire avec précision les structures 3D des protéines à partir de leurs séquences d’acides aminés. Cette réalisation résout un problème qui déconcerte les scientifiques depuis des dizaines d’années : comprendre comment les protéines se replient dans leurs formes tridimensionnelles spécifiques. La précision avec laquelle AlphaFold 2 prédit la structure des protéines a des implications pour la recherche sur les maladies et le développement de médicaments, offrant de nouveaux moyens de comprendre les mécanismes moléculaires sous-jacents et de concevoir de nouveaux traitements plus efficacement.
Développé par Google, MUM (Multitask Unified Model) est un puissant modèle d’IA conçu pour améliorer l’expérience de recherche : il est capable de comprendre et de générer du langage dans 75 langues. MUM peut effectuer plusieurs tâches à la fois, analysant simultanément du texte, des images et des vidéos, ce qui lui permet de traiter des requêtes de recherche plus complexes et plus nuancées41. Contrairement aux modèles traditionnels, MUM peut gérer des entrées multimodales et fournir des réponses complètes et riches en contexte à des questions sophistiquées impliquant l’exploration de plusieurs sources d’information.
Tesla lance le Full Self-Driving (FSD) Bêta, un système avancé d’aide à la conduite visant à offrir une conduite entièrement autonome. Le FSD Bêta tire parti de l’apprentissage profond et des réseaux neuronaux pour explorer des scénarios de conduite complexes, comme les rues des villes en temps réel, les autoroutes et les intersections. Il permet aux véhicules Tesla de contrôler leur direction, d’accélérer et de freiner de manière autonome dans des conditions spécifiques, sous la supervision du conducteur. Le FSD Bêta de Tesla marque une avancée vers l’objectif de l’entreprise de créer des véhicules entièrement autonomes, malgré les obstacles en matière de réglementation et de sécurité qui empêchent pour le moment le déploiement à grande échelle de cette technologie.
OpenAI lance DALL-E, suivi de DALL-E 2 et DALL-E 3, des modèles d’IA générative capables de générer des images très détaillées à partir de descriptions textuelles. Ces modèles utilisent des capacités d’apprentissage profond avancées et une architecture transformatrice pour créer des images complexes, réalistes et artistiques sur la base des entrées utilisateur. DALL-E 2 et 3 étendent l’utilisation de l’IA à la création de contenu visuel, permettant aux utilisateurs de transformer les idées en images sans les compétences traditionnellement requises en conception graphique.
Février
Google lance la version bêta limitée de Gemini 1.5, un modèle de langage avancé capable de gérer des longueurs de contexte pouvant atteindre un million de jetons42. Le modèle peut traiter et comprendre de grandes quantités d’informations dans un seul prompt, améliorant ainsi sa capacité à rester dans le contexte tout au long de conversations et de tâches complexes sur un texte étendu. Gemini 1.5 représente une avancée notable dans le traitement automatique du langage naturel : il offre des capacités de mémoire améliorées et maintient sa compréhension du contexte sur de longues entrées.
OpenAI annonce publiquement la sortie de Sora, un modèle de synthèse vidéo capable de générer des vidéos d’une durée allant jusqu’à une minute à partir de descriptions textuelles43. Cette innovation étend l’utilisation du contenu généré par l’IA au-delà des images statiques, permettant aux utilisateurs de créer des clips vidéo dynamiques et détaillés basés sur des prompts. Sora devrait ouvrir de nouvelles perspectives dans le domaine de la création de contenu vidéo.
StabilityAI annonce l’arrivée de Stable Diffusion 3, son dernier modèle de conversion de texte en image. Stable Diffusion 3 utilise une architecture similaire à celle de Sora pour générer du contenu détaillé et créatif à partir de prompts textuels44.
Mai
Google DeepMind dévoile une nouvelle extension d’AlphaFold qui permet d’identifier les cancers et les maladies génétiques, offrant ainsi un outil puissant de diagnostic génétique et de médecine personnalisée45.
IBM présente la famille de modèles d’IA générative Granite, disponibles avec son portefeuille de solutions d’IA watsonx. Comprenant de 3 à 34 milliards de paramètres, les modèles Granite sont conçus pour des tâches telles que la génération de code, les prévisions de séries temporelles et le traitement de documents. Disponibles sous licence Apache 2.0 et en version open source, ces modèles sont légers, économiques et personnalisables, ce qui en fait une solution idéale pour un large éventail d’applications métier.
Juin
Apple annonce Apple Intelligence, une intégration de ChatGPT dans les nouveaux iPhone et Siri46. Cette intégration permet à Siri d’effectuer des tâches plus complexes, de tenir des conversations plus naturelles et de mieux comprendre et exécuter des commandes nuancées.
Septembre
NotebookLM présente DeepDive, une nouvelle IA multimodale capable de transformer des documents sources en présentations audio attrayantes et de les structurer comme des podcasts47. La capacité de DeepDive à analyser et à synthétiser des informations de différents formats, notamment des pages web, du texte, de l’audio et de la vidéo, offre de nouvelles possibilités de créer du contenu personnalisé et automatisé sur diverses plateformes. Cette capacité en fait un outil polyvalent pour la production multimédia et la formation.
Les tendances actuelles en matière d’IA témoignent de nouvelles évolutions. L’IA générative fonctionne désormais sur des modèles de fondation plus petits et plus efficaces. En outre, l’IA agentique est en plein essor : des modèles d’IA spécifiques fonctionnent en tandem pour répondre plus rapidement aux demandes des utilisateurs. Dans un avenir plus lointain, les véhicules autonomes circuleront sur les autoroutes, l’IA multimodale créera de l’audio, de la vidéo, du texte et des images sur une plateforme unique et les assistants d’IA aideront les utilisateurs dans leur vie personnelle et leur carrière.
Lancez-vous
Écouter maintenant
S’inscrire et télécharger
En savoir plus