Qu’est-ce que le machine learning (ML)?

By Dave Bergmann

Qu’est-ce que le machine learning (ML)?

Le machine learning est une branche de l’IA axée sur les algorithmes capables « d’apprendre » les schémas de données d’entraînement pour faire des inférences précises sur de nouvelles données. Cette capacité de reconnaissance des formes permet aux modèles de machine learning de de prédire ou décider sans instructions explicites.

Le machine learning est devenu prépondérant dans le domaine de l’IA : il fournit l’épine dorsale de la plupart des systèmes d’IA modernes, des modèles de forecasting et des véhicules autonomes aux grands modèles de langage (LLM) et autres outils d’IA générative.

Le principe fondamental du machine learning (ML) est le suivant : si vous optimisez les performances d’un modèle sur un jeu de données de tâches qui ressemblent suffisamment aux problèmes réels pour lesquels il sera utilisé, grâce à un processus appelé « entraînement du modèle », celui-ci sera en mesure de faire des prédictions précises sur les nouvelles données qu’il rencontrera dans son cas d’utilisation final.

L’entraînement n’est qu’un moyen d’atteindre une fin, celle de la généralisation : traduire la performance obtenue sur les données d’entraînement en résultats utiles dans les scénarios concrets.

Tel est l’objectif fondamental du machine learning. Fondamentalement, un modèle entraîné applique les schémas qu’il a appris à partir des données d’entraînement pour déduire la sortie correcte d’une tâche concrète : le déploiement des modèles d’IA est donc appelé inférence de l’IA.

L’apprentissage profond, sous-ensemble du machine learning alimenté par de vastes réseaux neuronaux artificiels, s’est imposé au cours des dernières décennies comme l’architecture de modèle d’IA de pointe dans presque tous les domaines où l’IA est utilisée.

Contrairement aux algorithmes explicitement définis du machine learning traditionnel, l’apprentissage profond s’appuie sur des « réseaux » distribués d’opérations mathématiques qui offrent une capacité inégalée à assimiler les nuances complexes de données très sophistiquées. L’apprentissage profond nécessitant de très grandes quantités de données et de ressources informatiques, son avènement a coïncidé avec l’importance croissante du « big data » et des processeurs graphiques (GPU).

La discipline du machine learning est étroitement liée à celle de la science des données. En un sens, le machine learning peut être compris comme un ensemble d’algorithmes et de techniques permettant d’automatiser l’analyse des données et (plus important encore) d’appliquer les enseignements tirés de cette analyse pour exécuter des tâches de façon autonome.

L’origine du terme (mais pas le concept de base lui-même) est souvent attribuée à l’article d’Arthur L. Samuel de 1959 dans IBM Journal, intitulé « Some Studies in Machine Learning Using the Game of Checkers ». Dans son introduction, A. Samuel explique parfaitement la production idéale du machine learning : « un ordinateur peut être programmé pour apprendre à mieux jouer aux dames que la personne qui a écrit le programme ».¹

Machine learning et IA

Bien que le terme « machine learning » et « intelligence artificielle » soient souvent employés de manière interchangeable, ils ne sont pas tout à fait synonymes. En bref : l’ensemble du machine learning est de l’IA, mais toutes les IA ne sont pas du machine learning.

Dans l’imaginaire populaire, « l’IA » est généralement associée à la science-fiction à travers des représentations de ce qu’on appelle plus justement l’intelligence artificielle générale (IAG) – comme HAL 9000 dans 2001 : L’Odyssée de l’espace ou Ava dans Ex Machina – ou, plus récemment, à l’IA générative.

Mais « intelligence artificielle » est un terme fourre-tout, qui désigne tout programme capable d’utiliser des informations pour prendre des décisions ou faire des prédictions sans implication humaine active.

Les systèmes d’IA les plus élémentaires sont une série d’instructions si-alors-sinon, dont les règles et la logique sont programmées explicitement par un data scientist. Au niveau le plus simple, même un thermostat rudimentaire est un système d’IA basé sur des règles : lorsqu’il est programmé avec des règles simples telles que

IF room_temperature < 67, THEN turn_on_heater

IF room_temperature > 72, THEN turn_on_air_conditioner

le thermostat est capable de prendre des décisions de manière autonome, sans aucune autre intervention humaine. À un niveau plus complexe, un arbre de décision complexe, basé sur des règles et programmé par des experts médicaux, est capable d’analyser les symptômes, les circonstances et les facteurs de comorbidité pour faciliter le diagnostic ou le pronostic.²

Contrairement aux systèmes experts, la logique selon laquelle fonctionnent les modèles de machine learning n’est pas explicitement programmée, mais apprise par l’expérience.

Prenons l’exemple d’un programme de filtrage du courrier indésirable : l’IA basée sur des règles exige qu’un data scientist définisse manuellement des critères précis et universels pour le spam ; le machine learning ne demande que la sélection d’un algorithme approprié et d’un jeu de données d’e-mails adéquat.

Lors de l’entraînement, le modèle reçoit des exemples d’e-mails et prédit lesquels sont du spam ; l’erreur de ses prédictions est calculée, et son algorithme est ajusté pour la réduire ; ce processus est répété jusqu’à ce que le modèle soit précis. Le modèle de ML nouvellement entraîné a implicitement appris à identifier le spam.

À mesure que les tâches qu’un système d’IA doit accomplir deviennent plus complexes, les modèles basés sur des règles deviennent de plus en plus fragiles : il est souvent impossible de définir explicitement chaque schéma et chaque variable qu’un modèle doit prendre en compte.

Les systèmes de machine learning se sont imposés comme le mode dominant d’intelligence artificielle, car les schémas d’apprentissage implicites tirés des données elles-mêmes sont par nature plus flexibles, évolutifs et accessibles.

Rejoignez plus de 100 000 abonnés qui lisent les dernières actualités technologiques

Deux fois par semaine, restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Comment fonctionne le machine learning

Le machine learning fonctionne selon une logique mathématique. Les caractéristiques pertinentes de chaque point de données doivent donc être exprimées numériquement, afin que les données puissent être incorporées dans un algorithme mathématique qui « apprendra » à associer une entrée donnée à la sortie souhaitée.

En machine learning, les points de données sont généralement représentés sous forme vectorielle : chaque élément (ou dimension) de la représentation vectorielle du point de données correspond à la valeur numérique associée à une caractéristique particulière. Pour les modalités de données intrinsèquement numériques, telles que les données financières ou les coordonnées géospatiales, cela est relativement simple.

Mais de nombreuses modalités de données, telles que le texte, les images, les données des graphiques sur les réseaux sociaux ou le comportement des utilisateurs d’applications, ne sont pas intrinsèquement numériques et impliquent donc une ingénierie des caractéristiques moins intuitive pour être exprimées d’une manière compatible avec le ML.

Le processus (souvent manuel) qui consiste à choisir les aspects des données à utiliser dans les algorithmes de machine learning est appelé sélection des caractéristiques.

Les techniques d’extraction des caractéristiques permettent d’affiner les données en ne retenant que les dimensions les plus pertinentes et les plus significatives. Les deux sont des branches de l’ingénierie des caractéristiques, le prétraitement des données brutes à utiliser dans le machine learning.

L’une des particularités de l’apprentissage profond est qu’il s’appuie généralement sur des données brutes et qu’il automatise une grande partie du processus d’ingénierie des caractéristiques, ou du moins leur extraction. Cela rend l’apprentissage profond plus évolutif, bien que moins interprétable que le machine learning traditionnel.

Paramètres et optimisation des modèles de machine learning

Prenons un exemple pratique. Prenons l’exemple d’un algorithme de régression linéaire simple pour prédire les prix de vente immobiliers basé sur une combinaison pondérée de trois variables : la superficie, l’âge de la maison et le nombre de chambres.

Chaque maison est représentée sous la forme d’un embedding à 3 dimensions : [square footage, bedrooms, age] . Une maison de 30 ans de 175 mètres carrés comportant 4 chambres peut être représentée comme [1900, 4, 30] (bien qu’à des fins mathématiques, ces chiffres puissent d’abord être mis à l’échelle, ou normalisés, dans une fourchette plus uniforme).

L’algorithme est une fonction mathématique simple :

 Prix = (A * superficie) + (B * nombre de chambres) – (C * âge) + prix de base

Ici, $A$ , $B$ et $C$ sont les paramètres du modèle : ils permettent d’ajuster le poids de chaque variable dans le modèle. L’objectif du machine learning est de trouver les valeurs optimales pour ce type de paramètres de modèle : en d’autres termes, les valeurs qui permettent à la fonction globale de produire des résultats précis.

Bien que la plupart des applications concrètes du machine learning impliquent des algorithmes plus complexes, avec un plus grand nombre de variables d’entrée, le principe reste le même : optimiser les paramètres ajustables de l’algorithme pour obtenir une plus grande précision.

Types de machine learning

L’apprentissage supervisé
L’apprentissage non supervisé
L’apprentissage par renforcement (RL)

Les méthodes de machine learning peuvent être classées dans trois paradigmes d’apprentissage distincts : apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement, selon leurs objectifs d’entraînement et (souvent mais pas toujours) le type de données d’entraînement qu’elles impliquent.

L’apprentissage supervisé entraîne le modèle à prédire la sortie « correcte » pour une entrée donnée. Il s’applique aux tâches qui nécessitent un certain degré de précision par rapport à une « vérité terrain » externe, telle que la classification ou la régression.

L’apprentissage non supervisé entraîne le modèle à discerner les schémas, les dépendances et les corrélations intrinsèques dans les données. Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé n’implique pas la comparaison des sorties à une vérité de terrain externe.

L’apprentissage par renforcement (RL) entraîne le modèle à évaluer son environnement et à entreprendre l’action qui lui apportera la plus grande récompense. Les scénarios d’apprentissage par renforcement n’impliquent pas l’existence d’une vérité de terrain unique, mais l’existence de « bonnes » et de « mauvaises » actions (ou encore neutres).

L’entraînement de bout en bout d’un modèle donné peut, et c’est souvent le cas, impliquer des approches hybrides qui tirent parti de plusieurs de ces paradigmes d’apprentissage. Par exemple, l’apprentissage non supervisé est souvent utilisé pour pré-traiter les données à utiliser dans l’apprentissage supervisé ou l’apprentissage par renforcement.

Les grands modèles de langage (LLM) font généralement l’objet d’un entraînement initial (pré-entraînement) et d’un réglage fin par diverses variantes d’apprentissage supervisé, suivis d’un réglage fin supplémentaire, réalisé grâce à des techniques RL telles que l’apprentissage par renforcement avec feedback humain (RLHF).

Dans une pratique similaire, diverses méthodes d’apprentissage d’ensemble regroupent les sorties de plusieurs algorithmes.

Apprentissage supervisé

Les algorithmes d’apprentissage supervisé entraînent les modèles à effectuer des tâches exigeant de la précision, telles que la classification ou la régression.

Le machine learning supervisé alimente tant les modèles d’apprentissage profond de pointe que divers modèles de ML traditionnels, toujours largement utilisés dans tous les secteurs.

Les modèles de régression permettent de prédire des valeurs continues telles que le prix, la durée, la température et la taille. Parmi les algorithmes de régression traditionnels, citons la régression linéaire, la régression polynomiale et les modèles d’espace d’état.

Les modèles de classification prédisent des valeurs discrètes comme la catégorie (ou la classe) à laquelle appartiennent un point de données, une décision binaire ou une action à prendre. Parmi les algorithmes de classification traditionnels, on peut citer les machines à vecteurs de support (SVM), Naïve Bayes et la régression logistique.

De nombreux algorithmes de ML supervisé peuvent être utilisés pour l’une ou l’autre de ces tâches. Par exemple, la sortie de ce qui est nominalement un algorithme de régression peut ensuite être utilisée pour informer une prédiction de classification.

Pour être mesurées et optimisées, les sorties du modèle doivent être comparées à une vérité de terrain : la sortie idéale ou « correcte » pour une entrée donnée.

Dans l’apprentissage supervisé conventionnel, cette vérité terrain est fournie par les données étiquetées. Un modèle de détection du spam sera entraîné sur un jeu de données d’e-mails dont chacun a été étiqueté commeSPAM OUNOT SPAM .

Un modèle de segmentation d’images sera entraîné sur des images dont chaque pixel a été annoté par sa classification. L’objectif de l’apprentissage supervisé est d’ajuster les paramètres du modèle jusqu’à ce que toutes ses sorties correspondent à la vérité terrain fournie par ces étiquettes.

L’utilisation d’une fonction de perte qui mesure la divergence (« perte ») entre les résultats du modèle et la réalité du terrain sur un lot d’entrées d’entraînement est essentielle à l’apprentissage supervisé.

L’objectif de l’apprentissage supervisé est défini mathématiquement comme la minimisation de la sortie d’une fonction de perte. Une fois la perte calculée, divers algorithmes d’optimisation, dont la plupart impliquent le calcul de la dérivée de la fonction de perte, sont utilisés pour identifier les ajustements de paramètres qui réduiront la perte.

Étant donné que ce processus nécessite généralement l’intervention d’un être humain pour fournir des données de référence sous forme d’annotations, on parle d’apprentissage « supervisé ». En tant que telle, l’utilisation de données étiquetées a toujours été considérée comme la caractéristique déterminante de l’apprentissage supervisé.

Cependant, au niveau le plus fondamental, la caractéristique principale de l’apprentissage supervisé est l’existence de données de référence et l’objectif d’entraînement consistant à minimiser la sortie de la fonction de perte qui mesure la divergence par rapport à ces données.

Pour s’adapter à une notion plus polyvalente de l’apprentissage supervisé, la terminologie moderne du machine learning utilise les termes « supervision » ou « signaux de supervision » pour désigner toute source de vérité terrain.

Apprentissage auto-supervisé

L’étiquetage des données peut s’avérer excessivement coûteux et fastidieux dans le cas des tâches complexes et des grands jeux de données.

L’apprentissage auto-supervisé implique l’entraînement sur des tâches lors desquelles un signal de supervision est obtenu directement à partir des données non étiquetées, d’où le terme « auto-supervisé ».

Par exemple, les auto-encodeurs sont entraînés à compresser (ou à encoder) les données d’entrée, puis à reconstruire (ou à décoder) l’entrée initiale à l’aide de cette représentation compressée. L’objectif de leur entraînement est de minimiser les erreurs de reconstruction en utilisant l’entrée initiale comme base de référence.

L’apprentissage auto-supervisé est également la principale méthode d’entraînement des LLM : les modèles reçoivent des échantillons de texte avec certains mots cachés ou masqués, et sont chargés de prédire les mots manquants.

L’apprentissage auto-supervisé est souvent associé à l’apprentissage par transfert, car il fournit des modèles de fondation dotés de capacités générales, qui seront ensuite affinés pour réaliser des tâches plus ciblées.

Apprentissage semi-supervisé

Alors que l’apprentissage auto-supervisé est essentiellement un apprentissage supervisé sur des données non étiquetées, les méthodes d’apprentissage semi-supervisé utilisent des données étiquetées et non étiquetées.

D’une manière générale, l’apprentissage semi-supervisé comprend des techniques qui utilisent des informations provenant des données étiquetées disponibles pour faire des hypothèses sur les points de données non étiquetés, afin que ces derniers puissent être intégrés dans les workflows d’apprentissage supervisé.

Apprentissage non supervisé

Les algorithmes de machine learning non supervisé distinguent les schémas intrinsèques dans les données non étiquetées comme les similarités, les corrélations ou les regroupements potentiels. Ils sont particulièrement utiles dans les scénarios où de tels schémas ne sont pas nécessairement évidents pour les observateurs humains.

Parce que l’apprentissage non supervisé ne suppose pas la préexistence d’une sortie « correcte » connue, il ne requiert ni signaux de supervision ou ni fonctions de perte conventionnelles, d’où le terme « non supervisé ».

La plupart des méthodes d’apprentissage non supervisé remplissent l’une des fonctions suivantes :

Les algorithmes de clustering partitionnent les points de données non étiquetés en « clusters », ou regroupements, selon leur proximité ou leur similarité les uns par rapport aux autres. Ils sont généralement utilisés pour des tâches telles que la segmentation de marché ou la détection des fraudes. Les algorithmes populaires de regroupement incluent le regroupement en k-moyennes, les modèles de mélange gaussien (GMM) et les méthodes basées sur la densité comme DBSCAN.

Les algorithmes d’association distinguent les corrélations (par exemple, entre une action et certaines conditions). Par exemple, les entreprises de commerce électronique comme Amazon utilisent des modèles d’association non supervisés pour alimenter les moteurs de recommandation.

Les algorithmes de réduction de la dimensionnalité simplifient les points de données en les représentant avec un plus petit nombre de caractéristiques, c’est-à-dire dans moins de dimensions, tout en préservant leurs caractéristiques importantes. Ils sont souvent utilisés pour assurer le prétraitement des données, ainsi que pour réaliser des tâches comme la compression ou la visualisation des données. Les algorithmes de réduction de la dimensionnalité les plus répandus sont les auto-encodeurs, l’analyse en composantes principales (ACP), l’analyse discriminante linéaire (LDA) et l’intégration des voisins stochastiques distribués (t-SNE).

Comme leur nom l’indique, les algorithmes d’apprentissage non supervisé de machine learning peuvent être considérés comme des algorithmes qui « s’optimisent eux-mêmes ».

Par exemple, cette animation montre comment un algorithme de clustering k-means optimise de manière itérative le centroïde de chaque cluster individuellement.

Le défi de l’entraînement des modèles non supervisés implique donc un prétraitement efficace des données et un réglage correct des hyperparamètres qui influencent le processus d’apprentissage sans pouvoir être eux-mêmes appris, comme le taux d’apprentissage ou le nombre de clusters.

Apprentissage par renforcement (RL)

Alors que l’apprentissage supervisé entraîne les modèles en les optimisant pour les rendre exemplaires et que les algorithmes d’apprentissage non supervisé s’adaptent eux-mêmes à un jeu de données, les modèles d’apprentissage par renforcement sont entraînés de manière holistique par essai-erreur.

Ils sont largement utilisés dans la robotique, les jeux vidéo, les modèles de raisonnement et d’autres cas d’utilisation où l’espace des solutions et des approches possibles est particulièrement vaste, ouvert ou difficile à définir. Dans la littérature RL, les systèmes d’IA sont souvent appelés « agents ».

À la place des paires indépendantes de données entrée-sortie utilisées dans l’apprentissage supervisé, l’apprentissage par renforcement (RL) utilise des tuples de données état-action-récompense interdépendants. Au lieu de minimiser les erreurs, l’objectif de l’apprentissage par renforcement est d’optimiser les paramètres pour maximiser la récompense.

Le cadre mathématique de l’apprentissage par renforcement repose principalement sur les composants suivants :

L’espace d’état contient toutes les informations disponibles en rapport avec les décisions que le modèle pourrait prendre. L’état change généralement à chaque action effectuée par le modèle.

L’ espace d’action contient toutes les décisions que le modèle est autorisé à prendre à un moment donné. Dans un jeu de société, par exemple, l’espace d’action comprend tous les mouvements autorisés disponibles à un moment donné. Dans la génération de texte, l’espace d’action comprend l’ensemble du « vocabulaire » de tokens accessible au LLM.

Le signal de récompense est le feedback, positif ou négatif, généralement exprimé sous forme de valeur scalaire, fourni à l’agent après chaque action. La valeur du signal de récompense peut être déterminée par des règles explicites, par une fonction de récompense ou par un modèle de récompense entraîné séparément.

Une politique désigne le « processus de pensée » qui oriente le comportement d’un agent RL. Mathématiquement parlant, une politique ( $π$ ) est une fonction qui prend un état ( $s$ ) comme entrée et renvoie une action ( $a$ ) : π(s)→a .

Dans les méthodes RL basées sur des politiques, comme l’optimisation de politique proximale (PPO), le modèle apprend directement une politique.

Dans les méthodes basées sur la valeur, comme le Q-learning, l’agent apprend une fonction de valeur qui calcule un score indiquant la « qualité » de chaque état, puis il choisit les actions qui mènent à des états de valeur plus élevée.

Prenons l’exemple d’un labyrinthe : un agent basé sur des politiques apprendra « à ce coin, tourner à gauche », tandis qu’un agent basé sur la valeur apprendra un score pour chaque position et se déplacera tout simplement vers une position adjacente avec un meilleur score.

Les approches hybrides, telles que les méthodes acteurs-critiques, consistent à apprendre une fonction de valeur qui est ensuite utilisée pour optimiser une politique.

Dans l’apprentissage par renforcement profond, la politique est représentée sous forme de réseau de neurones.

Apprentissage profond

L’apprentissage profond emploie des réseaux de neurones artificiels à plusieurs couches ,d’où le terme « profond », et non les algorithmes explicitement conçus pour le machine learning traditionnel.

Bien que les réseaux de neurones existent depuis le début du machine learning, ce n’est qu’à la fin des années 2000 et au début des années 2010, en partie grâce aux avancées en matière de GPU, qu’ils se sont imposés dans la plupart des sous-domaines de l’IA.

Librement inspirés du fonctionnement du cerveau humain, les réseaux de neurones comprennent des couches interconnectées de « neurones » (ou nœuds), chacun effectuant sa propre opération mathématique (appelée « fonction d’activation »).

La sortie de la fonction d’activation de chaque nœud sert d’entrée à chacun des nœuds de la couche suivante, et ainsi de suite jusqu’à la couche finale, où la sortie finale du réseau est calculée. Il est à noter que les fonctions d’activation effectuées à chaque nœud sont non linéaires, ce qui permet aux réseaux de neurones de modéliser les schémas et dépendances complexes.

Schéma du réseau neuronal profond pour « Qu'est-ce que l'intelligence artificielle (IA) ? »

Chaque connexion entre deux neurones se voit attribuer une pondération unique : un multiplicateur qui augmente ou diminue la contribution d’un neurone à un neurone de la couche suivante. Ces pondérations, ainsi que les termes de biais uniques ajoutés à la fonction d’activation de chaque neurone, constituent les paramètres à optimiser par le machine learning.

L’algorithme de rétropropagation permet de calculer la contribution de chaque nœud à la sortie globale de la fonction de perte, ce qui permet d’optimiser individuellement des millions, voire des milliards de pondérations de modèle grâce aux algorithmes de descente de gradient.

En raison du volume et de la granularité des mises à jour nécessaires pour obtenir des résultats optimaux, l’apprentissage profond requiert beaucoup plus de données et de ressources de calcul que le ML traditionnel.

Cette structure distribuée confère aux modèles d’apprentissage profond leur puissance et leur polyvalence incroyables. Imaginez les données d’entraînement sous forme de points de données dispersés sur un graphique à 2 dimensions.

Essentiellement, le machine learning traditionnel vise à trouver une courbe unique qui passe par chacun de ces points de données ; l’apprentissage profond rassemble un nombre arbitraire de lignes plus petites, ajustables individuellement, pour obtenir la forme souhaitée.

Les réseaux de neurones sont des approximateurs universels : il a été théoriquement prouvé que pour toute fonction, il existe un agencement de réseaux de neurones capable de la reproduire^{.3, 4}

Cela dit, ce n’est pas parce que quelque chose est théoriquement possible qu’il est réalisable dans la pratique grâce aux méthodes d’entraînement existantes.

Pendant de nombreuses années, une performance adéquate sur certaines tâches est restée hors de portée, même pour les modèles d’apprentissage profond, mais au fil du temps, les modifications apportées à l’architecture standard des réseaux de neurones ont permis de nouvelles capacités de ML.

Réseaux neuronaux convolutifs (CNN)

Les réseaux de neurones convolutifs (CNN) ajoutent des couches convolutives aux réseaux de neurones. En mathématiques, une convolution est une opération par laquelle une fonction modifie la forme d’une autre.

Dans le cas des CNN, les couches convolutives sont utilisées pour extraire les caractéristiques importantes des données en appliquant des « filtres » pondérés. Les CNN sont principalement associés aux modèles de vision par ordinateur et aux données d’image, mais ils ont un certain nombre d’autres cas d’utilisation importants.

Réseaux de neurones récurrents (RNN)

Les réseaux de neurones récurrents (RNN) sont conçus pour fonctionner sur des données séquentielles. Alors que les réseaux de neurones à action directe conventionnels mappent une seule entrée à une seule sortie, les RNN mappent une séquence d’entrées à une sortie.

Ils fonctionnent dans une boucle récurrente, où la sortie d’une étape donnée de la séquence d’entrée sert d’entrée au calcul de la sortie suivante. En effet, cela crée une « mémoire » interne, appelée état caché, qui permet aux RNN de comprendre le contexte et l’ordre.

Trois schémas expliquant rapidement ce que sont les réseaux neuronaux récurrents

Transformateurs

Les modèles de transformeurs, introduits pour la première fois en 2017, sont en grande partie responsables de l’avènement des LLM et d’autres piliers de l’IA générative, permettant d’obtenir des résultats de pointe dans la plupart des sous-domaines du machine learning.

Comme les RNN, les transformers sont apparemment conçus pour les données séquentielles, mais des solutions intelligentes ont permis de traiter la plupart des modalités de données par des transformers. La force unique des modèles transformeurs réside dans leur mécanisme d’attention innovant, qui leur permet de se concentrer de manière sélective sur les parties des données d’entrée les plus pertinentes à un moment précis de la séquence.

Modèles Mamba

Les modèles Mamba sont une architecture de réseaux de neurones relativement nouvelle, introduite pour la première fois en 2023, basée sur une variante unique des modèles d’espace d’état (SSM).

Tout comme les transformateurs, les modèles Mamba offrent des moyens innovants de prioriser de manière sélective les informations les plus pertinentes à un moment donné. Mamba est récemment devenu un concurrent de l’architecture transformatrice, en particulier pour les LLM.

Cas d’utilisation du machine learning

Vision par ordinateur
Traitement automatique du langage naturel (NLP)
Analyse de séries chronologiques
Génération d’images

La plupart des applications de machine learning entrent dans l’une ou plusieurs des catégories suivantes, définies principalement par leurs cas d’utilisation et les modalités de données utilisées.

Vision par ordinateur

La vision par ordinateur est une branche de l’IA axée sur les données d’image, les données vidéo et d’autres modalités de données qui requièrent un modèle ou une machine pour « voir », des diagnostics médicaux aux voitures autonomes en passant par la reconnaissance faciale. Les sous-domaines notables de la vision par ordinateur comprennent la classification d’images, la détection d’objets, la segmentation d’images et la reconnaissance optique de caractères (OCR).

Traitement automatique du langage naturel (NLP)

Le domaine du traitement automatique du langage naturel (NLP) couvre une grande variété de tâches concernant les données textuelles, la parole et d’autres données linguistiques. Les sous-domaines notables du NLP sont les chatbots, la reconnaissance vocale, la traduction linguistique, l’analyse des sentiments, la génération de texte, la synthèse et les agents d’IA. Dans le NLP moderne, les grands modèles de langage continuent de faire progresser l’état de la technologie à un rythme sans précédent.

Analyse de séries chronologiques

Les modèles de séries chronologiques sont appliqués à la détection d’anomalies, à l’analyse de marché et aux tâches connexes de reconnaissance des formes ou de prédiction. Ils utilisent le machine learning sur les données historiques pour divers cas d’utilisation de la prévision.

Génération d’images

Les modèles de diffusion, les auto-encodeurs variationnels (VAE) et les réseaux antagonistes génératifs (GAN) permettent de générer des images originales appliquant les schémas de pixels appris à partir des données d’entraînement.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Opérations de machine learning (MLOps)

Les opérations de machine learning (MLOps) constituent un ensemble de pratiques permettant de mettre en œuvre une approche de chaîne d’assemblage pour construire, déployer et entretenir les modèles de machine learning.

Une organisation et un pré-traitement minutieux des données d’entraînement, ainsi qu’une sélection appropriée des modèles, sont essentiels aux pipelines MLOps. Une validation post-entraînement réfléchie, de la conception des jeux de données de référence à la priorisation des indicateurs de performance, est essentielle pour s’assurer que le modèle se généralise bien (et qu’il ne s’agit pas d’un simple surapprentissage des données d’entraînement).

Après le déploiement, les modèles doivent être surveillés pour détecter les dérives, les problèmes d’efficacité de l’inférence et d’autres phénomènes indésirables. Une pratique bien définie de gouvernance des modèles est essentielle pour assurer une efficacité continue, en particulier dans les secteurs réglementés ou en évolution rapide.

Bibliothèques de machine learning

Un certain nombre d’outils, de bibliothèques et de cadres open source permettent de créer, d’entraîner et de tester les projets de machine learning.

Bien que ces bibliothèques offrent toute une série de modules préconfigurés et d’abstractions pour rationaliser la création de modèles et de workflows alimentés par le ML, les praticiens devront se familiariser avec les langages de programmation les plus courants, en particulier Python, pour les utiliser pleinement.

Les bibliothèques open source les plus connues, en particulier pour la création de modèles d’apprentissage profond, comprennent PyTorch, TensorFlow, Keras et la bibliothèque Hugging Face Transformers.

Parmi les bibliothèques de machine learning et les outils open source axés sur le ML traditionnel, citons Pandas, Scikit-learn, XGBoost, Matplotlib, SciPy et NumPy.

IBM gère et met à jour sa propre bibliothèque de tutoriels pour les débutants comme pour les praticiens avancés en ML.

Auteur

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Science des données et MLOps pour les responsables des données

Unissez vos forces à celles d’autres responsables pour promouvoir les trois piliers essentiels du MLOps et d’une IA digne de confiance : confiance dans les données, confiance dans les modèles et confiance dans les processus.

Votre machine learning est prêt. Et maintenant ?

Découvrez comment watsonx Orchestrate vous permet une exploitation concrète des modèles ML via des agents IA rassemblés dans une solution ouverte, intégrée, fiable et hybride.

Ressources

Renforcez votre expertise en matière de ML

Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.

Libérez la puissance de l’IA générative et du ML

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Le machine learning, expliqué

Techsplainers by IBM présente les fondements du machine learning, des concepts clés aux cas d’utilisation concrets. Des épisodes clairs et rapides vous permettent d’apprendre rapidement les principes fondamentaux.

Mettre l’IA au travail : mise en place d'un retour sur investissement grâce à l'IA générative

Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.

Choisir le bon modèle de fondation

Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.

Découvrir IBM Granite

IBM® Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.

Comment prospérer en toute confiance dans cette nouvelle ère de l’IA

Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA

Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA

Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Notes de bas de page

1. “Some Studies in Machine Learning Using the Game of Checkers,” IBM Journal (accessed through MIT), 3 juillet 1959

2. “Using Decision Trees as an Expert System for Clinical Decision Support for COVID-19,“ Interactive Journal of Medical Research, Vol 12, 30 janvier 2023

3. “Kolmogorov’s Mapping Neural Network Existence Theorem,“ Proceedings of the IEEE First International Conference on Neural Networks (accessed through University of Waterloo), 1987

4. “Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function,“ Center for Research on Information Systems (New York University), mars 1992

Qu’est-ce que le machine learning (ML)?