Un réseau neuronal est un modèle de machine learning qui empile des « neurones » simples en couches et apprend des poids et des biais de reconnaissance de modèles à partir de données pour mapper des entrées à des productions.
Les réseaux neuronaux font partie des algorithmes les plus influents du machine learning et de l’intelligence artificielle (IA) modernes. Ils sont à l’origine d’avancées dans les domaines de la vision par ordinateur, du traitement automatique du langage naturel (NLP), de la reconnaissance vocale et d’innombrables applications dans le monde réel, des prévisions à la reconnaissance faciale. Alors que les réseaux neuronaux d’aujourd’hui alimentent des systèmes aussi complexes que les transformers et les réseaux neuronaux convolutifs (CNN), les origines des réseaux neuronaux remontent à des modèles simples tels que la régression linéaire et la façon dont le cerveau humain digère, traite les informations présentées et décide en conséquence.
À un niveau élevé, l’inspiration des réseaux neuronaux provient des neurones biologiques du cerveau humain, qui communiquent par le biais de signaux électriques. En 1943, Warren McCulloch et Walter Pitts proposaient le premier modèle mathématique d’un neurone, montrant que des unités simples pouvaient effectuer le calcul d’une fonction. Plus tard, en 1958, Frank Rosenblatt a introduit le perceptron, un algorithme conçu pour effectuer la reconnaissance de formes. Le perceptron est l’ancêtre historique des réseaux d’aujourd’hui : essentiellement un modèle linéaire avec une sortie contrainte. Dans la section suivante, nous verrons comment les réseaux neuronaux s’inspirent du cerveau humain pour prendre des décisions et reconnaître des modèles.
Un réseau neuronal peut être compris à travers un exemple simple : la détection. Un e-mail est introduit dans le réseau, et des fonctionnalités telles que des mots ou des expressions tels que « prix », « argent », « cher » ou « gagner » sont utilisées comme entrées. Les premiers neurones du réseau traitent l’importance de chaque signal, tandis que les couches ultérieures combinent ces informations en instructions de niveau supérieur qui capturent le contexte et le ton. La dernière couche calcule ensuite la probabilité que l’e-mail soit du spam, et si cette probabilité est suffisamment élevée, l’e-mail est signalé. Fondamentalement, le réseau apprend à transformer des fonctionnalités brutes en modèles significatifs et à les utiliser pour établir des prédictions.
Ce processus est alimenté par deux concepts fondamentaux : les pondérations et les biais. Les pondérations agissent comme des régulateurs qui contrôlent l’influence de chaque fonctionnalité d’entrée sur la décision : un mot comme « prix » peut avoir plus de poids qu’un mot courant comme « bonjour ». Les biais sont des valeurs intégrées qui modifient le seuil de décision, permettant à un neurone de s’activer même si les entrées elles-mêmes sont faibles. Ensemble, ces paramètres de modèle déterminent la façon dont chaque neurone contribue au calcul global. En ajustant ces valeurs pendant l’entraînement, le réseau apprend progressivement à faire des prédictions précises, dans ce cas, pour savoir si un e-mail est un spam ou non.
Mathématiquement, un réseau de neurones apprend une fonction en mappant un vecteur d’entrée pour prévoir une réponse Ce qui distingue les réseaux neuronaux des autres algorithmes de machine learning traditionnels, c’est leur structure en couches et leur capacité à effectuer une transformation.
Un réseau de neurones est composé de :
Tout comme les autres algorithmes de machine learning, les réseaux neuronaux nécessitent un entraînement rigoureux pour bien fonctionner lors des tests. Pour entraîner un réseau, un seul neurone calcule :
Où :
σ représente une fonction d’activation au niveau de la couche de sortie qui transforme la combinaison linéaire pour adapter la décision de la fonction. Grâce à cette architecture, les fonctionnalités d’entrée X sont transformées en une production Y, servant de modèle de machine learning prédictif.
Le pouvoir d’un réseau neuronal vient de sa capacité à apprendre les poids et les biais appropriés à partir des données. Cela se produit en comparant la prédiction du réseau à la véritable étiquette et à mesurer l’erreur à l’aide d’une fonction de perte. Par exemple, dans les tâches de classification, la perte peut mesurer la distance entre la probabilité prédite et la réponse correcte.
Pour minimiser cette perte, le réseau utilise un algorithme appelé rétropropagation. Le réseau de neurones s’entraîne en quatre étapes :
Ce processus est répété plusieurs fois sur le jeu de données. Chaque réussite permet au réseau de « régler » ses paramètres internes afin que ses prédictions se rapprochent progressivement des réponses correctes. Au fil du temps, le réseau converge vers un ensemble de poids et de biais qui minimisent les erreurs et généralisent bien les données invisibles. La rétropropagation, couplée avec la descente de gradient, est le moteur qui fait fonctionner les réseaux neuronaux. Il permet aux réseaux avec des millions (voire des milliards) de paramètres d’apprendre des modèles significatifs à partir d’énormes jeux de données.
Cependant, malgré les efforts des praticiens pour entraîner des modèles très performants, les réseaux neuronaux sont toujours confrontés à des défis similaires à ceux des modèles de machine learning, et plus particulièrement, le surajustement. Lorsqu’un réseau neuronal devient trop complexe avec trop de paramètres, le modèle sur-ajuste les données d’apprentissage et prédit mal. Le surajustement est un problème courant dans tous les types de réseaux neuronaux, et prêter une attention particulière au compromis biais-variance est primordial pour créer des modèles de réseaux neuronaux performants.
Les architectures de réseaux neuronaux modernes, telles que les transformers et les modèles d’encodeurs-décodeurs, suivent les mêmes principes fondamentaux (poids et biais appris, couches empilées, activations non linéaires, entraînement de bout en bout par rétropropagation). Ils diffèrent principalement par la manière dont les entrées sont mélangées entre les couches. Au lieu d’un seul mélange entièrement connecté, les transformers utilisent l’attention pour former des combinaisons pondérées dépendantes des données, ainsi que des connexions résiduelles, une normalisation et des encodages positionnels pour enrichir le câblage construit sur les mêmes principes fondamentaux.
Si les perceptrons multicouches constituent la base, les réseaux neuronaux ont évolué pour devenir des architectures spécialisées adaptées à différents domaines :
Les réseaux neuronaux sous-tendent de nombreux systèmes d’AI actuels. Voici quelques applications les plus connues des réseaux neuronaux :
Ces applications conduisent à des innovations concrètes dans les domaines de la santé, de la finance, de la robotique, du divertissement et bien plus encore.
Les réseaux neuronaux apprennent des représentations internes utiles directement à partir des données, capturant la structure non linéaire qui manque aux modèles classiques. Avec une capacité suffisante, des objectifs solides et une régularisation contre le surajustement, ils passent des petits tests de performance de référence aux systèmes de production en vision par ordinateur, traitement automatique du langage naturel, reconnaissance automatique de la parole, prévisions et plus encore, offrant ainsi des gains mesurables en termes de précision et de robustesse.
L’apprentissage profond moderne étend ces bases. Les CNN sont spécialisés dans l’extraction de caractéristiques spatiales pour les images, les RNN modélisent les dépendances temporelles en séquences, les transformers remplacent la récurrence par de l’attention, aidés par des connexions résiduelles, une normalisation et un parallélisme efficace sur les GPU.
Malgré les différences architecturales, l’entraînement de bout en bout avec rétropropagation sur de grands jeux de données persiste et la vue de base est toujours d’actualité : est appris en composant des transformations dépendantes des données avec des activations non linéaires. L’IA générative s’appuie sur les mêmes principes à plus grande échelle. Les grands modèles de langage, les modèles de diffusion, les VAE et les GAN apprennent les distributions sur les données pour synthétiser du texte, des images, de l’audio et du code.
Le passage d’un perceptron multicouche à des générateurs de pointe est principalement une question d’architecture, de données et de calcul. Comprendre les fonctions d’activation, les exigences d’entraînement et les principaux types de réseaux permet de passer des réseaux de neurones classiques aux systèmes génératifs d’aujourd’hui et explique pourquoi ces modèles sont devenus essentiels à l’IA moderne.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.