Que sont les réseaux neuronaux ?

Auteur

Fangfang Lee

Developer Advocate

IBM

Que sont les réseaux neuronaux ?

Un réseau neuronal est un modèle de machine learning qui empile des « neurones » simples en couches et apprend des poids et des biais de reconnaissance de modèles à partir de données pour mapper des entrées à des productions.

Les réseaux neuronaux font partie des algorithmes les plus influents du machine learning et de l’intelligence artificielle (IA) modernes. Ils sont à l’origine d’avancées dans les domaines de la vision par ordinateur, du traitement automatique du langage naturel (NLP), de la reconnaissance vocale et d’innombrables applications dans le monde réel, des prévisions à la reconnaissance faciale. Alors que les réseaux neuronaux d’aujourd’hui alimentent des systèmes aussi complexes que les transformers et les réseaux neuronaux convolutifs (CNN), les origines des réseaux neuronaux remontent à des modèles simples tels que la régression linéaire et la façon dont le cerveau humain digère, traite les informations présentées et décide en conséquence.

Comment fonctionnent les réseaux neuronaux ?

À un niveau élevé, l’inspiration des réseaux neuronaux provient des neurones biologiques du cerveau humain, qui communiquent par le biais de signaux électriques. En 1943, Warren McCulloch et Walter Pitts proposaient le premier modèle mathématique d’un neurone, montrant que des unités simples pouvaient effectuer le calcul d’une fonction. Plus tard, en 1958, Frank Rosenblatt a introduit le perceptron, un algorithme conçu pour effectuer la reconnaissance de formes. Le perceptron est l’ancêtre historique des réseaux d’aujourd’hui : essentiellement un modèle linéaire avec une sortie contrainte. Dans la section suivante, nous verrons comment les réseaux neuronaux s’inspirent du cerveau humain pour prendre des décisions et reconnaître des modèles.  

Un réseau neuronal peut être compris à travers un exemple simple : la détection. Un e-mail est introduit dans le réseau, et des fonctionnalités telles que des mots ou des expressions tels que « prix », « argent », « cher » ou « gagner » sont utilisées comme entrées. Les premiers neurones du réseau traitent l’importance de chaque signal, tandis que les couches ultérieures combinent ces informations en instructions de niveau supérieur qui capturent le contexte et le ton. La dernière couche calcule ensuite la probabilité que l’e-mail soit du spam, et si cette probabilité est suffisamment élevée, l’e-mail est signalé. Fondamentalement, le réseau apprend à transformer des fonctionnalités brutes en modèles significatifs et à les utiliser pour établir des prédictions.

Ce processus est alimenté par deux concepts fondamentaux : les pondérations et les biais. Les pondérations agissent comme des régulateurs qui contrôlent l’influence de chaque fonctionnalité d’entrée sur la décision : un mot comme « prix » peut avoir plus de poids qu’un mot courant comme « bonjour ». Les biais sont des valeurs intégrées qui modifient le seuil de décision, permettant à un neurone de s’activer même si les entrées elles-mêmes sont faibles. Ensemble, ces paramètres de modèle déterminent la façon dont chaque neurone contribue au calcul global. En ajustant ces valeurs pendant l’entraînement, le réseau apprend progressivement à faire des prédictions précises, dans ce cas, pour savoir si un e-mail est un spam ou non.

Mathématiquement, un réseau de neurones apprend une fonction  f(X)  en mappant un vecteur d’entrée  X=(x1,x2,x3...)  pour prévoir une réponse  Y.  Ce qui distingue les réseaux neuronaux des autres algorithmes de machine learning traditionnels, c’est leur structure en couches et leur capacité à effectuer une transformation.  

Un réseau de neurones est composé de :

  • La couche d’entrée : qui contient les caractéristiques brutes  (X1,X2,X3,..) .

  • Les couches masquées : elles sont constituées de neurones artificiels (ou nœuds) qui transforment les entrées en nouvelles représentations. Mathématiquement, les couches masquées sont exprimées en tant que fonctionnalités d’entrée, multipliées par leurs poids associés et des biais supplémentaires sont ajoutés pour passer d’une couche à la suivante, pour finalement arriver au résultat final. C’est là que se produit la transformation linéaire entre l’entrée et la sortie. 

  • La couche de sortie : après avoir effectué la transformation linéaire dans la couche masquée, une fonction d’activation non linéaire (tanh, sigmoïde, ReLU ) est ajoutée pour produire la prédiction finale (comme un nombre pour la régression ou une distribution de probabilité pour la classification).  
Diagramme d’un réseau neuronal avec trois couches masquées : couche d’entrée, plusieurs couches masquées, couche de sortie Un réseau neuronal à propagation avant standard avec 3 couches masquées.

Entraînement des réseaux neuronaux

Tout comme les autres algorithmes de machine learning, les réseaux neuronaux nécessitent un entraînement rigoureux pour bien fonctionner lors des tests. Pour entraîner un réseau, un seul neurone calcule : 

 z=i=1nwixi+b

 a=σ(z)

Où :

  •  xi = la fonctionnalité d’entrée,
  •  wi = le poids,
  •  b  = le biais,
  •  z  = la somme pondérée (transformation linéaire),
  •  σ  = la fonction d’activation (transformation non linéaire),
  •  a  = la sortie,

 σσ représente une fonction d’activation au niveau de la couche de sortie qui transforme la combinaison linéaire pour adapter la décision de la fonction. Grâce à cette architecture, les fonctionnalités d’entrée X sont transformées en une production Y, servant de modèle de machine learning prédictif.  

Le pouvoir d’un réseau neuronal vient de sa capacité à apprendre les poids et les biais appropriés à partir des données. Cela se produit en comparant la prédiction du réseau  Y^ à la véritable étiquette  Y  et à mesurer l’erreur à l’aide d’une fonction de perte. Par exemple, dans les tâches de classification, la perte peut mesurer la distance entre la probabilité prédite et la réponse correcte.

Pour minimiser cette perte, le réseau utilise un algorithme appelé rétropropagation. Le réseau de neurones s’entraîne en quatre étapes :

  • Passage avant : les entrées circulent dans le réseau, calculent des combinaisons linéaires, passent par la fonction d’activation non linéaire et produisent une prédiction en sortie.

  • Calcul d’erreur : la fonction de perte mesure la différence entre la prédiction et la vérité.

  • Passage arrière (rétropropagation) : l’erreur est propagée en arrière dans tout le réseau. Au niveau de chaque neurone, l’algorithme calcule dans quelle mesure chaque poids et biais a contribué à l’erreur en utilisant la règle de la chaîne de calcul.

  • Mise à jour des poids : les poids et les biais sont légèrement ajustés dans la direction qui réduit l’erreur, à l’aide d’une méthode d’optimisation comme la descente de gradient.
Diagramme de descente de gradient, « valeur du poids » dans l’axe des x et « perte » dans l’axe des y, et un « point de départ » dans le côté supérieur gauche du diagramme, le texte est dans la partie la plus basse du « point de convergence c’est-à-dire là où la fonction de coût est réduite au minimum »

Ce processus est répété plusieurs fois sur le jeu de données. Chaque réussite permet au réseau de « régler » ses paramètres internes afin que ses prédictions se rapprochent progressivement des réponses correctes. Au fil du temps, le réseau converge vers un ensemble de poids et de biais qui minimisent les erreurs et généralisent bien les données invisibles. La rétropropagation, couplée avec la descente de gradient, est le moteur qui fait fonctionner les réseaux neuronaux. Il permet aux réseaux avec des millions (voire des milliards) de paramètres d’apprendre des modèles significatifs à partir d’énormes jeux de données.  

Cependant, malgré les efforts des praticiens pour entraîner des modèles très performants, les réseaux neuronaux sont toujours confrontés à des défis similaires à ceux des modèles de machine learning, et plus particulièrement, le surajustement. Lorsqu’un réseau neuronal devient trop complexe avec trop de paramètres, le modèle sur-ajuste les données d’apprentissage et prédit mal. Le surajustement est un problème courant dans tous les types de réseaux neuronaux, et prêter une attention particulière au compromis biais-variance est primordial pour créer des modèles de réseaux neuronaux performants.  

Les architectures de réseaux neuronaux modernes, telles que les transformers et les modèles d’encodeurs-décodeurs, suivent les mêmes principes fondamentaux (poids et biais appris, couches empilées, activations non linéaires, entraînement de bout en bout par rétropropagation). Ils diffèrent principalement par la manière dont les entrées sont mélangées entre les couches. Au lieu d’un seul mélange entièrement connecté, les transformers utilisent l’attention pour former des combinaisons pondérées dépendantes des données, ainsi que des connexions résiduelles, une normalisation et des encodages positionnels pour enrichir le câblage construit sur les mêmes principes fondamentaux.

Types de réseaux neuronaux

Si les perceptrons multicouches constituent la base, les réseaux neuronaux ont évolué pour devenir des architectures spécialisées adaptées à différents domaines :

  • Réseaux neuronaux convolutifs (CNN ou convnets) : conçus pour les données de type grille telles que les images. Les CNN excellent dans la reconnaissance d’images, la vision par ordinateur et la reconnaissance faciale grâce à des filtres convolutifs qui détectent les hiérarchies spatiales des caractéristiques. 

  • Réseaux neuronaux récurrents (RNN) : ils intègrent des boucles de rétroaction qui permettent aux informations de durer au fil du temps. Les RNN sont bien adaptés à la reconnaissance vocale, à la prévision des séries temporelles et aux données séquentielles. 

  • Transformers : une architecture moderne qui a remplacé les RNN pour de nombreuses tâches de séquence. Les transformers utilisent des mécanismes d’attention pour capturer les dépendances dans le traitement automatique du langage naturel et alimenter des modèles de pointe comme GPT. 

  •  Ces variantes mettent en évidence la polyvalence des réseaux neuronaux. Quelle que soit l’architecture, elles reposent toutes sur les mêmes principes : neurones artificiels, activations non linéaires et algorithmes d’optimisation.
Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Applications de réseaux neuronaux

Les réseaux neuronaux sous-tendent de nombreux systèmes d’AI actuels. Voici quelques applications les plus connues des réseaux neuronaux :

  • Vision par ordinateur : CNN pour la reconnaissance d’images, l’imagerie médicale et les véhicules autonomes. 

  • Traitement automatique du langage naturel : transformers pour la traduction automatique, les chatbots et la synthèse. 

  • Reconnaissance vocale : RNN et deep nets pour la transcription et les assistants vocaux.

  • Prévisions et séries temporelles : prédiction de la demande, modélisation financière et prévisions météorologiques.

  • Apprentissage par renforcement : les réseaux neuronaux servent d’approximateurs de fonctions dans les agents de jeu (par exemple, l’AlphaGo de Deepmind). 

  • La reconnaissance de schémas : identification des fraudes, détection des anomalies ou classement des documents. 

Ces applications conduisent à des innovations concrètes dans les domaines de la santé, de la finance, de la robotique, du divertissement et bien plus encore.

Pourquoi les réseaux neuronaux sont-ils importants ?

Les réseaux neuronaux apprennent des représentations internes utiles directement à partir des données, capturant la structure non linéaire qui manque aux modèles classiques. Avec une capacité suffisante, des objectifs solides et une régularisation contre le surajustement, ils passent des petits tests de performance de référence aux systèmes de production en vision par ordinateur, traitement automatique du langage naturel, reconnaissance automatique de la parole, prévisions et plus encore, offrant ainsi des gains mesurables en termes de précision et de robustesse. 
 
L’apprentissage profond moderne étend ces bases. Les CNN sont spécialisés dans l’extraction de caractéristiques spatiales pour les images, les RNN modélisent les dépendances temporelles en séquences, les transformers remplacent la récurrence par de l’attention, aidés par des connexions résiduelles, une normalisation et un parallélisme efficace sur les GPU.  

Malgré les différences architecturales, l’entraînement de bout en bout avec rétropropagation sur de grands jeux de données persiste et la vue de base est toujours d’actualité :  Y=f(X;σ)  est appris en composant des transformations dépendantes des données avec des activations non linéaires. L’IA générative s’appuie sur les mêmes principes à plus grande échelle. Les grands modèles de langage, les modèles de diffusion, les VAE et les GAN apprennent les distributions sur les données pour synthétiser du texte, des images, de l’audio et du code.  

Le passage d’un perceptron multicouche à des générateurs de pointe est principalement une question d’architecture, de données et de calcul. Comprendre les fonctions d’activation, les exigences d’entraînement et les principaux types de réseaux permet de passer des réseaux de neurones classiques aux systèmes génératifs d’aujourd’hui et explique pourquoi ces modèles sont devenus essentiels à l’IA moderne.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct