Contrairement à la logique mathématique explicitement définie des algorithmes de machine learning traditionnels, les réseaux neuronaux artificiels des modèles de deep learning comprennent de nombreuses couches interconnectées de « neurones » qui effectuent chacun une opération mathématique.
En utilisant le machine learning pour ajuster la force des connexions entre les neurones individuels des couches adjacentes (en d’autres termes, les poids et les biais du modèle variables), le réseau peut être optimisé pour obtenir des résultats plus précis.
Bien que les réseaux neuronaux et le deep learning soient inextricablement associés, ils ne sont pas strictement synonymes : le «deep learning» fait référence à l’entraînement de modèles comportant au moins 4 couches (bien que les architectures de réseaux neuronaux modernes soient souvent beaucoup plus « profondes » que cela).
C’est cette structure distribuée, très flexible et ajustable qui explique la puissance et la polyvalence incroyables du deep learning. Imaginez les données d’entraînement sous forme de points de données éparpillés sur un graphique bidimensionnel, et l’objectif de l’entraînement des modèles est de trouver une droite passant par chacun de ces points de données.
Essentiellement, le machine learning traditionnel vise à accomplir cela en utilisant une fonction mathématique unique qui donne une seule ligne (ou courbe). Le deep learning, quant à lui, peut rassembler un nombre arbitraire de lignes plus petites, ajustables individuellement, pour former la forme souhaitée. Les réseaux neuronaux profonds sont des approximateurs universels : il a été prouvé théoriquement que pour toute fonction, il existe un agencement de réseau neuronal capable de la reproduire.1
Les modèles de deep learning sont le plus souvent entraînés par un apprentissage supervisé sur des données étiquetées pour effectuer des tâches de régression et de classification. Mais comme les réseaux neuronaux à grande échelle nécessitent généralement une quantité massive de données d’entraînement pour atteindre des performances optimales, le coût et la main-d’œuvre nécessaires à l’acquisition de jeux de données suffisamment importants d’exemples d’entraînement annotés peuvent être exorbitants.
Cela a conduit au développement de techniques permettant de reproduire des tâches d’apprentissage supervisé à l’aide de données non étiquetées . Le terme d’apprentissage auto-supervisé a été inventé par Yann LeCun à la fin des années 2010 pour lever l’ambiguïté de ces méthodes de l’apprentissage non supervisé traditionnel. L’apprentissage auto-supervisé est depuis devenu un mode de formation prédominant pour les réseaux neuronaux, en particulier pour les modèles de fondation qui sous-tendent l’IA générative.
Bien que les réseaux neuronaux (ou concepts analogues) aient été introduits par les data scientists au début de l’histoire du machine learning, leur percée n’a véritablement commencé qu’à la fin des années 2000 et au début des années 2010.
L’avènement des réseaux de deep learning dans la plupart des sous-ensembles de machine learning a été rendu possible en partie par les progrès des unités de traitement graphique (GPU) hautes performances qui ont permis le traitement parallèle d’énormes quantités d’étapes de calcul.
Parce que le deep learning nécessite une puissance de calcul considérable à la fois pour l’entraînement et l’inférence, ces avancées matérielles ont considérablement augmenté la rapidité et la commodité de la mise en œuvre de modèles de deep learning à grande échelle.