L'apprentissage non supervisé, ou apprentissage automatique non supervisé, utilise des algorithmes d'apprentissage automatique pour analyser et regrouper des jeux de données non étiquetés. Ces algorithmes découvrent des modèles cachés ou des groupements de données sans nécessiter d'intervention humaine. Sa capacité à découvrir les similitudes et les différences d'informations en fait la solution idéale pour l'analyse d'exploration des données, les stratégies de vente croisée, la segmentation de la clientèle et la reconnaissance d'images.
Les modèles d'apprentissage non supervisé sont utilisés pour trois tâches principales : la classification, l'association et la réduction de la dimensionnalité. Nous définirons ci-dessous chaque méthode d'apprentissage et mettrons en évidence les algorithmes communs et les approches permettant de les mener efficacement.
La classification est une technique d'exploration de données qui regroupe des données non étiquetées en fonction de leurs similitudes ou de leurs différences. Les algorithmes de classification sont utilisés pour traiter des objets de données bruts et non classés en groupes représentés par des structures ou des modèles dans les informations. On peut les classer en plusieurs types : exclusive, chevauchante, hiérarchique et probabiliste.
La classification exclusive est une forme de groupement qui stipule qu'un point de données ne peut exister que dans un seul groupe. On parle également de classification « dure ». L'algorithme de classification K-means ou (K-moyennes) est un exemple de classification exclusive.
Les classifications chevauchantes diffèrent de la classification exclusive en ce qu'elles permettent aux points de données d'appartenir à plusieurs groupes avec des degrés d'appartenance différents. La classification K-means « douce » ou « floue » est un exemple de classification chevauchante.
La classification hiérarchique, ou classification ascendante hiérarchique (CAH), est un algorithme de classification non supervisée qui peut être agglomérative ou divisive. La classification agglomérative est considérée comme une « approche ascendante ». Ses points de données sont initialement isolés en tant que groupements séparés, puis ils sont fusionnés de manière itérative sur la base de la similitude jusqu'à ce qu'un groupe soit atteint. Quatre méthodes différentes sont couramment utilisées pour mesurer la similarité :
La distance euclidienne est l'unité de mesure la plus couramment utilisée pour calculer ces distances, cependant, d'autres unités de mesure, telles que la distance de Manhattan, sont également citées dans les publications spécialisées.
La classification divisive peut être définie comme l'opposé de la classification agglomérative. Elle adopte une approche « descendante ». Dans ce cas, un seul cluster de données est divisé en fonction des différences entre les points de données. La classification divisive n'est pas utilisée de manière courante, mais elle mérite tout de même d'être mentionnée dans le contexte de la classification hiérarchique. Ces processus de classification sont généralement visualisés à l'aide d'un dendrogramme, un diagramme en forme d'arbre qui documente la fusion ou la division des points de données à chaque itération.
Un modèle probabiliste est une technique non supervisée qui nous aide à résoudre des problèmes d'estimation de densité ou de classification « floue ». Dans la classification probabiliste, les points de données sont regroupés en fonction de la probabilité qu'ils appartiennent à une distribution particulière. Le modèle de mélange gaussien (GMM) est l'une des méthodes de classement probabiliste les plus couramment utilisées.
Une règle d'association est une méthode basée sur des règles qui permet de trouver des relations entre des variables dans un jeu de données. Cette méthode est fréquemment utilisée pour l'analyse du panier de consommation pour permettre aux entreprises de mieux comprendre les relations entre les différents produits. La compréhension des habitudes de consommation des clients permet aux entreprises de développer de meilleures stratégies de vente croisée et des moteurs de recommandation plus performants. La liste de lecture « Les clients ayant acheté cet article ont également acheté » d'Amazon ou « Discover Weekly » de Spotify en sont de bons exemples. Bien que plusieurs algorithmes permettent de générer des règles d'association, comme Apriori, Eclat et FP-Growth, l'algorithme Apriori est le plus largement utilisé.
Les algorithmes Apriori ont été popularisés grâce à des analyses de paniers, conduisant à différents moteurs de recommandation pour les plateformes musicales et les détaillants en ligne. Ils sont utilisés dans des jeux de données transactionnels pour identifier des ensembles d'articles fréquents, ou des collections d'articles, afin d'identifier la probabilité de consommer un produit compte tenu de la consommation d'un autre produit. Par exemple, si j'écoute Black Sabbath sur Spotify, en commençant par la chanson « Orchid », l'une des autres chansons de cette liste sera probablement une chanson de Led Zeppelin, comme « Over the Hills and Far Away ». Ceci est basé sur mes habitudes d'écoute antérieures ainsi que celles d'autres personnes. Les algorithmes Apriori utilisent un arbre de hachage pour compter les jeux d'éléments, en naviguant dans le jeu de données comme un algorithme de parcours en largeur.
Bien que plus de données donnent généralement des résultats plus précis, cela peut également avoir un impact sur les performances des algorithmes d'apprentissage automatique (par exemple, le surajustement) et cela peut également rendre difficile la visualisation des jeux de données. La réduction de la dimensionnalité est une technique utilisée lorsque le nombre d'entités, ou dimensions, dans un jeu de données défini est trop élevé. Il réduit le nombre d'entrées de données à une taille gérable tout en préservant autant que possible l'intégrité du jeu de données. Il est couramment utilisé dans l'étape de pré-traitement des données, et il existe différentes méthodes de réduction de la dimensionnalité qui peuvent être utilisées, à savoir :
L'analyse en composantes principales (ACP) est un type d'algorithme de réduction de dimensionnalité utilisé pour réduire les redondances et compresser les jeux de données via l'extraction des caractéristiques. Cette méthode utilise une transformation linéaire pour créer une nouvelle représentation des données et produire un ensemble de « composantes principales ». La première composante principale est la direction qui maximise la variance du jeu de données. Bien que la deuxième composante principale trouve également la variance maximale dans les données, elle est totalement décorrélée de la première composante principale, ce qui donne une direction perpendiculaire, ou orthogonale, à la première composante. Ce processus se répète en fonction du nombre de dimensions, où la composante principale suivante est la direction orthogonale aux composantes précédentes avec le plus de variance.
La décomposition en valeurs singulières (DVS) est une autre approche de réduction de dimensionnalité qui factorise une matrice, A, en trois matrices de bas rang. Elle est désignée par la formule A = USVT, où U et V sont des matrices orthogonales. S est une matrice diagonale et les valeurs S sont considérées comme des valeurs singulières de la matrice A. Comme l'ACP, elle est couramment utilisée pour réduire le bruit et compresser des données, telles que des fichiers d'image.
Les autoencodeurs exploitent les réseaux de neurones pour compresser les données, puis recréer une nouvelle représentation de l'entrée des données d'origine. En regardant l'image ci-dessous, vous pouvez voir que la couche cachée agit spécifiquement comme un goulot d'étranglement pour compresser la couche d'entrée avant de reconstruire dans la couche de sortie. L'étape allant de la couche d'entrée à la couche cachée est appelée « codage », tandis que l'étape allant de la couche cachée à la couche de sortie est appelée « décodage ».
Les techniques d'apprentissage automatique sont devenues une méthode courante pour améliorer l'expérience utilisateur d'un produit et pour tester les systèmes d'assurance qualité. L'apprentissage non supervisé fournit un chemin exploratoire pour visualiser les données et permet aux entreprises d'identifier des modèles dans de grands volumes de données plus rapidement par rapport à l'observation manuelle. Vous trouverez ci-dessous quelques-unes des applications les plus courantes de l'apprentissage non supervisé dans le monde réel :
L'apprentissage non supervisé et l'apprentissage supervisé sont souvent abordés ensemble. Contrairement aux algorithmes d'apprentissage non supervisé, les algorithmes d'apprentissage supervisé utilisent des données étiquetées. À partir de ces données, ils prédisent les résultats futurs ou attribuent des données à des catégories spécifiques en fonction du problème de régression ou de classification qu'ils essaient de résoudre. Alors que les algorithmes d'apprentissage supervisé ont tendance à être plus précis que les modèles d'apprentissage non supervisé, ils nécessitent une intervention humaine préalable pour étiqueter les données de manière appropriée. Cependant, ces ensembles de données étiquetés permettent aux algorithmes d'apprentissage supervisé d'éviter la complexité de calcul, car ils n'ont pas besoin d'un grand jeu d'entraînement pour produire les résultats escomptés. Les techniques courantes de régression et de classification sont la régression linéaire et logistique, les classifieurs bayésiens naïfs, l'algorithme KNN (algorithme des K plus proches voisins) et la forêt aléatoire.
L'apprentissage semi-supervisé se produit lorsque seule une partie des données d'entrée définies a été étiquetée. L'apprentissage non supervisé et semi-supervisé peut être une alternative plus attrayante car le recours à des spécialistes pour étiqueter les données de manière appropriée dans le cadre de l'apprentissage supervisé peut être long et coûteux.
Pour une analyse approfondie des différentes approches, consultez la page « Différence entre l'apprentissage supervisé et l'apprentissage non supervisé ».
Bien que l'apprentissage non supervisé présente de nombreux avantages, certains défis peuvent survenir lorsqu'il permet aux modèles d'apprentissage automatique de s'exécuter sans aucune intervention humaine. Voici certains de ces défis :
Créez et développez une IA fiable dans n'importe quel type de cloud. Automatisez le cycle de vie de l'IA pour ModelOps.
Connectez les bonnes données aux bonnes personnes, au bon moment et en tout lieu.
Hybride. Ouvert. Résilient. Votre plateforme et partenaire pour la transformation numérique.
Explorez les bases de l'approche supervisée et de l'approche non supervisée de la science des données. Découvrez l'approche qui convient le mieux à votre situation.
Découvrez les trois catégories d'algorithmes : apprentissage supervisé, non supervisé et par renforcement. Découvrez les idées qui se cachent derrière et les principaux algorithmes utilisés pour chacune d'elles.