L’apprentissage non supervisé, également connu sous le nom de machine learning non supervisé, utilise des algorithmes de machine learning (ML) pour analyser et regrouper des jeux de données non étiquetées. Ces algorithmes découvrent des modèles ou des groupes de données cachés sans intervention humaine.
La capacité de l’apprentissage non supervisé à découvrir des similitudes et des différences dans les informations le rend idéal pour l’analyse exploratoire des données, les stratégies de vente croisée, la segmentation de la clientèle et la reconnaissance d’images.
Les modèles d’apprentissage non supervisé sont employés pour trois tâches principales : le clustering, l’association et la réduction de la dimensionnalité. Nous définirons ci-dessous chaque méthode d’apprentissage et présenterons les algorithmes et approches couramment utilisés pour les mettre en œuvre efficacement.
Le partitionnement est une technique d’exploration de données qui regroupe des données non étiquetées en fonction de leurs similitudes ou de leurs différences. Les algorithmes de partitionnement sont utilisés pour traiter des objets de données bruts et non classés afin de les regrouper en structures ou en modèles représentatifs de l’information. Ces algorithmes peuvent être classés en plusieurs types, notamment exclusifs, superposés, hiérarchiques et probabilistes.
Le partitionnement exclusif est une forme de regroupement qui stipule qu’un point de données ne peut exister que dans un seul cluster (ou partition). On parle également de partitionnement « dur ». Le partitionnement en K-moyennes est un exemple courant de méthode de partitionnement exclusif où les points de données sont affectés à K groupes, K représentant le nombre de clusters basé sur la distance par rapport au centroïde de chaque groupe. Les points de données les plus proches d’un centroïde donné seront regroupés dans la même catégorie. Une valeur K plus élevée indiquera des regroupements plus petits et plus granulaires, tandis qu’une valeur K plus faible donnera des regroupements plus grands et moins granulaires. Le partitionnement en K-moyennes est fréquemment utilisé dans la segmentation de marché, le regroupement de documents, la segmentation d’images et la compression d’images.
Les clusters superposés diffèrent du partitionnement exclusif en ce qu’ils permettent aux points de données d’appartenir à plusieurs clusters avec des degrés d’appartenance distincts. Le partitionnement « doux » ou flou en K-moyennes est un exemple de partitionnement superposé.
Également appelé analyse hiérarchique des clusters (HCA), le partitionnement hiérarchique est un algorithme non supervisé qui peut être classé de deux manières : agglomératif ou divisif.
Le partitionnement agglomératif est considéré comme une « approche ascendante ». Ses points de données sont initialement isolés en groupes distincts, puis fusionnés de manière itérative sur la base de leur similarité jusqu’à obtenir un seul cluster. Quatre méthodes différentes sont couramment utilisées pour mesurer la similarité :
La distance euclidienne est l’indicateur le plus couramment utilisé pour calculer ces distances ; cependant, d’autres indicateurs, tels que la distance de Manhattan, sont également cités dans la littérature sur le partitionnement.
Le partitionnement divisif peut être défini comme l’opposé du partitionnement agglomératif ; il adopte plutôt une approche « descendante ». Dans ce cas, un seul cluster de données est divisé en fonction des différences entre les points de données. Le partitionnement divisif n’est pas couramment utilisé, mais il mérite néanmoins d’être cité dans le contexte du partitionnement hiérarchique. Ces processus de partitionnement sont généralement visualisés à l’aide d’un dendrogramme, un diagramme arborescent qui documente la fusion ou la division des points de données à chaque itération.
Un modèle probabiliste est une technique non supervisée qui nous aide à résoudre des problèmes d’estimation de densité ou de partitionnement « doux ». Dans le partitionnement probabiliste, les points de données sont regroupés en fonction de la probabilité qu’ils appartiennent à une distribution particulière. Le modèle de mélange gaussien (GMM) est l’une des méthodes de partitionnement probabiliste les plus fréquemment utilisées.
Une règle d’association est une méthode basée sur des règles permettant de trouver des relations entre des variables dans un jeu de données donné. Ces méthodes sont fréquemment employées pour l’analyse du panier d’achat, ce qui permet aux entreprises de mieux comprendre les relations entre différents produits. En comprenant les habitudes de consommation des clients, les entreprises peuvent développer de meilleures stratégies de vente croisée et des moteurs de recommandation plus efficaces. On peut en trouver des exemples dans la rubrique « Les clients qui ont acheté cet article ont également acheté » d’Amazon ou dans la playlist « Découvertes de la semaine » de Spotify. Bien qu’il existe plusieurs algorithmes différents pour générer des règles d’association, tels qu’Apriori, Eclat et FP-Growth, l’algorithme Apriori est le plus répandu.
Les algorithmes Apriori ont été popularisés par les analyses de panier d’achat, ce qui a conduit à la création de différents moteurs de recommandation pour les plateformes musicales et les détaillants en ligne. Ils sont employés dans les jeux de données transactionnels pour identifier les ensembles d’éléments fréquents, ou collections d’éléments, afin de déterminer la probabilité de consommer un produit étant donné la consommation d’un autre produit. Ainsi, si j’écoute la radio de Black Sabbath sur Spotify en commençant par leur chanson « Orchid », l’une des autres chansons de cette chaîne sera probablement une chanson de Led Zeppelin, telle que « Over the Hills and Far Away ». Cela repose sur mes habitudes d’écoute antérieures ainsi que sur celles d’autres personnes. Les algorithmes Apriori utilisent un arbre de hachage pour compter les ensembles d’éléments, en parcourant le jeu de données de manière exhaustive.
Si une quantité plus importante de données permet généralement d’obtenir des résultats plus précis, elle peut également avoir un impact sur les performances des algorithmes de machine learning (par exemple, le surajustement) et compliquer la visualisation des jeux de données. La réduction de la dimensionnalité est une technique employée lorsque le nombre de caractéristiques, ou dimensions, dans un jeu de données est trop élevé. Elle permet de réduire le nombre de données saisies à une taille gérable tout en préservant autant que possible l’intégrité du jeu de données. Elle est couramment utilisée lors de la phase de prétraitement des données, et il existe plusieurs méthodes de réduction de la dimensionnalité, telles que :
L’analyse en composantes principales (ACP) est un type d’algorithme de réduction de dimensionnalité employé pour réduire les redondances et compresser des jeux de données grâce à l’extraction de caractéristiques. Cette méthode a recours à une transformation linéaire pour créer une nouvelle représentation des données, produisant un ensemble de « composantes principales ». La première composante principale est la direction qui maximise la variance du jeu de données. Si la deuxième composante principale trouve également la variance maximale dans les données, elle n’est toutefois pas corrélée à la première composante principale, ce qui donne une direction perpendiculaire, ou orthogonale, à la première composante. Ce processus se répète en fonction du nombre de dimensions, la composante principale suivante étant la direction orthogonale aux composantes précédentes présentant la variance la plus élevée.
La décomposition en valeurs singulières (SVD) est une autre approche de réduction de la dimensionnalité qui factorise une matrice A en trois matrices de rang inférieur. La SVD est représentée par la formule A = USVT, où U et V sont des matrices orthogonales. S est une matrice diagonale et les valeurs S sont considérées comme les valeurs singulières de la matrice A. À l’instar de l’ACP, elle est courante pour réduire le bruit et compresser les données, telles que les fichiers image.
Les auto-encodeurs exploitent les réseaux de neurones pour compresser les données, puis recréer une nouvelle représentation des données d’entrée d’origine. En observant l’image ci-dessous, vous pouvez voir que la couche cachée agit spécifiquement comme un goulet d’étranglement pour compresser la couche d’entrée avant de la reconstruire dans la couche de sortie. L’étape allant de la couche d’entrée à la couche cachée est appelée « encodage », tandis que l’étape allant de la couche cachée à la couche de sortie est appelée « décodage ».
Les techniques de machine learning sont devenues une méthode courante pour améliorer l’expérience utilisateur d’un produit et tester les systèmes à des fins d’assurance qualité. L’apprentissage non supervisé offre une voie exploratoire pour visualiser les données, permettant aux entreprises d’identifier plus rapidement des modèles dans de grands volumes de données par rapport à l’observation manuelle. Voici quelques-unes des applications concrètes les plus courantes de l’apprentissage non supervisé :
L’apprentissage non supervisé et supervisé sont souvent abordés ensemble. Contrairement aux algorithmes d’apprentissage non supervisé, les algorithmes d’apprentissage supervisé exploitent des données étiquetées. À partir de ces données, ils prédisent les résultats futurs ou attribuent les données à des catégories spécifiques en fonction du problème de régression ou de classification qu’ils tentent de résoudre.
Si les algorithmes d’apprentissage supervisé ont tendance à être plus précis que ceux d’apprentissage non supervisé, ils exigent toutefois une intervention humaine préalable pour étiqueter correctement les données. Cependant, ces jeux de données étiquetés permettent aux algorithmes d’apprentissage supervisé d’éviter la complexité informatique, car ils n’ont pas besoin d’un ensemble d’entraînement volumineux pour produire les résultats escomptés. La régression linéaire et logistique, le modèle naïf de Bayes, l’algorithme KNN et la forêt d’arbres décisionnels sont des techniques courantes de régression et de classification.
L’apprentissage semi-supervisé se produit lorsque seule une partie des données d’entrée données a été étiquetée. Les apprentissages non supervisé et semi-supervisé peuvent être des alternatives plus attrayantes, car il peut être long et coûteux de s’appuyer sur l’expertise du domaine pour étiqueter les données de manière appropriée dans le cadre de l’apprentissage supervisé.
Pour une analyse approfondie des différences entre ces approches, consultez « Apprentissage supervisé et non supervisé : quelle est la différence ? »
Bien que l’apprentissage non supervisé présente de nombreux avantages, certains défis peuvent se poser lorsqu’il permet aux modèles de machine learning de fonctionner sans aucune intervention humaine. Voici quelques-uns de ces défis :