Qu'est-ce que l'apprentissage non supervisé ?

L'apprentissage non supervisé, ou apprentissage automatique non supervisé, utilise des algorithmes d'apprentissage automatique pour analyser et regrouper des jeux de données non étiquetés. Ces algorithmes découvrent des modèles cachés ou des groupements de données sans nécessiter d'intervention humaine. Sa capacité à découvrir les similitudes et les différences d'informations en fait la solution idéale pour l'analyse d'exploration des données, les stratégies de vente croisée, la segmentation de la clientèle et la reconnaissance d'images.

Approches courantes de l'apprentissage non supervisé

Les modèles d'apprentissage non supervisé sont utilisés pour trois tâches principales : la classification, l'association et la réduction de la dimensionnalité. Nous définirons ci-dessous chaque méthode d'apprentissage et mettrons en évidence les algorithmes communs et les approches permettant de les mener efficacement.

La classification

La classification est une technique d'exploration de données qui regroupe des données non étiquetées en fonction de leurs similitudes ou de leurs différences. Les algorithmes de classification sont utilisés pour traiter des objets de données bruts et non classés en groupes représentés par des structures ou des modèles dans les informations. On peut les classer en plusieurs types : exclusive, chevauchante, hiérarchique et probabiliste.

Classification exclusive et chevauchante

La classification exclusive est une forme de groupement qui stipule qu'un point de données ne peut exister que dans un seul groupe. On parle également de classification « dure ». L'algorithme de classification K-means ou (K-moyennes) est un exemple de classification exclusive.

La classification K-means est un exemple courant de méthode de classification exclusive où les points de données sont répartis en K groupes, où K représente le nombre de groupes selon la distance par rapport au centroïde de chaque groupe. Les points de données les plus proches d'un centroïde donné seront regroupés dans la même catégorie. Une valeur K plus élevée indiquera des groupements plus petits avec plus de granularité alors qu'une valeur K plus petite aura des groupements plus grands et moins de granularité. La classification K-means ou K-moyennes est communément utilisée dans la segmentation du marché, la classification de documents, la segmentation d'images et la compression d'images.

Les classifications chevauchantes diffèrent de la classification exclusive en ce qu'elles permettent aux points de données d'appartenir à plusieurs groupes avec des degrés d'appartenance différents. La classification K-means « douce » ou « floue » est un exemple de classification chevauchante.

Classification hiérarchique

La classification hiérarchique, ou classification ascendante hiérarchique (CAH), est un algorithme de classification non supervisée qui peut être agglomérative ou divisive. La classification agglomérative est considérée comme une « approche ascendante ». Ses points de données sont initialement isolés en tant que groupements séparés, puis ils sont fusionnés de manière itérative sur la base de la similitude jusqu'à ce qu'un groupe soit atteint. Quatre méthodes différentes sont couramment utilisées pour mesurer la similarité :

Liaison de Ward : Cette méthode indique que la distance entre deux clusters est définie par l'augmentation de la somme des carrés après la fusion des groupes
Liaison moyenne : Cette méthode est définie par la distance moyenne entre deux points dans chaque groupe
Liaison complète (ou maximale) : Cette méthode est définie par la distance maximale entre deux points dans chaque groupe
Liaison simple (ou minimale) : Cette méthode est définie par la distance minimale entre deux points dans chaque groupe

La distance euclidienne est l'unité de mesure la plus couramment utilisée pour calculer ces distances, cependant, d'autres unités de mesure, telles que la distance de Manhattan, sont également citées dans les publications spécialisées.

La classification divisive peut être définie comme l'opposé de la classification agglomérative. Elle adopte une approche « descendante ». Dans ce cas, un seul cluster de données est divisé en fonction des différences entre les points de données. La classification divisive n'est pas utilisée de manière courante, mais elle mérite tout de même d'être mentionnée dans le contexte de la classification hiérarchique. Ces processus de classification sont généralement visualisés à l'aide d'un dendrogramme, un diagramme en forme d'arbre qui documente la fusion ou la division des points de données à chaque itération.

Classification probabiliste

Un modèle probabiliste est une technique non supervisée qui nous aide à résoudre des problèmes d'estimation de densité ou de classification « floue ». Dans la classification probabiliste, les points de données sont regroupés en fonction de la probabilité qu'ils appartiennent à une distribution particulière. Le modèle de mélange gaussien (GMM) est l'une des méthodes de classement probabiliste les plus couramment utilisées.

Les modèles de mélange gaussien sont classés comme modèles de mélange, ce qui signifie qu'ils sont constitués d'un nombre non spécifié de fonctions de distribution de probabilité. Ils sont principalement exploités pour déterminer à quelle distribution de probabilité gaussienne ou normale un point de données défini appartient. Si la moyenne ou la variance sont connus, nous pouvons alors déterminer à quelle distribution appartient un point de données défini. Cependant, dans les modèles de mélange gaussien, ces variables ne sont pas connues, nous supposons donc qu'une variable latente ou cachée existe pour regrouper les points de données de manière appropriée. Bien qu'il ne soit pas obligatoire d'utiliser l'algorithme de maximisation des attentes (EM), il est couramment utilisé pour estimer les probabilités d'affectation d'un point de données défini à un groupe de données particulier.

Règles d'association

Une règle d'association est une méthode basée sur des règles qui permet de trouver des relations entre des variables dans un jeu de données. Cette méthode est fréquemment utilisée pour l'analyse du panier de consommation pour permettre aux entreprises de mieux comprendre les relations entre les différents produits. La compréhension des habitudes de consommation des clients permet aux entreprises de développer de meilleures stratégies de vente croisée et des moteurs de recommandation plus performants. La liste de lecture « Les clients ayant acheté cet article ont également acheté » d'Amazon ou « Discover Weekly » de Spotify en sont de bons exemples. Bien que plusieurs algorithmes permettent de générer des règles d'association, comme Apriori, Eclat et FP-Growth, l'algorithme Apriori est le plus largement utilisé.

Algorithmes Apriori

Les algorithmes Apriori ont été popularisés grâce à des analyses de paniers, conduisant à différents moteurs de recommandation pour les plateformes musicales et les détaillants en ligne. Ils sont utilisés dans des jeux de données transactionnels pour identifier des ensembles d'articles fréquents, ou des collections d'articles, afin d'identifier la probabilité de consommer un produit compte tenu de la consommation d'un autre produit. Par exemple, si j'écoute Black Sabbath sur Spotify, en commençant par la chanson « Orchid », l'une des autres chansons de cette liste sera probablement une chanson de Led Zeppelin, comme « Over the Hills and Far Away ». Ceci est basé sur mes habitudes d'écoute antérieures ainsi que celles d'autres personnes. Les algorithmes Apriori utilisent un arbre de hachage pour compter les jeux d'éléments, en naviguant dans le jeu de données comme un algorithme de parcours en largeur.

Réduction de la dimensionnalité

Bien que plus de données donnent généralement des résultats plus précis, cela peut également avoir un impact sur les performances des algorithmes d'apprentissage automatique (par exemple, le surajustement) et cela peut également rendre difficile la visualisation des jeux de données. La réduction de la dimensionnalité est une technique utilisée lorsque le nombre d'entités, ou dimensions, dans un jeu de données défini est trop élevé. Il réduit le nombre d'entrées de données à une taille gérable tout en préservant autant que possible l'intégrité du jeu de données. Il est couramment utilisé dans l'étape de pré-traitement des données, et il existe différentes méthodes de réduction de la dimensionnalité qui peuvent être utilisées, à savoir :

L'analyse en composantes principales

L'analyse en composantes principales (ACP) est un type d'algorithme de réduction de dimensionnalité utilisé pour réduire les redondances et compresser les jeux de données via l'extraction des caractéristiques. Cette méthode utilise une transformation linéaire pour créer une nouvelle représentation des données et produire un ensemble de « composantes principales ». La première composante principale est la direction qui maximise la variance du jeu de données. Bien que la deuxième composante principale trouve également la variance maximale dans les données, elle est totalement décorrélée de la première composante principale, ce qui donne une direction perpendiculaire, ou orthogonale, à la première composante. Ce processus se répète en fonction du nombre de dimensions, où la composante principale suivante est la direction orthogonale aux composantes précédentes avec le plus de variance.

Décomposition en valeurs singulières

La décomposition en valeurs singulières (DVS) est une autre approche de réduction de dimensionnalité qui factorise une matrice, A, en trois matrices de bas rang. Elle est désignée par la formule A = USVT, où U et V sont des matrices orthogonales. S est une matrice diagonale et les valeurs S sont considérées comme des valeurs singulières de la matrice A. Comme l'ACP, elle est couramment utilisée pour réduire le bruit et compresser des données, telles que des fichiers d'image.

Autoencodeurs

Les autoencodeurs exploitent les réseaux de neurones pour compresser les données, puis recréer une nouvelle représentation de l'entrée des données d'origine. En regardant l'image ci-dessous, vous pouvez voir que la couche cachée agit spécifiquement comme un goulot d'étranglement pour compresser la couche d'entrée avant de reconstruire dans la couche de sortie. L'étape allant de la couche d'entrée à la couche cachée est appelée « codage », tandis que l'étape allant de la couche cachée à la couche de sortie est appelée « décodage ».

Applications de l'apprentissage non supervisé

Les techniques d'apprentissage automatique sont devenues une méthode courante pour améliorer l'expérience utilisateur d'un produit et pour tester les systèmes d'assurance qualité. L'apprentissage non supervisé fournit un chemin exploratoire pour visualiser les données et permet aux entreprises d'identifier des modèles dans de grands volumes de données plus rapidement par rapport à l'observation manuelle. Vous trouverez ci-dessous quelques-unes des applications les plus courantes de l'apprentissage non supervisé dans le monde réel :

Rubriques actualités : Google Actualités utilise l'apprentissage non supervisé pour classer les articles traitant d'un même sujet dans différents médias en ligne. Par exemple, les résultats d'une élection présidentielle pourraient être classés sous l'étiquette des actualités « américaines »
Vision par ordinateur : Des algorithmes d'apprentissage non supervisé sont utilisés pour les tâches de perception visuelle, telles que la reconnaissance d'objets.
L'imagerie médicale : L'apprentissage automatique non supervisé fournit des fonctionnalités essentielles aux dispositifs d'imagerie médicale, telles que la détection, la classification et la segmentation d'images, utilisées en radiologie et en pathologie pour diagnostiquer les patients rapidement et avec précision.
Détection des anomalies : Les modèles d'apprentissage non supervisé peuvent analyser de grandes quantités de données et découvrir des points de données atypiques dans un jeu de données. Ces anomalies peuvent attirer l'attention sur un équipement défectueux, une erreur humaine ou des failles de sécurité.
Profil d'acheteur : Définir un profil d'acheteur permet de mieux comprendre les traits communs et les habitudes d'achat des clients. L'apprentissage non supervisé permet aux entreprises de créer de meilleurs profils afin d'aligner leurs messages sur les produits de manière plus appropriée.
Moteurs de recommandations : En utilisant des données de comportement d'achat passées, l'apprentissage non supervisé peut aider à découvrir les tendances des données qui peuvent être utilisées pour développer des stratégies de vente croisée plus efficaces. Les enseignes en ligne s'en servent pour faire des recommandations pertinentes de produits complémentaires aux clients lors du processus de paiement.

Différence entre l'apprentissage non supervisé, supervisé et semi-supervisé

L'apprentissage non supervisé et l'apprentissage supervisé sont souvent abordés ensemble. Contrairement aux algorithmes d'apprentissage non supervisé, les algorithmes d'apprentissage supervisé utilisent des données étiquetées. À partir de ces données, ils prédisent les résultats futurs ou attribuent des données à des catégories spécifiques en fonction du problème de régression ou de classification qu'ils essaient de résoudre. Alors que les algorithmes d'apprentissage supervisé ont tendance à être plus précis que les modèles d'apprentissage non supervisé, ils nécessitent une intervention humaine préalable pour étiqueter les données de manière appropriée. Cependant, ces ensembles de données étiquetés permettent aux algorithmes d'apprentissage supervisé d'éviter la complexité de calcul, car ils n'ont pas besoin d'un grand jeu d'entraînement pour produire les résultats escomptés. Les techniques courantes de régression et de classification sont la régression linéaire et logistique, les classifieurs bayésiens naïfs, l'algorithme KNN (algorithme des K plus proches voisins) et la forêt aléatoire.

L'apprentissage semi-supervisé se produit lorsque seule une partie des données d'entrée définies a été étiquetée. L'apprentissage non supervisé et semi-supervisé peut être une alternative plus attrayante car le recours à des spécialistes pour étiqueter les données de manière appropriée dans le cadre de l'apprentissage supervisé peut être long et coûteux.

Pour une analyse approfondie des différentes approches, consultez la page « Différence entre l'apprentissage supervisé et l'apprentissage non supervisé ».

Défis de l'apprentissage non supervisé

Bien que l'apprentissage non supervisé présente de nombreux avantages, certains défis peuvent survenir lorsqu'il permet aux modèles d'apprentissage automatique de s'exécuter sans aucune intervention humaine. Voici certains de ces défis :

La complexité de calcul due à un volume élevé de données d'entraînement
Des temps d'entraînement plus longs
Un risque plus élevé de résultats inexacts
Une intervention humaine pour valider les variables de sortie
Manque de transparence sur la base sur laquelle les données ont été regroupées

Solutions connexes

IBM® Watson Studio

Créez et développez une IA fiable dans n'importe quel type de cloud. Automatisez le cycle de vie de l'IA pour ModelOps.

Explorer IBM Watson® Studio

IBM Cloud Pak® for Data

Connectez les bonnes données aux bonnes personnes, au bon moment et en tout lieu.

Explorer Cloud Pak for Data

Solutions IBM Cloud

Hybride. Ouvert. Résilient. Votre plateforme et partenaire pour la transformation numérique.

Explorer les solutions cloud

Ressources

Différence entre l'apprentissage supervisé et non supervisé

Explorez les bases de l'approche supervisée et de l'approche non supervisée de la science des données. Découvrez l'approche qui convient le mieux à votre situation.

Les trois modèles d'apprentissage automatique

Découvrez les trois catégories d'algorithmes : apprentissage supervisé, non supervisé et par renforcement. Découvrez les idées qui se cachent derrière et les principaux algorithmes utilisés pour chacune d'elles.

Pour aller plus loin

Les modèles d'apprentissage automatique non supervisé sont des outils puissants lorsque vous travaillez avec de grandes quantités de données.IBM Watson Studio sur IBM Cloud Pak for Data offre une solution open source pour les spécialistes des données et les développeurs qui cherchent à accélérer leurs déploiements d'apprentissage automatique non supervisés. Faites évoluer vos modèles d'apprentissage dans n'importe quel environnement cloud et bénéficiez des ressources et de l'expertise d'IBM pour tirer le meilleur parti de vos modèles d'apprentissage automatique non supervisés.

Explorer IBM Watson® Studio maintenant