Qu'est-ce que l'apprentissage non supervisé ?

23 septembre 2021

Qu'est-ce que l'apprentissage non supervisé ?

L’apprentissage non supervisé, également connu sous le nom de machine learning non supervisé, utilise des algorithmes de machine learning (ML) pour analyser et regrouper des jeux de données non étiquetées. Ces algorithmes découvrent des modèles ou des groupes de données cachés sans intervention humaine.

La capacité de l’apprentissage non supervisé à découvrir des similitudes et des différences dans les informations le rend idéal pour l’analyse exploratoire des données, les stratégies de vente croisée, la segmentation de la clientèle et la reconnaissance d’images.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Approches courantes de l’apprentissage non supervisé

Les modèles d’apprentissage non supervisé sont employés pour trois tâches principales : le clustering, l’association et la réduction de la dimensionnalité. Nous définirons ci-dessous chaque méthode d’apprentissage et présenterons les algorithmes et approches couramment utilisés pour les mettre en œuvre efficacement.

Partitionnement

Le partitionnement est une technique d’exploration de données qui regroupe des données non étiquetées en fonction de leurs similitudes ou de leurs différences. Les algorithmes de partitionnement sont utilisés pour traiter des objets de données bruts et non classés afin de les regrouper en structures ou en modèles représentatifs de l’information. Ces algorithmes peuvent être classés en plusieurs types, notamment exclusifs, superposés, hiérarchiques et probabilistes.

Partitionnement exclusif et superposé

Le partitionnement exclusif est une forme de regroupement qui stipule qu’un point de données ne peut exister que dans un seul cluster (ou partition). On parle également de partitionnement « dur ». Le partitionnement en K-moyennes est un exemple courant de méthode de partitionnement exclusif où les points de données sont affectés à K groupes, K représentant le nombre de clusters basé sur la distance par rapport au centroïde de chaque groupe. Les points de données les plus proches d’un centroïde donné seront regroupés dans la même catégorie. Une valeur K plus élevée indiquera des regroupements plus petits et plus granulaires, tandis qu’une valeur K plus faible donnera des regroupements plus grands et moins granulaires. Le partitionnement en K-moyennes est fréquemment utilisé dans la segmentation de marché, le regroupement de documents, la segmentation d’images et la compression d’images.

Les clusters superposés diffèrent du partitionnement exclusif en ce qu’ils permettent aux points de données d’appartenir à plusieurs clusters avec des degrés d’appartenance distincts. Le partitionnement « doux » ou flou en K-moyennes est un exemple de partitionnement superposé.

Partitionnement hiérarchique

Également appelé analyse hiérarchique des clusters (HCA), le partitionnement hiérarchique est un algorithme non supervisé qui peut être classé de deux manières : agglomératif ou divisif.

Le partitionnement agglomératif est considéré comme une « approche ascendante ». Ses points de données sont initialement isolés en groupes distincts, puis fusionnés de manière itérative sur la base de leur similarité jusqu’à obtenir un seul cluster. Quatre méthodes différentes sont couramment utilisées pour mesurer la similarité :

  1. Méthode de liaison de Ward : elle stipule que la distance entre deux clusters est définie par l’augmentation de la somme des carrés après la fusion des clusters.

  2. Méthode de liaison moyenne : elle est définie par la distance moyenne entre deux points dans chaque cluster.

  3. Méthode de liaison complète (ou maximale) : elle est définie par la distance maximale entre deux points dans chaque cluster.

  4. Méthode de liaison simple (ou minimale) : elle est définie par la distance minimale entre deux points dans chaque cluster.

La distance euclidienne est l’indicateur le plus couramment utilisé pour calculer ces distances ; cependant, d’autres indicateurs, tels que la distance de Manhattan, sont également cités dans la littérature sur le partitionnement.

Le partitionnement divisif peut être défini comme l’opposé du partitionnement agglomératif ; il adopte plutôt une approche « descendante ». Dans ce cas, un seul cluster de données est divisé en fonction des différences entre les points de données. Le partitionnement divisif n’est pas couramment utilisé, mais il mérite néanmoins d’être cité dans le contexte du partitionnement hiérarchique. Ces processus de partitionnement sont généralement visualisés à l’aide d’un dendrogramme, un diagramme arborescent qui documente la fusion ou la division des points de données à chaque itération.

Partitionnement probabiliste

Un modèle probabiliste est une technique non supervisée qui nous aide à résoudre des problèmes d’estimation de densité ou de partitionnement « doux ». Dans le partitionnement probabiliste, les points de données sont regroupés en fonction de la probabilité qu’ils appartiennent à une distribution particulière. Le modèle de mélange gaussien (GMM) est l’une des méthodes de partitionnement probabiliste les plus fréquemment utilisées.

  • Les modèles de mélange gaussien sont classés comme des modèles de mélange, ce qui signifie qu’ils sont constitués d’un nombre indéterminé de fonctions de distribution de probabilité. Les GMM sont principalement employés pour déterminer à quelle distribution de probabilité gaussienne, ou normale, appartient un point de données spécifique. Si la moyenne ou la variance sont connues, nous pouvons alors savoir à quelle distribution appartient ce point de données. Cependant, dans les GMM, ces variables ne sont pas connues ; nous supposons donc qu’il existe une variable latente, ou cachée, pour regrouper les points de données de manière pertinente. Bien qu’il ne soit pas nécessaire de recourir à l’algorithme EM (espérance-maximisation), celui-ci est couramment utilisé pour estimer les probabilités d’affectation d’un point de données donné à un cluster de données particulier.

Règles d’association

Une règle d’association est une méthode basée sur des règles permettant de trouver des relations entre des variables dans un jeu de données donné. Ces méthodes sont fréquemment employées pour l’analyse du panier d’achat, ce qui permet aux entreprises de mieux comprendre les relations entre différents produits. En comprenant les habitudes de consommation des clients, les entreprises peuvent développer de meilleures stratégies de vente croisée et des moteurs de recommandation plus efficaces. On peut en trouver des exemples dans la rubrique « Les clients qui ont acheté cet article ont également acheté » d’Amazon ou dans la playlist « Découvertes de la semaine » de Spotify. Bien qu’il existe plusieurs algorithmes différents pour générer des règles d’association, tels qu’Apriori, Eclat et FP-Growth, l’algorithme Apriori est le plus répandu.

Algorithmes Apriori

Les algorithmes Apriori ont été popularisés par les analyses de panier d’achat, ce qui a conduit à la création de différents moteurs de recommandation pour les plateformes musicales et les détaillants en ligne. Ils sont employés dans les jeux de données transactionnels pour identifier les ensembles d’éléments fréquents, ou collections d’éléments, afin de déterminer la probabilité de consommer un produit étant donné la consommation d’un autre produit. Ainsi, si j’écoute la radio de Black Sabbath sur Spotify en commençant par leur chanson « Orchid », l’une des autres chansons de cette chaîne sera probablement une chanson de Led Zeppelin, telle que « Over the Hills and Far Away ». Cela repose sur mes habitudes d’écoute antérieures ainsi que sur celles d’autres personnes. Les algorithmes Apriori utilisent un arbre de hachage pour compter les ensembles d’éléments, en parcourant le jeu de données de manière exhaustive.

Réduction de la dimensionnalité

Si une quantité plus importante de données permet généralement d’obtenir des résultats plus précis, elle peut également avoir un impact sur les performances des algorithmes de machine learning (par exemple, le surajustement) et compliquer la visualisation des jeux de données. La réduction de la dimensionnalité est une technique employée lorsque le nombre de caractéristiques, ou dimensions, dans un jeu de données est trop élevé. Elle permet de réduire le nombre de données saisies à une taille gérable tout en préservant autant que possible l’intégrité du jeu de données. Elle est couramment utilisée lors de la phase de prétraitement des données, et il existe plusieurs méthodes de réduction de la dimensionnalité, telles que :

Analyse en composantes principales

L’analyse en composantes principales (ACP) est un type d’algorithme de réduction de dimensionnalité employé pour réduire les redondances et compresser des jeux de données grâce à l’extraction de caractéristiques. Cette méthode a recours à une transformation linéaire pour créer une nouvelle représentation des données, produisant un ensemble de « composantes principales ». La première composante principale est la direction qui maximise la variance du jeu de données. Si la deuxième composante principale trouve également la variance maximale dans les données, elle n’est toutefois pas corrélée à la première composante principale, ce qui donne une direction perpendiculaire, ou orthogonale, à la première composante. Ce processus se répète en fonction du nombre de dimensions, la composante principale suivante étant la direction orthogonale aux composantes précédentes présentant la variance la plus élevée.

Décomposition en valeurs singulières

La décomposition en valeurs singulières (SVD) est une autre approche de réduction de la dimensionnalité qui factorise une matrice A en trois matrices de rang inférieur. La SVD est représentée par la formule A = USVT, où U et V sont des matrices orthogonales. S est une matrice diagonale et les valeurs S sont considérées comme les valeurs singulières de la matrice A. À l’instar de l’ACP, elle est courante pour réduire le bruit et compresser les données, telles que les fichiers image.

Auto-encodeurs

Les auto-encodeurs exploitent les réseaux de neurones pour compresser les données, puis recréer une nouvelle représentation des données d’entrée d’origine. En observant l’image ci-dessous, vous pouvez voir que la couche cachée agit spécifiquement comme un goulet d’étranglement pour compresser la couche d’entrée avant de la reconstruire dans la couche de sortie. L’étape allant de la couche d’entrée à la couche cachée est appelée « encodage », tandis que l’étape allant de la couche cachée à la couche de sortie est appelée « décodage ».

Champs d’application de l’apprentissage non supervisé

Les techniques de machine learning sont devenues une méthode courante pour améliorer l’expérience utilisateur d’un produit et tester les systèmes à des fins d’assurance qualité. L’apprentissage non supervisé offre une voie exploratoire pour visualiser les données, permettant aux entreprises d’identifier plus rapidement des modèles dans de grands volumes de données par rapport à l’observation manuelle. Voici quelques-unes des applications concrètes les plus courantes de l’apprentissage non supervisé :

  • Rubriques d’actualités : Google Actualités utilise l’apprentissage non supervisé pour classer les articles traitant d’un même sujet provenant de différentes sources en ligne. Par exemple, les résultats d’une élection présidentielle peuvent être classés dans la rubrique « Actualités américaines ».

  • Vision par ordinateur : les algorithmes d’apprentissage non supervisé sont employés pour des tâches de perception visuelle, telles que la reconnaissance d’objets.

  • Imagerie médicale : le machine learning non supervisé fournit des fonctionnalités essentielles aux appareils d’imagerie médicale, telles que la détection, la classification et la segmentation d’images, utilisées en radiologie et en pathologie pour diagnostiquer rapidement et précisément les patients.

  • Détection des anomalies : les modèles d’apprentissage non supervisé peuvent passer au peigne fin de grandes quantités de données historiques et découvrir des points de données atypiques au sein d’un jeu de données. La détection de ces anomalies peut révéler des équipements défectueux, des erreurs humaines ou des failles dans les mécanismes de sécurité.

  • Profils clients : la définition de profils clients facilite la compréhension des traits communs et des habitudes d’achat des clients professionnels. L’apprentissage non supervisé permet aux entreprises de créer de meilleurs profils d’acheteurs, ce qui leur permet d’adapter plus efficacement leur message produit.

  • Moteurs de recommandation : en utilisant les données sur les comportements de consommation passés, l’apprentissage non supervisé peut permettre de découvrir des tendances de données qui peuvent être utilisées pour définir des stratégies de vente croisée plus efficaces. Les détaillants en ligne s’en servent pour recommander des produits complémentaires pertinents à leurs clients au cours du processus de paiement.
Mixture of Experts | 25 avril, épisode 52

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Apprentissage non supervisé, supervisé et semi-supervisé

L’apprentissage non supervisé et supervisé sont souvent abordés ensemble. Contrairement aux algorithmes d’apprentissage non supervisé, les algorithmes d’apprentissage supervisé exploitent des données étiquetées. À partir de ces données, ils prédisent les résultats futurs ou attribuent les données à des catégories spécifiques en fonction du problème de régression ou de classification qu’ils tentent de résoudre.

Si les algorithmes d’apprentissage supervisé ont tendance à être plus précis que ceux d’apprentissage non supervisé, ils exigent toutefois une intervention humaine préalable pour étiqueter correctement les données. Cependant, ces jeux de données étiquetés permettent aux algorithmes d’apprentissage supervisé d’éviter la complexité informatique, car ils n’ont pas besoin d’un ensemble d’entraînement volumineux pour produire les résultats escomptés. La régression linéaire et logistique, le modèle naïf de Bayes, l’algorithme KNN et la forêt d’arbres décisionnels sont des techniques courantes de régression et de classification.

L’apprentissage semi-supervisé se produit lorsque seule une partie des données d’entrée données a été étiquetée. Les apprentissages non supervisé et semi-supervisé peuvent être des alternatives plus attrayantes, car il peut être long et coûteux de s’appuyer sur l’expertise du domaine pour étiqueter les données de manière appropriée dans le cadre de l’apprentissage supervisé.

Pour une analyse approfondie des différences entre ces approches, consultez « Apprentissage supervisé et non supervisé : quelle est la différence ? »

Les défis de l’apprentissage non supervisé

Bien que l’apprentissage non supervisé présente de nombreux avantages, certains défis peuvent se poser lorsqu’il permet aux modèles de machine learning de fonctionner sans aucune intervention humaine. Voici quelques-uns de ces défis :

  • Complexité informatique due au volume élevé des données d’entraînement

  • Des temps d’entraînement plus longs

  • Risque accru de résultats inexacts

  • Intervention humaine pour valider les variables de sortie

  • Manque de transparence quant à la base sur laquelle les données ont été regroupées
Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct