Apprentissage supervisé et non supervisé : quelle différence ?

Fractale ressemblant à une synapse avec de nombreuses terminaisons neuronales

Auteur

Julianna Delua

SME, IBM Analytics, Data Science/Machine Learning

Le monde devient chaque jour « plus intelligent », et pour répondre aux attentes des consommateurs, les entreprises utilisent de plus en plus d’algorithmes de machine learning pour leur faciliter la vie. Vous pouvez les voir utilisés sur les appareils des utilisateurs finaux (grâce à la reconnaissance faciale pour déverrouiller les smartphones) ou pour détecter les fraudes à la carte de crédit (en déclenchant des alertes pour les achats inhabituels).

En matière d’intelligence artificielle (IA) et de machine learning, il existe deux approches fondamentales : l’apprentissage supervisé et l’apprentissage non supervisé. La principale différence réside dans le fait que l’un d’eux utilise des données étiquetées pour prédire les résultats, contrairement à l’autre. Il existe cependant quelques nuances entre les deux approches, et des domaines clés dans lesquels l’une d’entre elles surpasse l’autre. Cet article vous explique les différences pour vous permettre de choisir l’approche la mieux adaptée à votre situation.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Qu'est-ce que l'apprentissage supervisé ?

L'apprentissage supervisé est une approche de machine learning qui se définit par l'utilisation d'ensembles de données étiquetés. Ces jeux de données sont conçus pour entraîner ou « superviser » les algorithmes afin qu’ils classifient les données ou prédisent les résultats avec précision. À l'aide d'entrées et de sorties étiquetées, le modèle peut mesurer sa précision et apprendre au fil du temps.

L’apprentissage supervisé permet de traiter deux types de problèmes lors du data mining : la classification et la régression :

  • Les problèmes de classification utilisent un algorithme pour assigner avec précision les données de test dans des catégories spécifiques, par exemple pour séparer les pommes des oranges. Ou, dans le monde réel, des algorithmes d'apprentissage supervisé peuvent être utilisés pour classer les spams dans un dossier distinct de votre boîte de réception. Les classificateurs linéaires, les machines à vecteurs de support, les arbres de décision et la forêt d’arbres décisionnels sont tous des types courants d’algorithmes de classification.

  • La régression est un autre type de méthode d’apprentissage supervisé qui utilise un algorithme pour comprendre la relation entre les variables dépendantes et indépendantes. Les modèles de régression permettent de prédire des valeurs numériques basées sur différents points de données, telles que les projections du chiffre d’affaires pour une entreprise donnée. Parmi les algorithmes de régression populaires, citons la régression linéaire, la régression logistique et la régression polynomiale.
AI Academy

Exploiter l’IA pour le service client

Découvrez comment l’IA générative peut ravir les clients avec une expérience plus transparente et augmenter la productivité de l’organisation dans ces trois domaines clés : le libre-service, les agents humains et les opérations du centre de contact.

Qu'est-ce que l'apprentissage non supervisé ?

L'apprentissage non supervisé utilise des algorithmes de machine learning pour analyser et cluster des ensembles de données non étiquetés. Ces algorithmes découvrent des modèles cachés dans les données sans avoir besoin d’intervention humaine (ils sont donc « non supervisés »).

Les modèles d’apprentissage non supervisé sont employés pour trois tâches principales : le clustering, l’association et la réduction de la dimensionnalité.

  • Le Clustering est une technique de data mining pour regrouper les données non étiquetées en fonction de leurs similitudes ou de leurs différences. Par exemple, les algorithmes de cluster attribuent des points de données similaires aux groupes, où la valeur K représente la taille et la granularité du regroupement. Cette technique est utile pour la segmentation de marché, la compression d’images, etc.

  • L'association est un autre type de méthode d'apprentissage non supervisé qui utilise différentes règles pour déterminer les relations entre les variables d'un ensemble de données donné. Ces méthodes sont fréquemment utilisées pour l'analyse du panier de vente et les moteurs de recommandations, comme les recommandations « Les clients qui ont acheté cet article ont également acheté ».

  • La réduction de la dimensionnalité est une technique d’apprentissage employée lorsque le nombre de fonctionnalités (ou dimensions) dans un jeu de données est trop élevé. Elle permet de réduire le nombre de données saisies à une taille gérable tout en préservant l’intégrité des données. Cette technique est souvent utilisée au stade du prétraitement des données, par exemple lorsque les autoencodeurs éliminent le bruit des données visuelles afin d'améliorer la qualité de l'image.

La principale différence : des données étiquetées

La principale distinction entre les deux approches est l’utilisation d’ensembles de données étiquetés. En d’autres termes, l’apprentissage supervisé utilise des données d’entrée et de sortie étiquetées, ce qui n’est pas le cas d’un algorithme d’apprentissage non supervisé.

Dans l’apprentissage supervisé, l’algorithme « apprend » à partir de l’ensemble des données d’entraînement en effectuant des prédictions itératives sur les données et en s’ajustant pour trouver la bonne réponse. Si les algorithmes d’apprentissage supervisé ont tendance à être plus précis que ceux d’apprentissage non supervisé, ils exigent toutefois une intervention humaine préalable pour étiqueter correctement les données. Par exemple, un modèle d’apprentissage supervisé peut prédire la durée de votre trajet en fonction de l’heure de la journée, des conditions météorologiques, etc. Mais avant tout, vous devez l’entraîner à savoir que les conditions météorologiques pluvieuses allongent la durée de conduite.

Les modèles d’apprentissage non supervisés, en revanche, fonctionnent seuls pour découvrir la structure inhérente des données non étiquetées. Notez qu’elles nécessitent toujours une intervention humaine pour valider les variables de sortie. Par exemple, un modèle d’apprentissage non supervisé peut identifier que les acheteurs en ligne achètent souvent des groupes de produits en même temps. Cependant, l’analyste de données doit valider qu’il est logique pour un moteur de recommandation de regrouper des vêtements pour bébés avec une commande de couches, de compote de pommes et de gobelets.

Autres différences clés

  • Objectifs : Dans l'apprentissage supervisé, l'objectif est de prédire les résultats de nouvelles données. Vous connaissez d’emblée les types de résultats à attendre. Avec un algorithme d'apprentissage non supervisé, l'objectif est d'obtenir des informations à partir de grands volumes de nouvelles données. Le machine learning détermine lui-même ce qui est différent ou intéressant dans l'ensemble des données.

  • Applications : les modèles d’apprentissage supervisés sont parfaitement adaptés à la détection, à l’analyse des sentiments, aux prévisions météorologiques et à la prévision et la tarification, entre autres. En revanche, l’apprentissage non supervisé convient parfaitement à la détection d’anomalies, aux moteurs de recommandation, aux profils des clients et à l’imagerie médicale.

  • Complexité : l’apprentissage supervisé est une méthode de machine learning simple, généralement calculée à l’aide de programmes tels que R ou Python. Dans l’apprentissage non supervisé, vous avez besoin d’outils puissants pour travailler avec de grandes quantités de données non classifiées. Les modèles d’apprentissage non supervisé sont complexes sur le plan informatique car ils nécessitent un ensemble d’entraînement important pour produire les résultats escomptés.

  • Inconvénients : l’entraînement des modèles d’apprentissage supervisé peut être chronophage, et les étiquettes pour les variables d’entrée et de sortie nécessitent une expertise. En revanche, les méthodes d’apprentissage non supervisé peuvent avoir des résultats extrêmement imprécis, à moins que vous n’ayez une intervention humaine pour valider les variables de sortie.

Apprentissage supervisé ou non supervisé : lequel est le mieux adapté à vos besoins ?

Le choix de l'approche la plus adaptée à votre situation dépend de la manière dont vos data scientists évaluent la structure et le volume de vos données, ainsi que du cas d'utilisation. Pour prendre votre décision, assurez-vous de procéder comme suit :

  • Évaluer vos données d'entrée : S'agit-il de données étiquetées ou non ? Avez-vous des experts qui peuvent soutenir un étiquetage supplémentaire ?

  • Définir vos objectifs : Avez-vous un problème récurrent et bien défini à résoudre ? Ou l’algorithme devra-t-il prédire de nouveaux problèmes ?

  • Consultez vos options en matière d’algorithmes : Existe-t-il des algorithmes ayant la même dimensionnalité que celle dont vous avez besoin (nombre de fonctionnalités, attributs ou fonctionnalités) ? Peuvent-ils prendre en charge le volume et la structure de vos données ?

La classification des big data peut constituer un véritable défi dans l'apprentissage supervisé, mais les résultats sont très précis et dignes de confiance. En revanche, l'apprentissage non supervisé peut gérer de grands volumes de données en temps réel. Cependant, il y a un manque de transparence quant à la façon dont les données sont regroupées et un risque plus élevé de résultats inexacts. C’est là que l’apprentissage semi-supervisé entre en jeu.

L’apprentissage semi-supervisé : le meilleur des deux mondes

Vous n'arrivez pas à décider si vous souhaitez utiliser l'apprentissage supervisé ou non supervisé ? L'apprentissage semi-supervisé est un juste milieu, car vous utilisez un jeu de données d'entraînement contenant des données étiquetées et non étiquetées. Il est particulièrement utile lorsqu’il est difficile d’extraire des fonctionnalités pertinentes des données et lorsque vous disposez d’un volume élevé de données.

L’apprentissage semi-supervisé est idéal pour les images médicales, où une petite quantité de données d’entraînement peut conduire à une amélioration significative de la précision. Par exemple, un radiologue peut étiqueter un petit sous-ensemble de scanners pour des tumeurs ou des maladies afin que la machine puisse prédire plus précisément quels patients pourraient nécessiter des soins médicaux plus importants.

En savoir plus sur l’apprentissage supervisé et non supervisé

Les modèles de machine learning sont un moyen puissant d’obtenir les informations relatives aux données qui améliorent notre monde. Pour en savoir plus sur les algorithmes spécifiques utilisés dans le cadre de l'apprentissage supervisé et non supervisé, nous vous encourageons à consulter les articles du Learn Hub consacrés à ces techniques. Nous vous recommandons également de consulter l’article de blog qui va plus loin, avec un aperçu détaillé de l’apprentissage profond et des réseaux neuronaux.

 

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct