Le monde devient chaque jour « plus intelligent », et pour répondre aux attentes des consommateurs, les entreprises utilisent de plus en plus d’algorithmes de machine learning pour leur faciliter la vie. Vous pouvez les voir utilisés sur les appareils des utilisateurs finaux (grâce à la reconnaissance faciale pour déverrouiller les smartphones) ou pour détecter les fraudes à la carte de crédit (en déclenchant des alertes pour les achats inhabituels).
En matière d’intelligence artificielle (IA) et de machine learning, il existe deux approches fondamentales : l’apprentissage supervisé et l’apprentissage non supervisé. La principale différence réside dans le fait que l’un d’eux utilise des données étiquetées pour prédire les résultats, contrairement à l’autre. Il existe cependant quelques nuances entre les deux approches, et des domaines clés dans lesquels l’une d’entre elles surpasse l’autre. Cet article vous explique les différences pour vous permettre de choisir l’approche la mieux adaptée à votre situation.
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
L'apprentissage supervisé est une approche de machine learning qui se définit par l'utilisation d'ensembles de données étiquetés. Ces jeux de données sont conçus pour entraîner ou « superviser » les algorithmes afin qu’ils classifient les données ou prédisent les résultats avec précision. À l'aide d'entrées et de sorties étiquetées, le modèle peut mesurer sa précision et apprendre au fil du temps.
L’apprentissage supervisé permet de traiter deux types de problèmes lors du data mining : la classification et la régression :
L'apprentissage non supervisé utilise des algorithmes de machine learning pour analyser et cluster des ensembles de données non étiquetés. Ces algorithmes découvrent des modèles cachés dans les données sans avoir besoin d’intervention humaine (ils sont donc « non supervisés »).
Les modèles d’apprentissage non supervisé sont employés pour trois tâches principales : le clustering, l’association et la réduction de la dimensionnalité.
La principale distinction entre les deux approches est l’utilisation d’ensembles de données étiquetés. En d’autres termes, l’apprentissage supervisé utilise des données d’entrée et de sortie étiquetées, ce qui n’est pas le cas d’un algorithme d’apprentissage non supervisé.
Dans l’apprentissage supervisé, l’algorithme « apprend » à partir de l’ensemble des données d’entraînement en effectuant des prédictions itératives sur les données et en s’ajustant pour trouver la bonne réponse. Si les algorithmes d’apprentissage supervisé ont tendance à être plus précis que ceux d’apprentissage non supervisé, ils exigent toutefois une intervention humaine préalable pour étiqueter correctement les données. Par exemple, un modèle d’apprentissage supervisé peut prédire la durée de votre trajet en fonction de l’heure de la journée, des conditions météorologiques, etc. Mais avant tout, vous devez l’entraîner à savoir que les conditions météorologiques pluvieuses allongent la durée de conduite.
Les modèles d’apprentissage non supervisés, en revanche, fonctionnent seuls pour découvrir la structure inhérente des données non étiquetées. Notez qu’elles nécessitent toujours une intervention humaine pour valider les variables de sortie. Par exemple, un modèle d’apprentissage non supervisé peut identifier que les acheteurs en ligne achètent souvent des groupes de produits en même temps. Cependant, l’analyste de données doit valider qu’il est logique pour un moteur de recommandation de regrouper des vêtements pour bébés avec une commande de couches, de compote de pommes et de gobelets.
Le choix de l'approche la plus adaptée à votre situation dépend de la manière dont vos data scientists évaluent la structure et le volume de vos données, ainsi que du cas d'utilisation. Pour prendre votre décision, assurez-vous de procéder comme suit :
La classification des big data peut constituer un véritable défi dans l'apprentissage supervisé, mais les résultats sont très précis et dignes de confiance. En revanche, l'apprentissage non supervisé peut gérer de grands volumes de données en temps réel. Cependant, il y a un manque de transparence quant à la façon dont les données sont regroupées et un risque plus élevé de résultats inexacts. C’est là que l’apprentissage semi-supervisé entre en jeu.
Vous n'arrivez pas à décider si vous souhaitez utiliser l'apprentissage supervisé ou non supervisé ? L'apprentissage semi-supervisé est un juste milieu, car vous utilisez un jeu de données d'entraînement contenant des données étiquetées et non étiquetées. Il est particulièrement utile lorsqu’il est difficile d’extraire des fonctionnalités pertinentes des données et lorsque vous disposez d’un volume élevé de données.
L’apprentissage semi-supervisé est idéal pour les images médicales, où une petite quantité de données d’entraînement peut conduire à une amélioration significative de la précision. Par exemple, un radiologue peut étiqueter un petit sous-ensemble de scanners pour des tumeurs ou des maladies afin que la machine puisse prédire plus précisément quels patients pourraient nécessiter des soins médicaux plus importants.
Les modèles de machine learning sont un moyen puissant d’obtenir les informations relatives aux données qui améliorent notre monde. Pour en savoir plus sur les algorithmes spécifiques utilisés dans le cadre de l'apprentissage supervisé et non supervisé, nous vous encourageons à consulter les articles du Learn Hub consacrés à ces techniques. Nous vous recommandons également de consulter l’article de blog qui va plus loin, avec un aperçu détaillé de l’apprentissage profond et des réseaux neuronaux.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.