Les cinq types de machine learning à connaître

Un jeune ingénieur travaillant sur un bras robotique

Auteur

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

Les technologies de machine learning (ML) facilitent la prise de décision dans quasiment tous les secteurs, soins de santé, ressources humaines, finance et autres, et dans une myriade de cas d’utilisation comme la vision par ordinateur, les grands modèles de langage (LLM), la reconnaissance vocale, les voitures autonomes, etc.

Cependant, l’influence croissante du ML ne va pas sans difficultés. Les ensembles de données de validation et d’entraînement qui sous-tendent la technologie ML sont souvent synthétisés par des humains, plus enclins aux préjugés et à commettre des erreurs. Même lorsqu’un modèle de ML n’est pas lui-même biaisé ou erroné, son déploiement dans un mauvais contexte peut produire des erreurs aux conséquences néfastes.

C’est pourquoi diversifier l’utilisation de l’IA et du ML peut s’avérer inestimable pour conserver un avantage concurrentiel. Chaque type et sous-type d’algorithme de ML présente des avantages et des capacités uniques que les équipes peuvent exploiter pour différentes tâches. Nous allons aborder ici les cinq principaux types et leurs applications.

Qu’est-ce que le machine learning ?

Le ML est un sous-ensemble de l’informatique, de la science des données et de l’intelligence artificielle (IA) qui permet aux systèmes d’apprendre et de s’améliorer à partir des données, sans autre programmation nécessaire.

Au lieu d’utiliser des instructions explicites pour optimiser les performances, les modèles de ML s’appuient sur des algorithmes et des modèles statistiques qui déploient des tâches en fonction de schémas de données et d’inférences. En d’autres termes, le ML exploite les données d’entrée pour prédire les sorties, en actualisant en permanence les sorties à mesure que de nouvelles données deviennent disponibles.

Sur les sites Web de vente au détail, par exemple, les algorithmes de machine learning influencent les décisions d’achat des consommateurs en faisant des recommandations basées sur l’historique des achats. Les plateformes de commerce électronique de nombreuses enseignes, notamment celles d’IBM, d’Amazon, de Google, de Meta et de Netflix, s’appuient sur les réseaux de neurones artificiels (ANN) pour fournir des recommandations personnalisées. Et les détaillants exploitent souvent les données des chatbots et des assistants virtuels, conjointement avec la technologie ML et le traitement automatique du langage naturel (NLP) pour automatiser les expériences d’achat des utilisateurs.

Types de machine learning

Les algorithmes de machine learning se répartissent en cinq grandes catégories : apprentissage supervisé, apprentissage non supervisé, apprentissage semi-supervisé, autosupervisé et apprentissage par renforcement.

1. Apprentissage supervisé

 

Le machine learning supervisé est un type d’apprentissage automatique dans lequel le modèle est entraîné sur un ensemble de données étiqueté (c’est-à-dire que la variable cible ou de sortie est connue). Par exemple, dans le cas d’un modèle de prévision des tornades sur une période donnée, un data scientist inclut dans les variables d’entrée la date, le lieu, la température, les schémas de flux de vent, etc., et la sortie correspond à l’activité réelle des tornades enregistrée ces jours-là.

L’apprentissage supervisé est généralement utilisé pour l’évaluation des risques, la reconnaissance d’images, l’analyse prédictive et la détection des fraudes, et comprend plusieurs types d’algorithmes.

  • Algorithmes de régression : prédisent les valeurs de sortie en identifiant des relations linéaires entre des valeurs réelles ou continues (par exemple, la température, le salaire). Les algorithmes de régression comprennent la régression linéaire, la forêt d’arbres décisionnels et l’optimisation de gradient, ainsi que d’autres sous-types.
  • Algorithmes de classification : prédisent les variables de sortie catégorielles (par exemple, « indésirables » ou « pas indésirables ») en étiquetant les données d’entrée. Les algorithmes de classification incluent, entre autres, la régression logistique, les k-plus proches voisins et les machines à vecteurs de support (SVM).
  • Classificateurs bayésiens naïfs : permettent des tâches de classification pour de grands ensembles de données. Ils font également partie d’une famille d’algorithmes d’apprentissage génératif qui modélisent la distribution d’entrée d’une classe ou d’une catégorie donnée. Les algorithmes bayésiens naïfs comprennent des arbres de décision qui peuvent prendre en charge à la fois des algorithmes de régression et de classification.
  • Réseaux neuronaux : simulent le fonctionnement du cerveau humain, avec un grand nombre de nœuds de traitement reliés qui facilitent des processus comme la traduction en langage naturel, la reconnaissance d’images, la reconnaissance vocale et la création d’images.
  • Algorithmes de forêt d’arbres décisionnels : prédisent une valeur ou une catégorie en combinant les résultats d’un certain nombre d’arbres de décision.

2. Machine learning non supervisé

 

Les algorithmes d’apprentissage non supervisé, tels que Apriori, GMM (modèles de mélange gaussien) et PCA (analyse en composantes principales), tirent des conclusions à partir d’ensembles de données non étiquetés, facilitant ainsi l’analyse exploratoire des données et permettant la reconnaissance de formes et la modélisation prédictive.

La méthode d’apprentissage non supervisé la plus courante est l’analyse de cluster, qui utilise des algorithmes de clustering pour catégoriser les points de données en fonction de la similarité des valeurs (comme dans la segmentation des clients ou la détection d’anomalies). Les algorithmes d’association permettent aux data scientists d’identifier les associations entre les objets de données au sein de grandes bases de données, ce qui facilite la visualisation des données et la réduction de la dimensionnalité.

  • Le clustering en k-moyennes attribue des points de données à des k groupes, où les points de données les plus proches d’un centroïde donné sont regroupés dans la même catégorie, K représentant les clusters en fonction de leur taille et de leur niveau de précision. Le clustering en k-moyennes est couramment utilisé pour la segmentation du marché, le regroupement de documents, la segmentation d’images et la compression d’images.
  • Clustering hiérarchique : décrit un ensemble de techniques de clustering, y compris le clustering agglomératif, dans lequel les points de données sont d’abord isolés en groupes, puis fusionnés de façon itérative en fonction de la similitude jusqu’à ce qu’il ne reste qu’un seul cluster, et le clustering par division, où un seul cluster de données est divisé en fonction des différences entre les points de données.
  • Regroupement probabiliste : aide à résoudre les problèmes d’estimation de la densité ou de regroupement « souple » en regroupant les points de données en fonction de la probabilité qu’ils appartiennent à une distribution particulière.

Les modèles de ML non supervisé sont souvent à l’origine des systèmes de recommandation de type « les clients qui ont acheté ce produit ont également acheté… ».

3. Machine learning autosupervisé

 

L’apprentissage autosupervisé (SSL) permet aux modèles de s’entraîner eux-mêmes sur des données non étiquetées, au lieu d’avoir besoin de grands ensembles de données annotés et/ou étiquetés. Les algorithmes SSL, également appelés algorithmes d’apprentissage prédictif ou de prétexte, apprennent une partie des entrées à partir d’une autre, génèrent automatiquement des étiquettes et transforment les problèmes non supervisés en problèmes supervisés. Ces algorithmes sont particulièrement utiles pour des tâches telles que la vision par ordinateur et le NLP, où le volume de données d’entraînement étiquetées nécessaires pour entraîner des modèles peut être exceptionnellement important (parfois trop).

4. Apprentissage par renforcement

 

L’apprentissage par renforcement, également appelé apprentissage par renforcement basé sur les commentaires humains (RLHF), est un type de programmation dynamique qui entraîne des algorithmes à l’aide d’un système de récompense et de punition. Pour déployer l’apprentissage par renforcement, un agent effectue des actions dans un environnement spécifique pour atteindre un objectif prédéterminé. L’agent est récompensé ou pénalisé pour ses actions en fonction d’un indicateur établi (généralement des points), ce qui l’encourage à poursuivre les bonnes pratiques et à éliminer les mauvaises. À force de répétition, l’agent apprend les meilleures stratégies.

Les algorithmes d’apprentissage par renforcement sont courants dans le développement de jeux vidéo et sont fréquemment utilisés pour apprendre aux robots à reproduire des tâches humaines.

5. Apprentissage semi-supervisé

 

Le cinquième type de technique de machine learning offre une combinaison entre l’apprentissage supervisé et l’apprentissage non supervisé.

Les algorithmes d’apprentissage semi-supervisés sont entraînés sur un petit ensemble de données étiquetées et un grand ensemble de données non étiquetées, les données étiquetées guidant le processus d’apprentissage pour le plus grand ensemble de données non étiquetées. Un modèle d’apprentissage semi-supervisé peut utiliser l’apprentissage non supervisé pour identifier les clusters de données, puis utiliser l’apprentissage supervisé pour étiqueter les clusters.

Les réseaux antagonistes génératifs (GAN), un outil d’apprentissage profond qui génère des données non étiquetées en entraînant deux réseaux neuronaux, sont un exemple de machine learning semi-supervisé.

Quel que soit leur type, les modèles de ML peuvent extraire des informations à partir des données de l’entreprise, mais leur vulnérabilité aux biais humains et des données rend impérative l’adoption de pratiques d’IA responsable.

Gérez une gamme de modèles de machine learning avec watsonx.ai

Presque tout le monde, des développeurs aux utilisateurs en passant par les régulateurs, utilise les applications de machine learning à un moment donné, qu’elles interagissent directement avec la technologie de l’IA ou non. Et l’adoption de la technologie ML ne fait que s’accélérer. Le marché mondial du machine learning était évalué à 19 milliards de dollars en 2022 et devrait atteindre 188 milliards de dollars d’ici 2030 (un TCAC de plus de 37 %).

Du fait de l’ampleur de l’adoption du machine learning et de son impact métier croissant, la compréhension des technologies d’IA et de ML est un engagement permanent et d’une importance vitale, qui nécessite une surveillance vigilante et des ajustements rapides à mesure que les technologies évoluent. Avec le studio d’IA IBM watsonx.ai, les développeurs peuvent gérer facilement les algorithmes et les processus de machine learning.

IBM watsonx.ai, qui fait partie du portefeuille de produits d’IA IBM watsonx, associe de nouvelles fonctionnalités d’IA générative et un studio d’entreprise de nouvelle génération pour aider les générateurs d’IA à entraîner, valider, régler et déployer des modèles d’IA beaucoup plus rapidement, avec beaucoup moins de données. watsonx.ai offre aux équipes des fonctionnalités avancées de génération et de classification des données qui leur permettent d’exploiter les informations qui en sont extraites pour optimiser les performances de l’IA dans le monde réel.

À l’ère de la prolifération des données, l’IA et le machine learning font partie intégrante des opérations métier quotidiennes, tout comme de l’innovation technologique et de la concurrence entre les entreprises. Mais à l’orée d’une nouvelle ère, ils représentent également une opportunité de diversifier les infrastructures informatiques des entreprises et de créer des technologies qui profitent aux entreprises et aux personnes qui en dépendent.

 
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct