Qu'est-ce que le bagging ?

Le bagging, ou bootstrap aggregation, est la méthode d'apprentissage ensembliste – on parle aussi d'apprentissage d'ensemble – couramment utilisée pour réduire la variance au sein de données bruitées.

Lors du bagging, un échantillon aléatoire de données dans un ensemble d’entraînement est sélectionné avec une option de remplacement, ce qui signifie que les points de données individuels peuvent être choisis plus d’une fois. Une fois plusieurs échantillons de données générés, ces modèles faibles sont entraînés de manière indépendante. Selon le type de tâche (par exemple, régression ou classification), la moyenne ou la majorité de ces prédictions permet d'obtenir une estimation plus précise.

L'algorithme des forêts aléatoires est une extension du bagging, Combinant le bagging et la sélection aléatoire des caractéristiques pour créer une forêt d'arbres de décision non corrélés.

Apprentissage d’ensemble

L'apprentissage ensembliste s'appuie sur le concept de « sagesse des foules », qui postule qu'un groupe prend généralement de meilleures décisions qu'un expert isolé. De la même manière, l'apprentissage ensembliste désigne un groupe (ou ensemble) d’apprenants ou modèles de base, qui collaborent pour offrir une meilleure prédiction finale.

Un modèle individuel, aussi appelé modèle de base ou apprenant faible, peut montrer des performances médiocres en raison d'une variance ou d'un biais élevé. Cependant, lorsque ces apprenants faibles sont agrégés, ils forment un apprenant fort, car leur combinaison réduit le biais ou la variance, améliorant ainsi les performances globales du modèle.

Les arbres de décision sont souvent utilisés pour illustrer ces méthodes ensemblistes. Cet algorithme peut souffrir de surajustement (variance élevée, biais faible) lorsqu'il n'a pas été élagué. À l'inverse, un arbre de décision trop simple, comme une souche de décision (un arbre avec un seul niveau), peut être sujet à un sous-ajustement (variance faible, biais élevé).

Notez que lorsqu'un algorithme ne s'adapte pas bien ou s'adapte trop à son ensemble d'entraînement, il ne parviendra pas à bien généraliser sur de nouveaux ensembles de données. Bien que les arbres de décision puissent présenter un biais ou une variance élevée, ils ne sont pas la seule technique qui profite de l'apprentissage ensembliste pour trouver le juste équilibre dans le compromis biais-variance.

Bagging versus boosting

Le bagging et le boosting sont deux méthodes principales d'apprentissage ensembliste. Comme le souligne cette étude (lien externe à ibm.com), la principale différence entre ces deux méthodes réside dans leur processus d'entraînement.

Dans le bagging, les apprenants faibles sont entraînés en parallèle, tandis que dans le boosting, l'apprentissage se fait de manière séquentielle. Autrement dit, une série de modèles est construite, et à chaque nouvelle itération, les poids des données mal classifiées dans le modèle précédent sont augmentés.

Cette redistribution des poids permet à l'algorithme de se concentrer sur les points de données qui nécessitent une attention particulière afin d'améliorer ses performances. AdaBoost, acronyme de « Adaptive Boosting Algorithm » (algorythme de boosting adaptatif), est l'un des algorithmes de boosting les plus populaires, car il a été l'un des premiers à être développé. D'autres algorithmes de boosting incluent XGBoost, GradientBoost et BrownBoost.

Une autre distinction entre le bagging et le boosting réside dans les situations où ils sont utilisés. Par exemple, les méthodes de bagging sont généralement appliquées aux apprenants faibles qui présentent une variance élevée et un faible biais, tandis que les méthodes de boosting sont utilisées lorsqu'une faible variance et un biais élevé sont observés.

Exploitez pleinement votre cloud hybride

Connectez et intégrez vos systèmes pour préparer votre infrastructure à l’IA.

Contenu connexe

Obtenir le guide sur la modernisation des applications

Fonctionnement du bagging

En 1996, Leo Breiman (lien externe à ibm.com) a introduit l'algorithme de bagging, qui repose sur trois étapes fondamentales :

Bootstrapping : le bagging utilise une technique d'échantillonnage par bootstrapping pour générer des échantillons diversifiés. Cette méthode de rééchantillonnage génère différents sous-ensembles du fichier d'entraînement en sélectionnant des points de données de manière aléatoire et avec remise. Ainsi, chaque fois que vous sélectionnez un point de données du fichier d'entraînement, vous pouvez sélectionner la même instance plusieurs fois. En conséquence, une valeur ou une instance peut apparaître plusieurs fois dans un même échantillon.
Entraînement parallèle : ces échantillons bootstrap sont ensuite entraînés de façon indépendante et en parallèle, à l'aide d'apprenants faibles ou de base.
Agrégation : enfin, selon le type de tâche (régression ou classification), la moyenne ou la majorité des prédictions est utilisée pour produire une estimation plus précise. Pour les problèmes de régression, une moyenne des sorties de tous les classificateurs est calculée (soft voting). Dans le cas des problèmes de classification, la classe ayant recueilli la majorité des votes est retenue (hard voting ou vote majoritaire).

Avantages et défis du bagging

Le bagging présente plusieurs avantages et défis lorsqu'il est utilisé pour des problèmes de classification ou de régression. Voici quelques-uns des principaux avantages :

Facilité de mise en œuvre : des bibliothèques Python telles que scikit-learn (ou sklearn) simplifient la combinaison des prédictions d'apprenants de base ou d'estimateurs pour améliorer les performances des modèles. Leur documentation (lien externe à ibm.com) fournit des modules prêts à l'emploi pour optimiser vos modèles.
Réduction de la variance : le bagging permet de réduire la variance d'un algorithme d'apprentissage, ce qui est particulièrement utile avec des données de grande dimension. Dans de tels cas, les valeurs manquantes peuvent accroître la variance, augmentant ainsi le risque de surajustement et limitant la capacité du modèle à se généraliser à de nouveaux ensembles de données.

Les principaux défis du bagging sont les suivants :

Perte d'interprétabilité: il est difficile d'obtenir des informations métier très précises du bagging en raison de la moyenne établie entre les prédictions. Bien que le résultat soit plus précis que n'importe quel point de données individuel, un ensemble de données plus complet ou plus précis pourrait également produire de meilleures performances dans un modèle de classification ou de régression unique.
Coût informatique élevé : le bagging ralentit et devient plus coûteux en ressources à mesure que le nombre d'itérations augmente. Il n'est donc pas bien adapté aux applications en temps réel. Les systèmes en grappe ou les processeurs multicœurs sont particulièrement adaptés pour créer rapidement des ensembles soumis au bagging sur de grands ensembles de test.
Moins de flexibilité : le bagging fonctionne particulièrement bien avec des algorithmes instables. Cependant, les algorithmes plus stables ou sujets à un fort biais n'en tirent pas autant d'avantages, car ils présentent moins de variation dans leurs ensembles de données. Comme le souligne le Hands-On Guide to Machine Learning (lien externe à ibm.com), « le bagging d'un modèle de régression linéaire finit par simplement reproduire les prédictions originales pour un nombre d'itérations suffisamment élevé. »

Applications du bagging

La technique du bagging est utilisée dans un grand nombre de secteurs d'activité. Elle fournit des informations sur la valeur réelle et des perspectives intéressantes comme dans GRAMMY Debates with Watson. Exemples de cas d'utilisation : Exemples de cas d'utilisation :

Soins de santé : Le bagging a été utilisé pour prédire des données médicales. Par exemple, une étude (lien externe à ibm.com) montre que des méthodes ensemblistes ont été employées pour divers problèmes de bioinformatique, comme la sélection de gènes ou de protéines pour identifier des caractéristiques spécifiques. Plus particulièrement, cette recherche (lien externe à ibm.com) examine l'usage du bagging pour prédire l'apparition du diabète en se basant sur différents facteurs de risque.
Informatique : le bagging peut également améliorer la précision et l'exactitude des systèmes informatiques, notamment les systèmes de détection d'intrusion dans les réseaux. Cette étude (lien externe à ibm.com) explore comment le bagging peut accroître la précision de la détection d'intrusions et réduire les faux positifs.
Environnement : les méthodes ensembliste, telles que le bagging, ont été appliquées dans le domaine de la télédétection. Plus précisément, cette étude (lien externe à ibm.com) montre comment le bagging a été utilisé pour cartographier les types de zones humides dans un environnement côtier.
Finance : le bagging est également utilisé avec des modèles d'apprentissage profond dans le secteur financier, automatisant des tâches critiques comme la détection des fraudes, l'évaluation des risques de crédit et la tarification des options. Une étude (lien externe à ibm.com) illustre comment le bagging et d'autres techniques de machine learning ont été appliqués pour évaluer le risque de défaut de paiement des prêts. Une autre étude (lien externe à ibm.com) met en avant l'usage du bagging pour minimiser les risques de fraude à la carte de crédit dans les institutions financières.

Solutions connexes

IBM SPSS Modeler

Utilisez l’analyse prédictive pour vous aider à découvrir des modèles de données, à gagner en précision prédictive et à améliorer la prise de décision.

Découvrir IBM SPSS Modeler

IBM Watson Studio

Créez et faites évoluer une IA digne de confiance dans n’importe quel cloud. Automatisez le cycle de vie de l’IA pour les ModelOps.

Découvrir IBM Watson Studio

Ressources

Bagging versus boosting

Découvrez les différences entre deux approches d’apprentissage ensembliste avec la communauté de science des données d’IBM.

Qu’est-ce que le boosting ?

Découvrez les algorithmes de boosting et comment ils peuvent améliorer la puissance prédictive de vos initiatives d’exploration de données.

Passez à l’étape suivante

IBM SPSS Modeler est une solution visuelle de science des données et de machine learning (ML) qui expose des modèles et des modèles cachés dans les données grâce à une approche ascendante de génération d'hypothèses. Les organisations du monde entier l’utilisent pour la préparation et la découverte de données, l’analyse prédictive, la gestion et le déploiement de modèles, et le ML pour monétiser les actifs de données.

Découvrir SPSS Modeler

Essai gratuit de 30 jours