Qu'est-ce que le bagging ?

Le bagging, ou bootstrap aggregation, est la méthode d'apprentissage ensembliste – on parle aussi d'apprentissage d'ensemble – couramment utilisée pour réduire la variance au sein de données bruitées.

Lors du bagging, un échantillon aléatoire de données dans un ensemble d’entraînement est sélectionné avec une option de remplacement, ce qui signifie que les points de données individuels peuvent être choisis plus d’une fois. Une fois plusieurs échantillons de données générés, ces modèles faibles sont entraînés de manière indépendante. Selon le type de tâche (par exemple, régression ou classification), la moyenne ou la majorité de ces prédictions permet d’obtenir une estimation plus précise.

L’algorithme des forêts d’arbres décisionnels est une extension du bagging, alliant ce dernier et la sélection aléatoire des caractéristiques pour créer une forêt d’arbres de décision (decision trees) non corrélés.

Newsletter sectorielle

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Apprentissage d’ensemble

L’apprentissage d’ensemble donne du crédit au concept de « sagesse des foules » selon lequel le processus décisionnel d’un groupe plus large de personnes serait plus efficace que celui d’un expert individuel. De même, l’apprentissage d’ensemble fait référence à un groupe (ou ensemble) d’apprenants de base, ou de modèles, qui travaillent collectivement à l’obtention d’une meilleure prédiction finale.

Un modèle individuel, également appelé modèle de base ou apprenant faible, peut présenter des performances médiocres en raison d’une variance ou d’un biais élevé. Cependant, lorsque ces apprenants faibles sont agrégés, ils forment un apprenant fort, car leur combinaison réduit le biais ou la variance, améliorant ainsi les performances globales du modèle.

Les arbres de décision sont souvent utilisés pour illustrer ces méthodes ensemblistes. Cet algorithme peut souffrir de surajustement (variance élevée, biais faible) lorsqu’il n’a pas été élagué. À l’inverse, un arbre de décision trop simple, comme une souche de décision (un arbre avec un seul niveau), peut être sujet à un sous-ajustement (variance faible, biais élevé).

Notez que lorsqu'un algorithme ne s'adapte pas bien ou s'adapte trop à son ensemble d'entraînement, il ne parviendra pas à bien généraliser sur de nouveaux ensembles de données. Bien que les arbres de décision puissent présenter un biais ou une variance élevée, ils ne sont pas la seule technique qui profite de l'apprentissage ensembliste pour trouver le juste équilibre dans le compromis biais-variance.

AI Academy

Exploiter l’IA pour le service client

Découvrez comment l’IA générative peut ravir les clients avec une expérience plus transparente et augmenter la productivité de l’organisation dans ces trois domaines clés : le libre-service, les agents humains et les opérations du centre de contact.

Accéder à l’épisode

Bagging et boosting

Le bagging et le boosting sont deux méthodes principales d’apprentissage d’ensemble. Comme le souligne cette étude, la principale différence entre ces deux méthodes réside dans leur processus d’entraînement.

Dans le bagging, les apprenants faibles sont entraînés en parallèle, tandis que dans le boosting, l’apprentissage se fait de manière séquentielle. Autrement dit, une série de modèles est construite, et à chaque nouvelle itération, les poids des données mal classifiées dans le modèle précédent sont augmentés.

Cette redistribution des poids permet à l’algorithme de se concentrer sur les points de données qui nécessitent une attention particulière afin d’améliorer ses performances. AdaBoost, acronyme de « Adaptative Boosting Algorithm » (algorithme de boosting adaptatif), est l’un des algorithmes de boosting les plus utilisés, car il a été l’un des premiers à être développé. D'autres algorithmes de boosting incluent XGBoost, GradientBoost et BrownBoost.

Une autre distinction entre le bagging et le boosting réside dans les situations où ils sont utilisés. Par exemple, les méthodes de bagging sont généralement appliquées aux apprenants faibles qui présentent une variance élevée et un faible biais, tandis que les méthodes de boosting sont utilisées lorsqu'une faible variance et un biais élevé sont observés.

Fonctionnement du bagging

En 1996, Leo Breiman a introduit l’algorithme de bagging, qui repose sur trois étapes fondamentales :

Bootstrapping : le bagging utilise une technique d’échantillonnage par bootstrapping pour générer des échantillons diversifiés. Cette méthode de rééchantillonnage génère différents sous-ensembles du fichier d’entraînement en sélectionnant des points de données de manière aléatoire et avec remise. Ainsi, chaque fois que vous sélectionnez un point de données du fichier d’entraînement, vous pouvez sélectionner la même instance plusieurs fois. En conséquence, une valeur ou une instance peut apparaître plusieurs fois dans un même échantillon.
Entraînement parallèle : ces échantillons de bootstrap sont ensuite entraînés de façon indépendante et en parallèle, à l’aide d’apprenants faibles ou de base.
Agrégation : enfin, selon le type de tâche (régression ou classification), la moyenne ou la majorité des prédictions est utilisée pour produire une estimation plus précise. Pour les problèmes de régression, une moyenne des sorties de tous les classificateurs est calculée (soft voting). Dans le cas des problèmes de classification, la classe ayant recueilli la majorité des votes est retenue (hard voting ou vote majoritaire).

Avantages et défis du bagging

Le bagging présente plusieurs avantages et défis lorsqu'il est utilisé pour des problèmes de classification ou de régression. Voici quelques-uns des principaux avantages :

Facilité de mise en œuvre : des bibliothèques Python telles que scikit-learn (ou sklearn) simplifient la combinaison des prédictions d’apprenants de base ou d’estimateurs pour améliorer les performances des modèles. Leur documentation fournit des modules prêts à l’emploi pour optimiser vos modèles.
Réduction de la variance : le bagging permet de réduire la variance d'un algorithme d'apprentissage, ce qui est particulièrement utile avec des données de grande dimension. Dans de tels cas, les valeurs manquantes peuvent accroître la variance, augmentant ainsi le risque de surajustement et limitant la capacité du modèle à se généraliser à de nouveaux ensembles de données.

Les principaux défis du bagging sont les suivants :

Perte d’interprétabilité : il est difficile d’obtenir des informations métier très précises du bagging en raison de la moyenne établie entre les prédictions. Bien que le résultat soit plus précis que n’importe quel point de données individuel, un jeu de données plus complet ou plus précis pourrait également produire de meilleures performances dans un modèle de classification ou de régression unique.
Coût informatique élevé : le bagging ralentit et devient plus coûteux en ressources à mesure que le nombre d’itérations augmente. Il n’est donc pas bien adapté aux applications en temps réel. Les systèmes en grappe ou les processeurs multicœurs sont particulièrement adaptés pour créer rapidement des ensembles soumis au bagging sur de grands jeux de test.
Moins de flexibilité : le bagging fonctionne particulièrement bien avec des algorithmes instables. Cependant, les algorithmes plus stables ou sujets à un fort biais n’en tirent pas autant d’avantages, car ils présentent moins de variation dans leurs ensembles de données. Comme le souligne le Hands-On Guide to Machine Learning, « le bagging d’un modèle de régression linéaire finit par simplement reproduire les prédictions originales pour un nombre d’itérations suffisamment élevé. »

Applications du bagging

La technique du bagging est utilisée dans un grand nombre de secteurs d’activité. Elle fournit des informations sur la valeur réelle et des perspectives intéressantes comme dans GRAMMY Debates with Watson. Exemples de cas d’utilisation :

Soins de santé : le bagging a été utilisé pour prédire des données médicales. Par exemple, une étude montre que des méthodes ensemblistes ont été employées pour divers problèmes de bio-informatique, comme la sélection de gènes ou de protéines pour identifier des caractéristiques spécifiques. Plus particulièrement, cette étude examine l’usage du bagging pour prédire l’apparition du diabète en se basant sur différents facteurs de risque.
Informatique : le bagging peut également améliorer la précision et l’exactitude des systèmes informatiques, notamment les systèmes de détection d’intrusion dans les réseaux. Cette étude explore comment le bagging peut accroître la précision de la détection d’intrusions et réduire les faux positifs.
Environnement : les méthodes ensemblistes, telles que le bagging, ont été appliquées dans le domaine de la télédétection. Plus précisément, cette étude montre comment le bagging a été utilisé pour cartographier les types de zones humides dans un environnement côtier.
Finance : le bagging est également utilisé avec des modèles d’apprentissage profond dans le secteur financier, automatisant des tâches critiques comme la détection des fraudes, l’évaluation des risques de crédit et la tarification des options. Une étude illustre comment le bagging et d’autres techniques de machine learning ont été appliqués pour évaluer le risque de défaut de paiement des prêts. Une autre étude met en avant l’usage du bagging pour minimiser les risques de fraude à la carte de crédit dans les institutions financières.

Libérez la puissance de l’IA générative et du ML

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Qu'est-ce que le bagging ?