Le bagging, ou bootstrap aggregation, est la méthode d'apprentissage ensembliste – on parle aussi d'apprentissage d'ensemble – couramment utilisée pour réduire la variance au sein de données bruitées.
Lors du bagging, un échantillon aléatoire de données dans un ensemble d’entraînement est sélectionné avec une option de remplacement, ce qui signifie que les points de données individuels peuvent être choisis plus d’une fois. Une fois plusieurs échantillons de données générés, ces modèles faibles sont entraînés de manière indépendante. Selon le type de tâche (par exemple, régression ou classification), la moyenne ou la majorité de ces prédictions permet d’obtenir une estimation plus précise.
L’algorithme des forêts d’arbres décisionnels est une extension du bagging, alliant ce dernier et la sélection aléatoire des caractéristiques pour créer une forêt d’arbres de décision (decision trees) non corrélés.
L’apprentissage d’ensemble donne du crédit au concept de « sagesse des foules » selon lequel le processus décisionnel d’un groupe plus large de personnes serait plus efficace que celui d’un expert individuel. De même, l’apprentissage d’ensemble fait référence à un groupe (ou ensemble) d’apprenants de base, ou de modèles, qui travaillent collectivement à l’obtention d’une meilleure prédiction finale.
Un modèle individuel, également appelé modèle de base ou apprenant faible, peut présenter des performances médiocres en raison d’une variance ou d’un biais élevé. Cependant, lorsque ces apprenants faibles sont agrégés, ils forment un apprenant fort, car leur combinaison réduit le biais ou la variance, améliorant ainsi les performances globales du modèle.
Les arbres de décision sont souvent utilisés pour illustrer ces méthodes ensemblistes. Cet algorithme peut souffrir de surajustement (variance élevée, biais faible) lorsqu’il n’a pas été élagué. À l’inverse, un arbre de décision trop simple, comme une souche de décision (un arbre avec un seul niveau), peut être sujet à un sous-ajustement (variance faible, biais élevé).
Notez que lorsqu'un algorithme ne s'adapte pas bien ou s'adapte trop à son ensemble d'entraînement, il ne parviendra pas à bien généraliser sur de nouveaux ensembles de données. Bien que les arbres de décision puissent présenter un biais ou une variance élevée, ils ne sont pas la seule technique qui profite de l'apprentissage ensembliste pour trouver le juste équilibre dans le compromis biais-variance.
Le bagging et le boosting sont deux méthodes principales d’apprentissage d’ensemble. Comme le souligne cette étude, la principale différence entre ces deux méthodes réside dans leur processus d’entraînement.
Dans le bagging, les apprenants faibles sont entraînés en parallèle, tandis que dans le boosting, l’apprentissage se fait de manière séquentielle. Autrement dit, une série de modèles est construite, et à chaque nouvelle itération, les poids des données mal classifiées dans le modèle précédent sont augmentés.
Cette redistribution des poids permet à l’algorithme de se concentrer sur les points de données qui nécessitent une attention particulière afin d’améliorer ses performances. AdaBoost, acronyme de « Adaptative Boosting Algorithm » (algorithme de boosting adaptatif), est l’un des algorithmes de boosting les plus utilisés, car il a été l’un des premiers à être développé. D'autres algorithmes de boosting incluent XGBoost, GradientBoost et BrownBoost.
Une autre distinction entre le bagging et le boosting réside dans les situations où ils sont utilisés. Par exemple, les méthodes de bagging sont généralement appliquées aux apprenants faibles qui présentent une variance élevée et un faible biais, tandis que les méthodes de boosting sont utilisées lorsqu'une faible variance et un biais élevé sont observés.
En 1996, Leo Breiman a introduit l’algorithme de bagging, qui repose sur trois étapes fondamentales :
Le bagging présente plusieurs avantages et défis lorsqu'il est utilisé pour des problèmes de classification ou de régression. Voici quelques-uns des principaux avantages :
Les principaux défis du bagging sont les suivants :
La technique du bagging est utilisée dans un grand nombre de secteurs d’activité. Elle fournit des informations sur la valeur réelle et des perspectives intéressantes comme dans GRAMMY Debates with Watson. Exemples de cas d’utilisation :