Le bagging, également également connu comme regroupement d'amorces, est la méthode d'apprentissage d'ensemble qui est couramment utilisée pour réduire les écarts au sein d'un fichier bruyant. Dans le bagging, un échantillon aléatoire de données est sélectionné avec remplacement dans un jeu d'apprentissage, ce qui signifie que les points de données individuels peuvent être choisis plus d'une fois. Après que plusieurs échantillons de données sont générés, ces modèles sont alors entraînés de manière indépendante, et en fonction du type de tâche, c'est-à-dire d'une régression ou d'une classification par exemple, la moyenne ou la majorité de ces prédictions génère une estimation plus précise.
Pour rappel, l'algorithme forêt aléatoire est considéré comme une extension de la méthode bagging, car il utilise à la fois le bagging et la fonction randomness pour créer une forêt non corrélée d'arbres de décision.
L'apprentissage ensembliste donne du crédit à l'idée de la « sagesse des foules » qui suggère que la prise de décision d'un grand groupe de personnes est généralement meilleure que celle d'un spécialiste. De même, l'apprentissage ensembliste fait référence à un groupe (ou ensemble) d'apprenants de base, ou modèles, qui travaillent collectivement pour obtenir une meilleure prédiction finale. Un modèle unique, également appelé base ou apprenant faible, peut ne pas être performant individuellement en raison d'une variance élevée ou d'un biais important. Cependant, lorsque les apprenants faibles sont agrégés, ils peuvent former un apprenant fort, car leur combinaison réduit le biais ou la variance, ce qui permet au modèle d'être plus performant.
Les méthodes ensemblistes sont fréquemment illustrées à l'aide d'arbres de décision, car cet algorithme peut être sujet à un ajustement excessif (variance élevée et faible biais) lorsqu'il n'a pas été élagué et il peut également se prêter à un ajustement insuffisant (variance faible et biais élevé) lorsqu'il est très petit, comme une souche de décision, qui est un arbre de décision à un seul niveau. Notez que lorsqu'un algorithme s'adapte trop ou pas assez à son ensemble d'apprentissage, il ne peut pas bien permettre la généralisation en nouveaux ensembles de données. Les méthodes ensemblistes sont donc utilisées pour contrecarrer ce comportement et permettre la généralisation du modèle à de nouveaux ensembles de données. Si les arbres de décision peuvent présenter une variance ou un biais élevés, il convient de noter que ce n'est pas la seule technique de modélisation qui exploite l'apprentissage ensembliste pour trouver le « point idéal » dans le compromis biais-variance.
Le bagging et le boosting sont deux principaux types de méthodes d'apprentissage ensembliste. Comme le souligne cette étude (PDF, 242 Ko) (lien externe à ibm.com), la principale différence entre ces méthodes d'apprentissage réside dans la manière dont elles sont entraînées. Dans le bagging, les apprenants faibles sont entraînés en parallèle, alors que dans le boosting, ils apprennent de manière séquentielle. Cela signifie qu'une série de modèles est construite et qu'à chaque nouvelle itération du modèle, les poids des données mal classées dans le modèle précédent sont augmentés. Cette redistribution des poids permet à l'algorithme d'identifier les paramètres sur lesquels il doit se concentrer pour améliorer ses performances. AdaBoost, qui signifie « algorithme de boosting adaptatif », est l'un des algorithmes de boosting les plus utilisés, car il a été l'un des premiers de son genre. Parmi les autres types d'algorithmes de boosting, figurent XGBoost, GradientBoost et BrownBoost.
Un autre point sur lequel bagging et boosting diffèrent : les scénarios dans lesquels ils sont utilisés. Par exemple, les méthodes de bagging sont généralement utilisées sur des apprenants faibles qui présentent une variance élevée et un faible biais, tandis que les méthodes d'amplification sont utilisées lorsque la variance est faible et le biais élevé.
En 1996, Léo Breiman (PDF, 829 Ko) (lien hors ibm.com) a introduit l'algorithme bagging, qui comporte trois étapes basiques :
La méthode bagging présente un certain nombre d'avantages et de défis majeurs lorsqu'elle est utilisée pour des problèmes de classification ou de régression. Les principaux avantages du bagging comprennent :
Les principaux défis du bagging comprennent :
La technique du bagging est utilisée dans un grand nombre d'industries, fournissant des informations à la fois sur la valeur du monde réel et sur des perspectives intéressantes, comme dans le GRAMMY Debates with Watson. Voici quelques exemples de cas d'utilisation :
Les solutions IBM prennent en charge le cycle de vie de l'apprentissage automatique de bout en bout. Découvrez comment les outils de modélisation des données IBM, comme IBM SPSS Modeler et Watson Studio, peuvent vous aider à développer différents modèles et à les régler correctement pour plus d'exactitude, améliorant vos prédictions et toutes les analyses de données ultérieures.
Inscrivez-vous pour obtenir un IBMid et créer un compte IBM Cloud dès aujourd'hui, et rejoignez la IBM Data Science Community pour en savoir plus sur la science des données et l'apprentissage automatique.
IBM SPSS Modeler fournit des analyses prédictives permettant de reconnaître des modèles de données, d'obtenir des prévisions précises et d'améliorer la prise de décision.
Construisez et mettez à l'échelle une IA fiable dans le cloud de votre choix. Automatisez le cycle de vie de l'IA pour ModelOps.
Explorez la communauté IBM Data Science pour en savoir plus sur la science des données et l'apprentissage automatique.