Qu'est-ce que le bagging ?
Illustration isométrique de Software for Z
Bagging

Découvrez comment l'agrégation d'amorces, ou bagging, peut améliorer l'exactitude de votre apprentissage automatique, vous permettant ainsi de développer de meilleures informations.


Qu'est-ce que le bagging ?

Le bagging, également également connu comme regroupement d'amorces, est la méthode d'apprentissage d'ensemble qui est couramment utilisée pour réduire les écarts au sein d'un fichier bruyant. Dans le bagging, un échantillon aléatoire de données est sélectionné avec remplacement dans un jeu d'apprentissage, ce qui signifie que les points de données individuels peuvent être choisis plus d'une fois. Après que plusieurs échantillons de données sont générés, ces modèles sont alors entraînés de manière indépendante, et en fonction du type de tâche, c'est-à-dire d'une régression ou d'une classification par exemple, la moyenne ou la majorité de ces prédictions génère une estimation plus précise. 

Pour rappel, l'algorithme forêt aléatoire est considéré comme une extension de la méthode bagging, car il utilise à la fois le bagging et la fonction randomness pour créer une forêt non corrélée d'arbres de décision.

Apprentissage ensembliste

 

L'apprentissage ensembliste donne du crédit à l'idée de la « sagesse des foules » qui suggère que la prise de décision d'un grand groupe de personnes est généralement meilleure que celle d'un spécialiste. De même, l'apprentissage ensembliste fait référence à un groupe (ou ensemble) d'apprenants de base, ou modèles, qui travaillent collectivement pour obtenir une meilleure prédiction finale. Un modèle unique, également appelé base ou apprenant faible, peut ne pas être performant individuellement en raison d'une variance élevée ou d'un biais important. Cependant, lorsque les apprenants faibles sont agrégés, ils peuvent former un apprenant fort, car leur combinaison réduit le biais ou la variance, ce qui permet au modèle d'être plus performant.

Les méthodes ensemblistes sont fréquemment illustrées à l'aide d'arbres de décision, car cet algorithme peut être sujet à un ajustement excessif (variance élevée et faible biais) lorsqu'il n'a pas été élagué et il peut également se prêter à un ajustement insuffisant (variance faible et biais élevé) lorsqu'il est très petit, comme une souche de décision, qui est un arbre de décision à un seul niveau. Notez que lorsqu'un algorithme s'adapte trop ou pas assez à son ensemble d'apprentissage, il ne peut pas bien permettre la généralisation en nouveaux ensembles de données. Les méthodes ensemblistes sont donc utilisées pour contrecarrer ce comportement et permettre la généralisation du modèle à de nouveaux ensembles de données. Si les arbres de décision peuvent présenter une variance ou un biais élevés, il convient de noter que ce n'est pas la seule technique de modélisation qui exploite l'apprentissage ensembliste pour trouver le « point idéal » dans le compromis biais-variance.

Bagging vs boosting

 

Le bagging et le boosting sont deux principaux types de méthodes d'apprentissage ensembliste. Comme le souligne cette étude (PDF, 242 Ko) (lien externe à ibm.com), la principale différence entre ces méthodes d'apprentissage réside dans la manière dont elles sont entraînées. Dans le bagging, les apprenants faibles sont entraînés en parallèle, alors que dans le boosting, ils apprennent de manière séquentielle. Cela signifie qu'une série de modèles est construite et qu'à chaque nouvelle itération du modèle, les poids des données mal classées dans le modèle précédent sont augmentés. Cette redistribution des poids permet à l'algorithme d'identifier les paramètres sur lesquels il doit se concentrer pour améliorer ses performances. AdaBoost, qui signifie « algorithme de boosting adaptatif », est l'un des algorithmes de boosting les plus utilisés, car il a été l'un des premiers de son genre. Parmi les autres types d'algorithmes de boosting, figurent XGBoost, GradientBoost et BrownBoost.

Un autre point sur lequel bagging et boosting diffèrent : les scénarios dans lesquels ils sont utilisés. Par exemple, les méthodes de bagging sont généralement utilisées sur des apprenants faibles qui présentent une variance élevée et un faible biais, tandis que les méthodes d'amplification sont utilisées lorsque la variance est faible et le biais élevé.


Comment fonctionne le bagging

En 1996, Léo Breiman (PDF, 829 Ko) (lien hors ibm.com) a introduit l'algorithme bagging, qui comporte trois étapes basiques :

  1. Amorçage :  le bagging exploite une technique d'échantillonnage d'amorçage pour créer divers échantillons. Cette méthode de rééchantillonnage génère différents sous-ensembles du jeu de données d'apprentissage par sélection de points de données de manière aléatoire et avec remplacement. Cela signifie que chaque fois que vous sélectionnez un point de données à partir du jeu de données d'apprentissage, vous pouvez sélectionner le même exemplaire plusieurs fois. En conséquence, une valeur/exemplaire répétée deux fois (ou plus) dans un échantillon.
  2. Entraînement parallèle : ces échantillons d'amorces sont ensuite entraînés de façon indépendante et en parallèle les uns avec les autres à l'aide d'apprenants faibles ou de base.
  3. Agrégation : enfin, en fonction de la tâche (c.-à-d. régression ou classification), une moyenne ou une majorité des prédictions sont prises pour calculer une estimation plus précise. Dans le cas de la régression, une moyenne est prise de toutes les sorties prédites par les classificateurs individuels ; c'est ce qu'on appelle le vote doux. Pour les problèmes de classification, la classe avec la plus grande majorité de votes est acceptée ; c'est ce qu'on appelle le vote dur ou le vote majoritaire.

Avantages et défis du bagging

La méthode bagging présente un certain nombre d'avantages et de défis majeurs lorsqu'elle est utilisée pour des problèmes de classification ou de régression. Les principaux avantages du bagging comprennent :

  • Facilité de mise en œuvre: les bibliothèques Python comme scikit-learn (également connu comme sklearn) facilitent la combinaison des prédictions des apprenants de base ou des estimateurs pour améliorer les performances du modèle. Leur documentation (lien réside hors IBM) présente les modules disponibles que vous pouvez exploiter dans votre optimisation du modèle.
  • Réduction de l'écart: le bagging permet de réduire l'écart au sein d'un algorithme d'apprentissage. Ceci est particulièrement utile avec des données de grande dimension, où des valeurs manquantes peuvent créer encore plus d'écart, les rendant plus sujettes au surajustement et empêchant la généralisation précise de nouveaux jeux de données.

Les principaux défis du bagging comprennent :

  • Perte d'interprétabilité: il est difficile de déduire des informations commerciales très précises du bagging en raison de la moyenne impliquée dans les prédictions. Alors que la sortie est plus précise que n'importe quel point de données individuel, un fichier plus précis ou complet peut également générer plus de précision au sein d'une classification unique ou d'un modèle de régression.
  • Coûteux en ressources informatiques : le bagging ralentir et devient plus intense au fur et à mesure que le nombre d'itérations augmente. Ainsi, il n'est pas bien adapté aux applications en temps réel. Les systèmes en cluster ou un grand nombre de noyaux de traitement sont idéaux pour créer rapidement des ensembles ensachés sur de grands jeux de tests.
  • Moins souple: en tant que technique, le bagging fonctionne particulièrement bien avec des algorithmes qui sont moins stables. Ceux qui sont plus stables ou sujets à de haute quantités de biais ne fournissent pas beaucoup d'avantages car il y a moins de variation dans le fichier du modèle. Comme indiqué dans le Guide pratique de l'apprentissage automatique (lien hors IBM), « le bagging d'un modèle de régression linéaire ramènera effectivement les prédictions originales pour un assez grand b. »

Applications du bagging

La technique du bagging est utilisée dans un grand nombre d'industries, fournissant des informations à la fois sur la valeur du monde réel et sur des perspectives intéressantes, comme dans le GRAMMY Debates with Watson. Voici quelques exemples de cas d'utilisation :

  • Soins de santé: le bagging est utilisé pour former des prédictions de données médicales. Par exemple, les recherches (PDF, 2,8 Mo) (lien externe à ibm.com) montrent que des méthodes d'ensemble ont été utilisées pour une série de problèmes de bio-informatique, comme la sélection de gènes et / ou d'une protéine pour identifier un trait d'intérêt spécifique. Plus précisément, ces recherches (lien hors ibm.com) se penchent sur son utilisation pour prévoir l'apparition du diabète sur la base de divers prédicteurs de risque.
  • Informatique: le bagging peut également améliorer la précision et l'exactitude des systèmes informatiques, tels que ceux des systèmes de détection d'intrusion réseau. En même temps, ces recherches (lien hors ibm.com) examinent comment le bagging peut améliorer l'exactitude de la détection d'intrusion réseau et réduire les taux de faux positifs.
  • Environnement: des méthodes d'ensemble, comme le bagging, ont été appliquées dans le domaine de la détection à distance. Plus précisement, ces recherches (lien externe à ibm.com) montrent comment il a été utilisé pour mapper les types de zones humides dans un environnement côtier.
  • La finance : le bagging a également été exploité avec des modèles d'apprentissage en profondeur dans l'industrie financière, automatisant les tâches critiques, y compris la détection des fraudes, les évaluations de risque de crédit et les problèmes de tarification. Ces recherches (lien hors ibm.com) montrent comment le bagging parmi d'autres techniques d'apprentissage automatique a été mis à profit pour évaluer les risques de prêt par défaut. Cette étude (lien hors ibm.com) souligne comment le bagging aide à réduire les risques en évitant la fraude à la carte de crédit au sein des institutions bancaires et financières.

Bagging et IBM

Les solutions IBM prennent en charge le cycle de vie de l'apprentissage automatique de bout en bout. Découvrez comment les outils de modélisation des données IBM, comme IBM SPSS Modeler et Watson Studio, peuvent vous aider à développer différents modèles et à les régler correctement pour plus d'exactitude, améliorant vos prédictions et toutes les analyses de données ultérieures.

Inscrivez-vous pour obtenir un IBMid et créer un compte IBM Cloud dès aujourd'hui, et rejoignez la IBM Data Science Community pour en savoir plus sur la science des données et l'apprentissage automatique.


Solutions connexes

IBM SPSS Modeler

IBM SPSS Modeler fournit des analyses prédictives permettant de reconnaître des modèles de données, d'obtenir des prévisions précises et d'améliorer la prise de décision.


Watson Studio

Construisez et mettez à l'échelle une IA fiable dans le cloud de votre choix. Automatisez le cycle de vie de l'IA pour ModelOps.


Bagging vs Boosting

Explorez la communauté IBM Data Science pour en savoir plus sur la science des données et l'apprentissage automatique.