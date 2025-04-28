Le gradient boosting est un algorithme de machine learning puissant, largement utilisé dans le domaine de la science des données pour accomplir les tâches de classification. Comme le bagging, il fait partie d’une famille de méthodes d’apprentissage d’ensemble qui combinent les prévisions de plusieurs modèles plus simples pour améliorer la performance globale. La régression par gradient boosting s’appuie sur le gradient boosting pour mieux générer les données de sortie sur la base d’une régression linéaire. Les modèles de classification par gradient boosting, que vous découvrirez dans ce tutoriel, s’appuient sur le gradient boosting pour mieux classer les données d’entrée comme appartenant à deux ou plusieurs classes différentes.

Le gradient boosting est une mise à jour de l’algorithme adaboost qui utilise des souches de décision à la place des arbres. Ces souches de décision sont similaires aux arbres d’une forêt aléatoire, mais elles n’ont qu’un seul nœud et deux feuilles. L’algorithme de gradient boosting permet de construire des modèles de manière séquentielle, chaque étape essayant de corriger les erreurs de l’itération précédente. Le processus d’entraînement commence souvent par la création d’un apprenant faible, tel qu’un arbre de décision superficiel, pour les données d’entraînement. Après cet entraînement initial, le gradient boosting calcule l’erreur entre les valeurs réelles et les valeurs prédites (ou résiduelles), puis entraîne un nouvel estimateur à prédire cette erreur. Ce nouvel arbre est ajouté à l’ensemble pour mettre à jour les prédictions et créer un apprenant fort. Le gradient boosting répète ce processus jusqu’à ce que l’amélioration cesse ou qu’un nombre fixe d’itérations soit atteint. Le boosting est similaire à la descente de gradient, mais elle « fait descendre » le gradient en introduisant de nouveaux modèles.

Le boosting présente plusieurs avantages : il a une bonne performance sur les données tabulaires, et il peut gérer tant les données numériques que les données catégorielles. Il fonctionne bien même avec les paramètres par défaut et résiste aux données aberrantes du jeu de données. Cependant, il peut être lent à entraîner et souvent très sensible aux hyperparamètres définis pour le processus d’entraînement. Réduire le nombre d’arbres créés peut accélérer le processus d’entraînement lorsque vous travaillez avec un jeu de données volumineux. Cette étape est généralement réalisée à l’aide du paramètre de profondeur maximale. Le gradient boosting peut également être sujet au surapprentissage s’il n’est pas réglé correctement. Pour éviter le surapprentissage, vous pouvez configurer le taux d’apprentissage pour le processus d’entraînement. Ce processus, qui est à peu près le même pour les modèles de classification et de régression par gradient boosting, est utilisé dans le célèbre xgboost, qui s’appuie sur le gradient boosting en ajoutant une régularisation.

Dans ce tutoriel, vous apprendrez à utiliser deux langages de programmation différents et des bibliothèques de boosting de gradient pour classer les pingouins à l’aide du jeu de données populaire Palmer Pinguins.

Vous pouvez télécharger le notebook de ce tutoriel sur Github.