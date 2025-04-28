Gradient Boosting ist ein leistungsstarker und weit verbreiteter Algorithmus für maschinelles Lernen in der Data Science, der für Klassifikationsaufgaben verwendet wird. Er gehört zu einer Familie von Ensemble-Lernmethoden, zu der auch das Bagging zählt. Dabei werden Vorhersagen mehrerer einfacher Modelle kombiniert, um die Gesamtleistung zu verbessern. Die Regression mit Gradient Boosting verwendet Gradient Boosting, um Ausgabedaten auf der Grundlage einer linearen Regression besser zu generieren. Der Gradient Boosting Classifier, den Sie in diesem Tutorial erkunden werden, verwendet Gradient Boosting, um Eingaben als zu zwei oder mehr verschiedenen Klassen gehörend zu klassifizieren.

Gradient Boosting ist eine Weiterentwicklung des AdaBoost-Algorithmus, der Entscheidungsstümpfe anstelle von Entscheidungsbäumen verwendet. Diese Entscheidungsstümpfe ähneln Bäumen in einem zufälligen Wald, haben aber nur einen Knoten und zwei Blätter. Beim Gradient-Boosting-Algorithmus werden Modelle nacheinander erstellt. Dabei versucht jeder Schritt, die Fehler der vorherigen Iteration zu korrigieren. Der Trainingsprozess beginnt häufig mit der Erstellung eines schwachen Lerners, beispielsweise eines flachen Entscheidungsbaums, für die Trainingsdaten. Nach diesem anfänglichen Training berechnet das Gradient Boosting den Fehler zwischen den tatsächlichen und den vorhergesagten Werten (die oft als Residuen bezeichnet werden) und bildet dann einen neuen Schätzer aus, um diesen Fehler vorherzusagen. Dieser neue Baum wird dem Ensemble hinzugefügt, um die Vorhersagen zu aktualisieren und einen starken Lerner zu schaffen. Beim Gradient Boosting wird dieser Prozess wiederholt, bis die Verbesserung stoppt oder eine feste Anzahl von Iterationen erreicht ist. Das Boosten selbst ähnelt dem Gradientenabstieg, aber es „senkt“ das Gefälle, indem neue Modelle eingeführt werden.

Boosting bietet mehrere Vorteile: Zum einen zeigt es eine gute Leistung bei tabellarischen Daten, zum anderen kann es sowohl numerische als auch kategoriale Daten verarbeiten. Zudem funktioniert es mit Standardparametern gut und ist robust gegenüber Sonderfällen im Datensatz. Allerdings dauert das Training lange und hängt sehr empfindlich von den festgelegten Hyperparametern des Trainingsprozesses ab. Wenn Sie die Anzahl der erstellten Bäume verringern, kann dies den Trainingsprozess bei der Arbeit mit einem großen Datensatz beschleunigen. Dieser Schritt wird normalerweise über den Parameter „maximale Tiefe” durchgeführt. Gradient Boosting kann außerdem zu einer Überanpassung neigen, wenn es nicht richtig abgestimmt ist. Um eine Überanpassung zu verhindern, können Sie die Lernrate für den Trainingsprozess konfigurieren. Dieser Prozess ist für einen Klassifikator oder einen Gradient-Boosting-Regressor ungefähr derselbe und wird im beliebten xgboost verwendet. Dabei handelt es sich um eine Erweiterung von Gradient Boosting durch Hinzufügen von Regularisierung.

In diesem Tutorial lernen Sie, wie Sie zwei verschiedene Programmiersprachen und Gradient-Boosting-Bibliotheken verwenden, um Pinguine anhand des beliebten Palmer-Penguins-Datensatzes zu klassifizieren.

