Im Folgenden finden Sie eine Schritt-für-Schritt-Aufschlüsselung, wie der Prozess des Gradient Boosting funktioniert.
Initialisierung: Beginnen Sie mit der Verwendung eines Trainingssatzes, um eine Grundlage mit einem Basis-Lernmodell – häufig ein Decision Tree – zu schaffen. Dessen anfängliche Vorhersagen werden zufällig generiert. In der Regel enthält der Decision Tree nur eine Handvoll Blattknoten oder Endknoten. Diese schwachen oder Basislernenden werden aufgrund ihrer Interpretierbarkeit oft als optimaler Ausgangspunkt ausgewählt. Die anfängliche Einrichtung ebnet den Weg für nachfolgende Iterationen.
Berechnen Sie die Residuen, indem Sie für jedes Trainingsbeispiel den vorhergesagten Wert vom tatsächlichen Wert abziehen. In diesem Schritt werden Bereiche identifiziert, in denen die Vorhersagen des Modells verbessert werden müssen.
Verfeinerung mit Regularisierung: Nach der Residuenberechnung und vor dem Training eines neuen Modells findet die Regularisierung statt. In dieser Phase geht es darum, den Einfluss jedes neuen schwachen Lernenden, der in das Ensemble integriert ist, herunterzuskalieren. Durch eine sorgfältige Abstimmung kann die Geschwindigkeit des Boosting-Algorithmus gesteuert werden. So kann eine Überanpassung verhindert und die Gesamtleistung optimiert werden.
Training des nächsten Modells: Verwenden Sie die im vorherigen Schritt berechneten Restfehler als Ziele, um ein neues Modell oder einen schwachen Lernenden zu schulen und diese genau vorherzusagen. In diesem Schritt geht es darum, die Fehler der vorherigen Modelle zu korrigieren und die Gesamtvorhersage zu verfeinern.
Ensemble-Aktualisierungen: In dieser Phase wird die Leistung des aktualisierten Ensembles (einschließlich des neu trainierten Modells) in der Regel mithilfe eines separaten Testsatzes bewertet. Wenn die Leistung bei diesem Holdout-Datensatz zufriedenstellend ist, kann das Ensemble durch die Einbindung des neuen schwachen Lernenden aktualisiert werden. Andernfalls können Anpassungen der Hyperparameter erforderlich sein.
Wiederholung: Wiederholen Sie die zuvor vorgestellten Schritte nach Bedarf. Jede Iteration basiert auf dem Basismodell und verfeinert es durch das Training neuer Bäume. Dadurch wird die Genauigkeit des Modells weiter verbessert. Wenn die Aktualisierung des Ensembles und das endgültige Modell im Vergleich zum Basismodell hinsichtlich der Genauigkeit zufriedenstellend sind, gehen Sie zu den nächsten Schritten über.
Stoppkriterien: Brechen Sie den Boosting-Prozess ab, wenn eines der folgenden Stoppkriterien erfüllt ist: eine maximale Anzahl von Iterationen, eine bestimmte Zielgenauigkeit oder abnehmende Renditen. Dieser Schritt trägt dazu bei, dass das Modell das erwartete Gleichgewicht zwischen Komplexität und Leistung in seiner endgültigen Vorhersage erreicht.