Startseite
Themen
Einpacken
Bagging, auch bekannt als Bootstrap-Aggregation, ist eine Methode des Ensemble Learnings, die häufig zur Reduzierung der Varianz innerhalb eines verrauschten Datensatzes verwendet wird.
Beim Bagging wird eine zufällige Stichprobe von Daten in einem Trainingssatz mit Ersetzung ausgewählt. Das bedeutet, dass die einzelnen Datenpunkte mehr als einmal ausgewählt werden können. Nach der Erstellung mehrerer Datenstichproben werden diese schwachen Modelle dann unabhängig voneinander trainiert. Je nach Art der Aufgabe, z. B. Regression oder Klassifizierung, ergibt der Durchschnitt oder die Mehrheit dieser Vorhersagen eine genauere Schätzung.
Hinweis: Der Random-Forest-Algorithmus gilt als Erweiterung der Bagging-Methode, die sowohl Bagging als auch die Randomisierung von Merkmalen verwendet, um einen unkorrelierten Wald von Decision Trees zu erstellen.
Das Ensemble Learning macht sich die Idee der „Weisheit der Massen“ zu eigen, die besagt, dass die Entscheidungsfindung einer größeren Gruppe von Menschen in der Regel besser ist als die eines einzelnen Experten. In ähnlicher Weise bezieht sich das Ensemble Learning auf eine Gruppe (oder ein Ensemble) von Basis-Lernern oder -Modellen, die kollektiv auf eine bessere Endvorhersage hinarbeiten.
Ein einzelnes Modell, das auch als Basis- oder schwacher Lerner bezeichnet wird, kann aufgrund einer hohen Varianz oder einer großen Verzerrung individuell nicht gut abschneiden. Wenn jedoch schwache Lerner zusammengefasst werden, können sie einen starken Lerner bilden, weil ihre Kombination die Verzerrung oder Varianz reduziert, was wiederum zu einer besseren Modellleistung führt.
Ensemble-Methoden verwenden häufig Decision Trees zur Veranschaulichung. Wenn dieser Algorithmus nicht bereinigt wurde, kann er zu einer Überanpassung neigen und eine hohe Varianz und eine geringe Abweichung aufweisen. Umgekehrt kann er auch zu einer Unteranpassung mit geringer Varianz und hoher Verzerrung neigen, wenn er sehr klein ist. Dies gilt z. B. für einen Entscheidungsstumpf, also einen Decision Tree mit einer Ebene.
Bedenken Sie, dass ein Algorithmus, der sich in Bezug auf seinen Trainingssatz durch eine Über- oder Unteranpassung auszeichnet, nicht gut auf neue Datensätze verallgemeinert werden kann. Daher werden Ensemble-Methoden verwendet, um diesem Verhalten entgegenzuwirken und eine Verallgemeinerung des Modells auf neue Datensätze zu ermöglichen. Obwohl Decision Trees eine hohe Varianz oder eine hohe Verzerrung aufweisen können, ist dies nicht die einzige Modellierungstechnik, die das Ensemble Learning für die Suche nach dem „Sweet Spot“ innerhalb des Kompromisses zwischen Verzerrung und Varianz nutzt.
Bagging und Boosting sind zwei wesentliche Arten von Ensemble-Lernverfahren. Wie in dieser Studie (Link befindet sich außerhalb von ibm.com) hervorgehoben wird, besteht der Hauptunterschied zwischen diesen Lernmethoden in der Art, wie sie trainiert werden.
Beim Bagging werden die schwachen Lerner parallel trainiert, während sie beim Boosting sequentiell lernen. Das bedeutet, dass eine Reihe von Modellen erstellt wird und mit jeder neuen Modelliteration die Gewichte der falsch klassifizierten Daten im vorherigen Modell erhöht werden.
Diese Umverteilung der Gewichte hilft dem Algorithmus bei der Identifizierung der Parameter, auf die er sich zur Verbesserung seiner Leistung konzentrieren muss. AdaBoost, die Abkürzung für „adaptativer Boosting-Algorithmus“, ist einer der beliebtesten Boosting-Algorithmen, da er einer der ersten seiner Art war. Andere Arten von Boosting-Algorithmen sind XGBoost, GradientBoost und BrownBoost.
Ein weiterer Unterschied zwischen Bagging und Boosting sind die Szenarien, in denen sie eingesetzt werden. So kommen Bagging-Methoden in der Regel bei schwachen Lernern zum Einsatz, die eine hohe Varianz und eine geringe Verzerrung aufweisen. Boosting-Methoden werden dagegen bei geringer Varianz und hoher Verzerrung eingesetzt.
Verbinden und integrieren Sie Ihre Systeme, um Ihre Infrastruktur für KI vorzubereiten.
1996 führte Leo Breiman (Link befindet sich außerhalb von ibm.com) den Bagging-Algorithmus ein, der aus drei grundlegenden Schritten besteht:
Die Bagging-Methode bietet mehrere wesentliche Vorteile und Herausforderungen, wenn sie für Klassifizierungs- oder Regressionsprobleme verwendet wird. Zu den wichtigsten Vorteilen des Bagging gehören:
Zu den wichtigsten Herausforderungen des Bagging gehören:
Die Bagging-Methode wird in vielen Branchen eingesetzt und bietet Einblicke in die reale Welt und interessante Perspektiven, wie z. B. bei den GRAMMY-Debatten mit Watson. Zu den wichtigsten Anwendungsfällen gehören:
Nutzen Sie prädiktive Analysen, die Ihnen helfen, Datenmuster aufzudecken, Vorhersagegenauigkeit zu erzielen und die Entscheidungsfindung zu verbessern.
Erstellen und skalieren Sie vertrauenswürdige KI in jeder Cloud. Automatisieren Sie den KI-Lebenszyklus für ModelOps.