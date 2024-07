Random Forest ist ein häufig verwendeter, von Leo Breiman und Adele Cutler gemeinsam entwickelter und patentierter KI-Algorithmus, der die Ausgabe mehrerer Entscheidungsbäume kombiniert, um ein einzelnes Ergebnis zu erhalten. Seine Benutzerfreundlichkeit und Flexibilität haben seine zügige Akzeptanz gefördert, da er sowohl Klassifizierungs- als auch Regressionsprobleme bewältigen kann.

Entscheidungsbäume

Da das Random-Forest-Modell aus mehreren Entscheidungsbäumen besteht, ist es zweckdienlich, zunächst mit einer kurzen Beschreibung des Entscheidungsbaumalgorithmus zu beginnen. Entscheidungsbäume beginnen mit einer grundlegenden Frage, wie zum Beispiel „Soll ich surfen gehen?“. Ausgehend von dieser Fragestellung Sie eine Reihe von Fragen stellen, um eine Antwort zu ermitteln, wie z. B. „Sind die Wellenperioden der Dünungswellen lang?“ oder „Weht der Wind ablandig?“. Diese Fragen bilden die Entscheidungsknoten im Baum, die als Mittel zur Aufteilung der Daten dienen. Jede Frage hilft dem Einzelnen, zu einer endgültigen Entscheidung zu gelangen. Diese wird würde durch den Blattknoten gekennzeichnet. Beobachtungen, die den Kriterien entsprechen, folgen dem „Ja“-Zweig und diejenigen, die den Kriterien nicht entsprechen, folgen dem alternativen Pfad. Entscheidungsbäume sind darauf ausgerichtet, die beste Aufteilung für die Unterteilung der Daten zu finden, und sie werden normalerweise mit dem Algorithmus für Klassifizierungs- und Regressionsbäume (CART, Classification and Regression Tree) trainiert. Zur Bewertung der Qualität dieser Aufteilung können Metriken wie die Gini-Unreinheit, der Informationsgewinn (Information Gain) oder der mittlere quadratische Fehler (MSE, Mean Square Error) herangezogen werden.

Dieser Entscheidungsbaum ist ein Beispiel für ein Klassifizierungsproblem, bei dem die Klassenbezeichnungen „Surfen“ und „Nicht surfen“ lauten.

Entscheidungsbäume sind zwar gängige Algorithmen des überwachten Lernens, sie können jedoch für Probleme wie Verzerrungen und Überanpassung anfällig sein. Wenn hingegen mehrere Entscheidungsbäume im Random-Forest-Algorithmus ein so genanntes Ensemble bilden, sagen sie genauere Ergebnisse voraus, insbesondere dann, wenn die einzelnen Bäume nicht miteinander korreliert sind.

Ensemble-Methoden

Ensemble-Lernmethoden bestehen aus einer Reihe von Klassifikatoren – z. B. Entscheidungsbäumen – und ihre Vorhersagen werden aggregiert, um das am häufigsten vertretene Ergebnis zu ermitteln. Die bekanntesten Ensemble-Methoden sind Bagging (eine Verkürzung der Bezeichnung „Bootstrap-Aggregation“) und Boosting. Im Jahr 1996 führte Leo Breiman (Link außerhalb ibm.com) (PDF, 810 KB) die Bagging-Methode ein. Bei dieser Methode wird eine Zufallsstichprobe von Daten aus einem Trainingsset gezogen und wieder zurückgelegt, was bedeutet, dass die einzelnen Datenpunkte mehrfach ausgewählt werden können. Nachdem mehrere Datenstichproben generiert worden sind, werden diese Modelle dann unabhängig voneinander trainiert, und je nach Art der Aufgabe – d. h. Regression oder Klassifizierung – liefert entweder der Durchschnitt oder aber die Mehrheit dieser Vorhersagen eine genauere Schätzung. Dieser Ansatz wird häufig verwendet, um die Varianz innerhalb eines verrauschten Datasets zu reduzieren.

Random-Forest-Algorithmus

Der Random-Forest-Algorithmus ist eine Erweiterung der Bagging-Methode, da er sowohl Bagging als auch Feature-Randomness (Zufälligkeit der Merkmale) einsetzt, um einen Wald aus unkorrelierten Entscheidungsbäumen zu erzeugen. Durch Feature-Randomness, auch bekannt als Feature-Bagging oder „Random-Subspace-Methode“ (Link außerhalb von ibm.com) (PDF, 121 KB), wird eine zufällige Teilmenge von Merkmalen (Features) generiert, wodurch eine geringe Korrelation zwischen den Entscheidungsbäumen sichergestellt wird. Dies ist ein wesentlicher Unterschied zwischen Entscheidungsbäumen und Random-Forest-Strukturen. Während Entscheidungsbäume alle möglichen Merkmalaufteilungen (Splits) berücksichtigen, wählen Random Forests nur eine Teilmenge dieser Merkmale aus.

Wenden wir uns wieder dem Beispiel „Soll ich surfen gehen?“ zu: Die Fragen, die ich stelle, um die Vorhersage zu bestimmen, sind gegebenenfalls nicht so umfassend wie die Gruppe von Fragen einer anderen Person. Durch Berücksichtigung der gesamten potenziellen Variabilität in den Daten lässt sich das Risiko der Überanpassung, der Verzerrung (Bias) und der Gesamtvarianz verringern, was zu präziseren Vorhersagen führt.