Random Forest ist ein häufig verwendeter, von Leo Breiman und Adele Cutler gemeinsam entwickelter und patentierter KI-Algorithmus, der die Ausgabe mehrerer Entscheidungsbäume kombiniert, um ein einzelnes Ergebnis zu erhalten. Seine Benutzerfreundlichkeit und Flexibilität haben seine zügige Akzeptanz gefördert, da er sowohl Klassifizierungs- als auch Regressionsprobleme bewältigen kann.
Da das Random-Forest-Modell aus mehreren Entscheidungsbäumen besteht, ist es zweckdienlich, zunächst mit einer kurzen Beschreibung des Entscheidungsbaumalgorithmus zu beginnen. Entscheidungsbäume beginnen mit einer grundlegenden Frage, wie zum Beispiel „Soll ich surfen gehen?“. Ausgehend von dieser Fragestellung Sie eine Reihe von Fragen stellen, um eine Antwort zu ermitteln, wie z. B. „Sind die Wellenperioden der Dünungswellen lang?“ oder „Weht der Wind ablandig?“. Diese Fragen bilden die Entscheidungsknoten im Baum, die als Mittel zur Aufteilung der Daten dienen. Jede Frage hilft dem Einzelnen, zu einer endgültigen Entscheidung zu gelangen. Diese wird würde durch den Blattknoten gekennzeichnet. Beobachtungen, die den Kriterien entsprechen, folgen dem „Ja“-Zweig und diejenigen, die den Kriterien nicht entsprechen, folgen dem alternativen Pfad. Entscheidungsbäume sind darauf ausgerichtet, die beste Aufteilung für die Unterteilung der Daten zu finden, und sie werden normalerweise mit dem Algorithmus für Klassifizierungs- und Regressionsbäume (CART, Classification and Regression Tree) trainiert. Zur Bewertung der Qualität dieser Aufteilung können Metriken wie die Gini-Unreinheit, der Informationsgewinn (Information Gain) oder der mittlere quadratische Fehler (MSE, Mean Square Error) herangezogen werden.
Dieser Entscheidungsbaum ist ein Beispiel für ein Klassifizierungsproblem, bei dem die Klassenbezeichnungen „Surfen“ und „Nicht surfen“ lauten.
Entscheidungsbäume sind zwar gängige Algorithmen des überwachten Lernens, sie können jedoch für Probleme wie Verzerrungen und Überanpassung anfällig sein. Wenn hingegen mehrere Entscheidungsbäume im Random-Forest-Algorithmus ein so genanntes Ensemble bilden, sagen sie genauere Ergebnisse voraus, insbesondere dann, wenn die einzelnen Bäume nicht miteinander korreliert sind.
Ensemble-Lernmethoden bestehen aus einer Reihe von Klassifikatoren – z. B. Entscheidungsbäumen – und ihre Vorhersagen werden aggregiert, um das am häufigsten vertretene Ergebnis zu ermitteln. Die bekanntesten Ensemble-Methoden sind Bagging (eine Verkürzung der Bezeichnung „Bootstrap-Aggregation“) und Boosting. Im Jahr 1996 führte Leo Breiman (Link außerhalb ibm.com) (PDF, 810 KB) die Bagging-Methode ein. Bei dieser Methode wird eine Zufallsstichprobe von Daten aus einem Trainingsset gezogen und wieder zurückgelegt, was bedeutet, dass die einzelnen Datenpunkte mehrfach ausgewählt werden können. Nachdem mehrere Datenstichproben generiert worden sind, werden diese Modelle dann unabhängig voneinander trainiert, und je nach Art der Aufgabe – d. h. Regression oder Klassifizierung – liefert entweder der Durchschnitt oder aber die Mehrheit dieser Vorhersagen eine genauere Schätzung. Dieser Ansatz wird häufig verwendet, um die Varianz innerhalb eines verrauschten Datasets zu reduzieren.
Der Random-Forest-Algorithmus ist eine Erweiterung der Bagging-Methode, da er sowohl Bagging als auch Feature-Randomness (Zufälligkeit der Merkmale) einsetzt, um einen Wald aus unkorrelierten Entscheidungsbäumen zu erzeugen. Durch Feature-Randomness, auch bekannt als Feature-Bagging oder „Random-Subspace-Methode“ (Link außerhalb von ibm.com) (PDF, 121 KB), wird eine zufällige Teilmenge von Merkmalen (Features) generiert, wodurch eine geringe Korrelation zwischen den Entscheidungsbäumen sichergestellt wird. Dies ist ein wesentlicher Unterschied zwischen Entscheidungsbäumen und Random-Forest-Strukturen. Während Entscheidungsbäume alle möglichen Merkmalaufteilungen (Splits) berücksichtigen, wählen Random Forests nur eine Teilmenge dieser Merkmale aus.
Wenden wir uns wieder dem Beispiel „Soll ich surfen gehen?“ zu: Die Fragen, die ich stelle, um die Vorhersage zu bestimmen, sind gegebenenfalls nicht so umfassend wie die Gruppe von Fragen einer anderen Person. Durch Berücksichtigung der gesamten potenziellen Variabilität in den Daten lässt sich das Risiko der Überanpassung, der Verzerrung (Bias) und der Gesamtvarianz verringern, was zu präziseren Vorhersagen führt.
SPSS Modeler
Random-Forest-Algorithmen verfügen über drei Haupt-Hyperparameter, die vor Beginn des eigentlichen Trainings festgelegt werden müssen. Zu diesen Hyperparametern zählt die Größe der Knoten, die Anzahl der Bäume und die Anzahl der in die Stichprobe einbezogenen Merkmale. Danach kann das Random-Forest-Klassifikationsmerkmal zur Lösung von Regressions- oder Klassifikationsproblemen verwendet werden.
Der Random-Forest-Algorithmus besteht aus einem Verbund von Entscheidungsbäumen und jeder Baum im Ensemble besteht aus einer Datenstichprobe, die aus einem Trainingsset mit Ersetzung (d. h. mit Zurücklegen) gezogen wird. Diese wird als Bootstrap-Stichprobe bezeichnet. Von dieser Trainingsstichprobe wird ein Drittel als Testdaten beiseite gelegt, die so genannte Out-of-Bag-Stichprobe (OOB), auf die wir später noch zurückkommen. Dann wird durch Feature-Bagging eine weitere Instanz von Zufälligkeit eingefügt, wodurch das Dataset an Vielfalt gewinnt und die Korrelation zwischen den Entscheidungsbäumen verringert wird. Je nach Art des Problems erfolgt die Bestimmung der Vorhersage jeweils unterschiedlich. Bei einer Regressionstask werden dazu die einzelnen Entscheidungsbäume gemittelt. Bei einer Klassifizierungstask ergibt sich die vorhergesagte Klasse aus einem Mehrheitsvotum, d. h. der am häufigsten vorkommenden kategorialen Variable. Zum Schluss wird die OOB-Stichprobe zur Kreuzvalidierung verwendet, womit diese Vorhersage abgeschlossen wird.
Der Random-Forest-Algorithmus zeichnet sich durch eine Reihe von Vorteilen und Herausforderungen aus, wenn er für Klassifizierungs- oder Regressionsprobleme verwendet wird. Zu diesen gehören unter anderem die folgenden:
Der Random-Forest-Algorithmus hat in einer Reihe von Branchen Anwendung gefunden und ihnen dadurch ermöglicht, bessere Geschäftsentscheidungen zu treffen. Anwendungsfälle schließen unter anderem die folgenden ein:
IBM® SPSS Modeler bietet Vorhersageanalysen, mit denen Sie Datenmuster erkennen, Vorhersagegenauigkeit erreichen und die Entscheidungsfindung verbessern können.
Erfahren Sie, wie Organisationen weltweit SPSS Modeler für Datenaufbereitung und -erkennung, Vorhersageanalyse, Modellmanagement und -bereitstellung sowie ML nutzen, um Datenressourcen zu monetarisieren.
Erfahren Sie, wie ein sorgfältig entworfenes neuronales Netz mit Random-Forest-Struktur eine bessere Generalisierungsfähigkeit aufweisen kann.