Was ist Random Forest?
Informieren Sie sich über den Random-Forest-Algorithmus und erfahren Sie, wie er Ihnen helfen kann, bessere Entscheidungen zu treffen, um Ihre Geschäftsziele zu erreichen
Schwarzer und blauer Hintergrund
Was ist Random Forest?

Random Forest ist ein häufig verwendeter, von Leo Breiman und Adele Cutler gemeinsam entwickelter und patentierter KI-Algorithmus, der die Ausgabe mehrerer Entscheidungsbäume kombiniert, um ein einzelnes Ergebnis zu erhalten. Seine Benutzerfreundlichkeit und Flexibilität haben seine zügige Akzeptanz gefördert, da er sowohl Klassifizierungs- als auch Regressionsprobleme bewältigen kann.

Entscheidungsbäume

Da das Random-Forest-Modell aus mehreren Entscheidungsbäumen besteht, ist es zweckdienlich, zunächst mit einer kurzen Beschreibung des Entscheidungsbaumalgorithmus zu beginnen. Entscheidungsbäume beginnen mit einer grundlegenden Frage, wie zum Beispiel „Soll ich surfen gehen?“. Ausgehend von dieser Fragestellung Sie eine Reihe von Fragen stellen, um eine Antwort zu ermitteln, wie z. B. „Sind die Wellenperioden der Dünungswellen lang?“ oder „Weht der Wind ablandig?“. Diese Fragen bilden die Entscheidungsknoten im Baum, die als Mittel zur Aufteilung der Daten dienen. Jede Frage hilft dem Einzelnen, zu einer endgültigen Entscheidung zu gelangen. Diese wird würde durch den Blattknoten gekennzeichnet. Beobachtungen, die den Kriterien entsprechen, folgen dem „Ja“-Zweig und diejenigen, die den Kriterien nicht entsprechen, folgen dem alternativen Pfad.  Entscheidungsbäume sind darauf ausgerichtet, die beste Aufteilung für die Unterteilung der Daten zu finden, und sie werden normalerweise mit dem Algorithmus für Klassifizierungs- und Regressionsbäume (CART, Classification and Regression Tree) trainiert. Zur Bewertung der Qualität dieser Aufteilung können Metriken wie die Gini-Unreinheit, der Informationsgewinn (Information Gain) oder der mittlere quadratische Fehler (MSE, Mean Square Error) herangezogen werden.  

Dieser Entscheidungsbaum ist ein Beispiel für ein Klassifizierungsproblem, bei dem die Klassenbezeichnungen „Surfen“ und „Nicht surfen“ lauten.

Entscheidungsbäume sind zwar gängige Algorithmen des überwachten Lernens, sie können jedoch für Probleme wie Verzerrungen und Überanpassung anfällig sein. Wenn hingegen mehrere Entscheidungsbäume im Random-Forest-Algorithmus ein so genanntes Ensemble bilden, sagen sie genauere Ergebnisse voraus, insbesondere dann, wenn die einzelnen Bäume nicht miteinander korreliert sind.

Ensemble-Methoden

Ensemble-Lernmethoden bestehen aus einer Reihe von Klassifikatoren – z. B. Entscheidungsbäumen – und ihre Vorhersagen werden aggregiert, um das am häufigsten vertretene Ergebnis zu ermitteln. Die bekanntesten Ensemble-Methoden sind Bagging (eine Verkürzung der Bezeichnung „Bootstrap-Aggregation“) und Boosting. Im Jahr 1996 führte  Leo Breiman  (Link außerhalb ibm.com) (PDF, 810 KB) die Bagging-Methode ein. Bei dieser Methode wird eine Zufallsstichprobe von Daten aus einem Trainingsset gezogen und wieder zurückgelegt, was bedeutet, dass die einzelnen Datenpunkte mehrfach ausgewählt werden können. Nachdem mehrere Datenstichproben generiert worden sind, werden diese Modelle dann unabhängig voneinander trainiert, und je nach Art der Aufgabe – d. h. Regression oder Klassifizierung – liefert entweder der Durchschnitt oder aber die Mehrheit dieser Vorhersagen eine genauere Schätzung. Dieser Ansatz wird häufig verwendet, um die Varianz innerhalb eines verrauschten Datasets zu reduzieren.

Random-Forest-Algorithmus

Der Random-Forest-Algorithmus ist eine Erweiterung der Bagging-Methode, da er sowohl Bagging als auch Feature-Randomness (Zufälligkeit der Merkmale) einsetzt, um einen Wald aus unkorrelierten Entscheidungsbäumen zu erzeugen. Durch Feature-Randomness, auch bekannt als Feature-Bagging oder „Random-Subspace-Methode“ (Link außerhalb von ibm.com) (PDF, 121 KB), wird eine zufällige Teilmenge von Merkmalen (Features) generiert, wodurch eine geringe Korrelation zwischen den Entscheidungsbäumen sichergestellt wird. Dies ist ein wesentlicher Unterschied zwischen Entscheidungsbäumen und Random-Forest-Strukturen. Während Entscheidungsbäume alle möglichen Merkmalaufteilungen (Splits) berücksichtigen, wählen Random Forests nur eine Teilmenge dieser Merkmale aus.

Wenden wir uns wieder dem Beispiel „Soll ich surfen gehen?“ zu: Die Fragen, die ich stelle, um die Vorhersage zu bestimmen, sind gegebenenfalls nicht so umfassend wie die Gruppe von Fragen einer anderen Person. Durch Berücksichtigung der gesamten potenziellen Variabilität in den Daten lässt sich das Risiko der Überanpassung, der Verzerrung (Bias) und der Gesamtvarianz verringern, was zu präziseren Vorhersagen führt.

Vorgestellte Produkte

SPSS Modeler

Funktionsweise

Random-Forest-Algorithmen verfügen über drei Haupt-Hyperparameter, die vor Beginn des eigentlichen Trainings festgelegt werden müssen. Zu diesen Hyperparametern zählt die Größe der Knoten, die Anzahl der Bäume und die Anzahl der in die Stichprobe einbezogenen Merkmale. Danach kann das Random-Forest-Klassifikationsmerkmal zur Lösung von Regressions- oder Klassifikationsproblemen verwendet werden.

Der Random-Forest-Algorithmus besteht aus einem Verbund von Entscheidungsbäumen und jeder Baum im Ensemble besteht aus einer Datenstichprobe, die aus einem Trainingsset mit Ersetzung (d. h. mit Zurücklegen) gezogen wird. Diese wird als Bootstrap-Stichprobe bezeichnet. Von dieser Trainingsstichprobe wird ein Drittel als Testdaten beiseite gelegt, die so genannte Out-of-Bag-Stichprobe (OOB), auf die wir später noch zurückkommen. Dann wird durch Feature-Bagging eine weitere Instanz von Zufälligkeit eingefügt, wodurch das Dataset an Vielfalt gewinnt und die Korrelation zwischen den Entscheidungsbäumen verringert wird. Je nach Art des Problems erfolgt die Bestimmung der Vorhersage jeweils unterschiedlich. Bei einer Regressionstask werden dazu die einzelnen Entscheidungsbäume gemittelt. Bei einer Klassifizierungstask ergibt sich die vorhergesagte Klasse aus einem Mehrheitsvotum, d. h. der am häufigsten vorkommenden kategorialen Variable. Zum Schluss wird die OOB-Stichprobe zur Kreuzvalidierung verwendet, womit diese Vorhersage abgeschlossen wird.

Random Forest: Vorteile und Herausforderungen

Der Random-Forest-Algorithmus zeichnet sich durch eine Reihe von Vorteilen und Herausforderungen aus, wenn er für Klassifizierungs- oder Regressionsprobleme verwendet wird. Zu diesen gehören unter anderem die folgenden:

Die wichtigsten Vorteile

  • Geringeres Risiko der Überanpassung:  Bei Entscheidungsbäumen besteht die Gefahr der Überanpassung, da sie dazu neigen, alle Stichproben eng an die Trainingsdaten anzupassen. Wenn ein Random Forest jedoch eine solide Anzahl von Entscheidungsbäumen enthält, bewirkt das Klassifikationsmerkmal keine Überanpassung des Modells, da die Mittelung von unkorrelierten Bäumen die Gesamtvarianz und den Vorhersagefehler verringert.
  • Bietet Flexibilität:  Da das Random-Forest-Verfahren sowohl Regressions- als auch Klassifizierungstasks mit einem hohen Grad an Genauigkeit bewältigen kann, ist es bei Datenwissenschaftlern beliebt. Durch Feature-Bagging wird das Random-Forest-Klassifikationsmerkmal zu einem effektiven Werkzeug für die Schätzung fehlender Werte, da hierbei die Genauigkeit beibehalten wird, wenn ein Teil der Daten fehlt.
  • Einfache Bestimmung des Stellenwerts von Merkmalen (Features):  Random Forest macht es einfach, die Bedeutung von Variablen für ein Modell zu bewerten, d. h. den Beitrag, den sie zum Modell beisteuern. Es gibt mehrere Möglichkeiten, die Bedeutung von Merkmalen zu bewerten. Der Gini-Stellenwert und die mittlere Abnahme von Unreinheit (MDI, Mean Decrease in Impurity) werden in der Regel verwendet, um zu messen, wie stark die Genauigkeit des Modells abnimmt, wenn eine bestimmte Variable ausgeschlossen wird. Ein weiteres Maß für den Stellenwert ist die Bedeutung der Permutation, auch bekannt als mittlere Abnahme der Genauigkeit (MDA, Mean Decrease in Accuracy). MDA gibt die durchschnittliche Abnahme der Genauigkeit durch zufällige Permutation der Merkmalwerte in OOB-Stichproben an.

Die wichtigsten Herausforderungen

  • Zeitaufwendiger Prozess: Da Random-Forest-Algorithmen in der Lage sind, umfangreiche Datenbestände (Datasets) zu verarbeiten, können sie genauere Vorhersagen liefern, aber die Datenverarbeitung kann langsam sein, da sie Daten für jeden einzelnen Entscheidungsbaum berechnen.
  • Benötigt mehr Ressourcen: Da Random Forests umfangreichere Datasets verarbeiten, benötigen sie mehr Ressourcen, um diese Daten zu speichern.
  • Komplexer: Die Vorhersage eines einzelnen Entscheidungsbaums ist im Vergleich zu der eines Waldes aus Entscheidungsbäumen einfacher zu interpretieren.
Random-Forest-Anwendungen

Der Random-Forest-Algorithmus hat in einer Reihe von Branchen Anwendung gefunden und ihnen dadurch ermöglicht, bessere Geschäftsentscheidungen zu treffen. Anwendungsfälle schließen unter anderem die folgenden ein:

  • Finanzwesen: Dieser Algorithmus wird gegenüber anderen bevorzugt, da er den Zeitaufwand für die Datenverwaltung und die Vorverarbeitung reduziert. Er kann verwendet werden, um Kunden mit hohem Kreditrisiko zu bewerten, Betrug zu erkennen und Probleme bei der Optionsbewertung aufzudecken.
  • Gesundheitswesen:  Der Random-Forest-Algorithmus wird in der  computergestützten Biologie  eingesetzt (Link außerhalb von ibm.com) (PDF, 737 KB) und ermöglicht Ärzten, Probleme wie die Klassifizierung der Genexpression, die Entdeckung von Biomarkern und die Annotation von Sequenzen anzugehen. Dadurch können Ärzte Schätzungen rund um das Ansprechen auf bestimmte Medikamente vornehmen.
  • E-Commerce: Der Algorithmus kann für Recommendation Engines zwecks Cross-Selling eingesetzt werden.
Zugehörige Lösungen
SPSS Modeler

IBM® SPSS Modeler bietet Vorhersageanalysen, mit denen Sie Datenmuster erkennen, Vorhersagegenauigkeit erreichen und die Entscheidungsfindung verbessern können.

SPSS Modeler erkunden
Ressourcen Drag-and-drop-Tool für Data-Science von IBM® SPSS Modeler

Erfahren Sie, wie Organisationen weltweit SPSS Modeler für Datenaufbereitung und -erkennung, Vorhersageanalyse, Modellmanagement und -bereitstellung sowie ML nutzen, um Datenressourcen zu monetarisieren.

Vom Random-Forest-Verfahren inspirierte neuronale Netze

Erfahren Sie, wie ein sorgfältig entworfenes neuronales Netz mit Random-Forest-Struktur eine bessere Generalisierungsfähigkeit aufweisen kann.

Machen Sie den nächsten Schritt

IBM® SPSS Modeler ist eine Gruppe von Data-Mining-Tools, mit der Sie Vorhersagemodelle entwickeln können, um sie in Betriebsabläufen einzusetzen. IBM® SPSS Modeler wurde um das branchenübliche CRISP-DM-Modell herum entwickelt und unterstützt den gesamten Data-Mining-Prozess, von der Datenverarbeitung bis hin zu besseren Geschäftsergebnissen.

IBM® SPSS Modeler noch heute testen