Mein IBM Anmelden Abonnieren

Was ist Random Forest?

Was ist Random Forest?

Random Forest ist ein häufig verwendeter Algorithmus für maschinelles Lernen von Leo Breiman und Adele Cutler, der das Output mehrerer Decision Trees zu einem einzigen Ergebnis kombiniert. Seine Benutzerfreundlichkeit und Flexibilität haben dafür gesorgt, dass er sich einer großen Akzeptanz erfreut, da er sowohl Klassifizierungs- als auch Regressionprobleme bewältigt.

Entscheidungsbäume

Da das Random-Forest-Modell aus mehreren Decision Trees besteht, ist es hilfreich, zunächst den Algorithmus der Decision Trees zu beschreiben. Decision Trees liegt eine bestimmte Frage zugrunde, wie z. B. „Soll ich surfen?“ Von dort aus können Sie eine Reihe von Fragen stellen, um eine Antwort zu ermitteln, z. B. „Handelt es sich um anhaltenden Wellengang?“ oder „Bläst der Wind ablandig?“. Diese Fragen bilden die Entscheidungsknoten im Baum und dienen als Mittel zur Aufteilung der Daten. Jede Frage hilft einer Person, eine endgültige Entscheidung zu treffen, die durch den Blattknoten gekennzeichnet wird. Beobachtungen, die den Kriterien entsprechen, folgen dem Zweig „Ja“, und Beobachtungen, die dies nicht tun, folgen dem alternativen Pfad. Decision Trees versuchen, die beste Aufteilung für die Daten zu finden, und werden in der Regel mit dem „Classification and Regression Tree“-Algorithmus (CART) trainiert. Zur Bewertung der Qualität der Aufteilung können Metriken wie die Gini-Verunreinigung, der Informationsgewinn oder die mittlere quadratische Abweichung (Mean Square Error, MSE) herangezogen werden.

Dieser Decision Tree ist ein Beispiel für ein Klassifizierungsproblem, bei dem die Klassenetiketten „Surfen“ und „Nicht surfen“ lauten.

Obwohl Decision Trees gängige überwachte Lernalgorithmen sind, können sie anfällig für Probleme wie Verzerrung und Überanpassung sein. Wenn in einem Random-Forest-Algorithmus mehrere Decision Trees ein Ensemble bilden, liefern sie genauere Ergebnisse, insbesondere wenn die einzelnen Bäume nicht miteinander korrelieren.

Ensemble-Methoden

Ensemble-Lernmethoden bestehen aus einer Reihe von Klassifikatoren (z. B. Decision Trees), deren Prognosen aggregiert werden, um das beliebteste Ergebnis zu ermitteln. Die bekanntesten Ensemble-Methoden sind Bagging, auch Bootstrapping-Aggregation genannt, und Boosting. Leo Breiman (Link befindet sich außerhalb von ibm.com) führte 1996 die Bagging-Methode ein. Dabei wird eine Zufallsstichprobe von Daten in einem Trainingssatz ausgewählt und ersetzt, was bedeutet, dass die einzelnen Datenpunkte mehrmals ausgewählt werden können. Nachdem mehrere Datenproben generiert wurden, werden diese Modelle dann unabhängig voneinander trainiert. Je nach Art der Aufgabe – d. h. Regression oder Klassifizierung – ergibt der Durchschnitt oder die Mehrheit dieser Prognosen eine genauere Schätzung. Dieser Ansatz wird häufig verwendet, um die Varianz innerhalb eines verrauschten Datensatzes zu reduzieren.

Random-Forest-Algorithmus

Der Random-Forest-Algorithmus ist eine Erweiterung der Bagging-Methode, da er sowohl Bagging als auch die Randomisierung von Funktionen verwendet, um einen unkorrelierten Wald von Decision Trees zu erstellen. Die Zufälligkeit von Funktionen, auch bekannt als Feature-Bagging oder „The Random Subspace Method“ (Link befindet sich außerhalb von ibm.com), generiert eine zufällige Teilmenge von Funktionen, wodurch eine geringe Korrelation zwischen den Decision Trees gewährleistet wird. Dies ist ein wesentlicher Unterschied zwischen Decision Trees und Random Forests. Während Decision Trees alle möglichen Aufteilungen der Funktionen berücksichtigen, wählen Random Forests nur eine Teilmenge dieser Funktionen aus.

Wenn wir zu dem Beispiel „Soll ich surfen?“ zurückkehren, sind die Fragen, die ich möglicherweise stelle, um die Prognose zu ermitteln, möglicherweise nicht so umfassend wie die Fragen einer anderen Person. Indem wir die gesamte potenzielle Variabilität in den Daten berücksichtigen, können wir das Risiko von Überanpassungen, Verzerrungen und Gesamtvarianzen reduzieren, was zu genaueren Prognosen führt.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Funktionsweise

Random-Forest-Algorithmen haben drei Haupthyperparameter, die vor dem Training eingestellt werden müssen. Dazu gehören die Knotengröße, die Anzahl der Bäume und die Anzahl der abgetasteten Funktionen. Anhand dieser Erkenntnisse kann der Klassifikator des Random Forests zur Lösung von Regressions- oder Klassifizierungsproblemen verwendet werden.

Der Random-Forest-Algorithmus besteht aus einer Sammlung von Decision Trees. Jeder Baum im Ensemble besteht aus einer Datenstichprobe, die aus einem Trainingsdatensatz mit Ersatz gezogen wird, der sogenannten Bootstrapping-Stichprobe. Von dieser Trainingsstichprobe wird ein Drittel als Testdaten beiseite gelegt, die sogenannte Out-of-Bag-Stichprobe (OOB), auf die wir später noch zurückkommen werden. Eine weitere Zufallsinstanz wird dann durch Funktions-Bagging hinzugefügt, was dem Datensatz mehr Vielfalt verleiht und die Korrelation zwischen den Decision Trees verringert. Je nach Art des Problems wird die Bestimmung der Prognose variieren. Bei einer Regression werden die einzelnen Decision Trees gemittelt, und bei einer Klassifizierungsaufgabe ergibt die Mehrheitsabstimmung – d. h. die häufigste kategorische Variable – die vorhergesagte Klasse. Schließlich wird die OOB-Stichprobe zur Kreuzvalidierung verwendet, um die Prognose abzuschließen.

Vorteile und Herausforderungen von Random Forest

Es gibt eine Reihe von wichtigen Vorteilen und Herausforderungen, die der Random-Forest-Algorithmus bei Klassifizierungs- oder Regressionproblemen birgt. Einige davon sind:

Hauptvorteile

  • Reduziertes Risiko einer Überanpassung: Bei Decision Trees besteht das Risiko einer Überanpassung, da sie dazu neigen, alle Stichproben eng in die Trainingsdaten einzupassen. Wenn es in einem Random Forest jedoch eine robuste Anzahl von Decision Trees gibt, wird der Klassifikator das Modell nicht überanpassen, da die Mittelwertbildung unkorrelierter Decision Trees die Gesamtvarianz und den Prognosefehler senkt.
  • Bietet Flexibilität: Da Random Forest sowohl Regressions- als auch Klassifizierungsaufgaben mit einem hohen Grad an Genauigkeit bewältigen kann, ist es eine beliebte Methode unter Data Scientists. Das Funktions-Bagging macht den Random-Forest-Klassifikator auch zu einem effektiven Werkzeug, um Missing Values zu schätzen, da er die Genauigkeit beibehält, wenn ein Teil der Daten fehlt.
  • Einfache Bestimmung der Wichtigkeit von Funktionen: Random Forest erleichtert die Bewertung der Wichtigkeit oder des Beitrags von Variablen zum Modell. Es gibt mehrere Möglichkeiten, die Wichtigkeit von Funktionen zu bewerten. Um zu messen, wie stark die Genauigkeit des Modells unter Ausschluss einer bestimmten Variable abnimmt, werden normalerweise die Gini-Wichtigkeit und die mittlere Abnahme der Verunreinigung (Mean Decrease in Impurity, MDI) herangezogen. Die Wichtigkeit der Permutation, auch bekannt als mittlere Abnahmegenauigkeit (Mean Deduction Accuracy, MDA), ist jedoch ein weiteres wichtiges Maß. MDA identifiziert die durchschnittliche Abnahme der Genauigkeit, indem es die Funktionswerte in OOB-Proben zufällig permutiert.

Zentrale Herausforderungen

  • Zeitaufwändiger Prozess: Da Random-Forest-Algorithmen große Datensätze verarbeiten können, liefern sie zwar genauere Prognosen, können aber bei der Datenverarbeitung langsamer sein, da sie die Daten für jeden einzelnen Decision Tree berechnen.
  • Höherer Ressourcenbedarf: Da Random Forests größere Datensätze verarbeiten, benötigen sie mehr Ressourcen zum Speichern dieser Daten.
  • Komplexer: Die Prognose eines einzelnen Decision Trees ist einfacher zu interpretieren als die eines Forests.
Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Random-Forest-Anwendungen

Der Random-Forest-Algorithmus wird in zahlreichen Branchen angewendet und ermöglicht bessere Geschäftsentscheidungen. Zu den Anwendungsfällen gehören beispielsweise:

  • Finanzwesen: Dieser Algorithmus wird anderen Algorithmen vorgezogen, da er den Zeitaufwand für die Datenverwaltung und Vorverarbeitungsaufgaben reduziert. Er kann verwendet werden, um Kunden mit hohem Kreditrisiko zu bewerten, Betrug und Probleme bei der Preisgestaltung von Optionen zu erkennen.
  • Gesundheitswesen: Der Random-Forest-Algorithmus findet Anwendung in der Computerbiologie (Link befindet sich außerhalb von ibm.com), sodass Ärzte Probleme wie die Klassifizierung der Genexpression, die Entdeckung von Biomarkern und die Sequenzannotation angehen können. Dadurch können Ärzte Schätzungen über die Wirkung von Arzneimitteln auf bestimmte Medikamente vornehmen.
  • E-Commerce: Kann für Empfehlungs-Engines zu Cross-Selling-Zwecken verwendet werden.
Weiterführende Lösungen

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen