Random Forest ist ein häufig verwendeter Algorithmus für maschinelles Lernen von Leo Breiman und Adele Cutler, der das Output mehrerer Decision Trees zu einem einzigen Ergebnis kombiniert. Seine Benutzerfreundlichkeit und Flexibilität haben dafür gesorgt, dass er sich einer großen Akzeptanz erfreut, da er sowohl Klassifizierungs- als auch Regressionprobleme bewältigt.
Da das Random-Forest-Modell aus mehreren Decision Trees besteht, ist es hilfreich, zunächst den Algorithmus der Decision Trees zu beschreiben. Decision Trees liegt eine bestimmte Frage zugrunde, wie z. B. „Soll ich surfen?“ Von dort aus können Sie eine Reihe von Fragen stellen, um eine Antwort zu ermitteln, z. B. „Handelt es sich um anhaltenden Wellengang?“ oder „Bläst der Wind ablandig?“. Diese Fragen bilden die Entscheidungsknoten im Baum und dienen als Mittel zur Aufteilung der Daten. Jede Frage hilft einer Person, eine endgültige Entscheidung zu treffen, die durch den Blattknoten gekennzeichnet wird. Beobachtungen, die den Kriterien entsprechen, folgen dem Zweig „Ja“, und Beobachtungen, die dies nicht tun, folgen dem alternativen Pfad. Decision Trees versuchen, die beste Aufteilung für die Daten zu finden, und werden in der Regel mit dem „Classification and Regression Tree“-Algorithmus (CART) trainiert. Zur Bewertung der Qualität der Aufteilung können Metriken wie die Gini-Verunreinigung, der Informationsgewinn oder die mittlere quadratische Abweichung (Mean Square Error, MSE) herangezogen werden.
Dieser Decision Tree ist ein Beispiel für ein Klassifizierungsproblem, bei dem die Klassenetiketten „Surfen“ und „Nicht surfen“ lauten.
Obwohl Decision Trees gängige überwachte Lernalgorithmen sind, können sie anfällig für Probleme wie Verzerrung und Überanpassung sein. Wenn in einem Random-Forest-Algorithmus mehrere Decision Trees ein Ensemble bilden, liefern sie genauere Ergebnisse, insbesondere wenn die einzelnen Bäume nicht miteinander korrelieren.
Ensemble-Lernmethoden bestehen aus einer Reihe von Klassifikatoren (z. B. Decision Trees), deren Prognosen aggregiert werden, um das beliebteste Ergebnis zu ermitteln. Die bekanntesten Ensemble-Methoden sind Bagging, auch Bootstrapping-Aggregation genannt, und Boosting. Leo Breiman (Link befindet sich außerhalb von ibm.com) führte 1996 die Bagging-Methode ein. Dabei wird eine Zufallsstichprobe von Daten in einem Trainingssatz ausgewählt und ersetzt, was bedeutet, dass die einzelnen Datenpunkte mehrmals ausgewählt werden können. Nachdem mehrere Datenproben generiert wurden, werden diese Modelle dann unabhängig voneinander trainiert. Je nach Art der Aufgabe – d. h. Regression oder Klassifizierung – ergibt der Durchschnitt oder die Mehrheit dieser Prognosen eine genauere Schätzung. Dieser Ansatz wird häufig verwendet, um die Varianz innerhalb eines verrauschten Datensatzes zu reduzieren.
Der Random-Forest-Algorithmus ist eine Erweiterung der Bagging-Methode, da er sowohl Bagging als auch die Randomisierung von Funktionen verwendet, um einen unkorrelierten Wald von Decision Trees zu erstellen. Die Zufälligkeit von Funktionen, auch bekannt als Feature-Bagging oder „The Random Subspace Method“ (Link befindet sich außerhalb von ibm.com), generiert eine zufällige Teilmenge von Funktionen, wodurch eine geringe Korrelation zwischen den Decision Trees gewährleistet wird. Dies ist ein wesentlicher Unterschied zwischen Decision Trees und Random Forests. Während Decision Trees alle möglichen Aufteilungen der Funktionen berücksichtigen, wählen Random Forests nur eine Teilmenge dieser Funktionen aus.
Wenn wir zu dem Beispiel „Soll ich surfen?“ zurückkehren, sind die Fragen, die ich möglicherweise stelle, um die Prognose zu ermitteln, möglicherweise nicht so umfassend wie die Fragen einer anderen Person. Indem wir die gesamte potenzielle Variabilität in den Daten berücksichtigen, können wir das Risiko von Überanpassungen, Verzerrungen und Gesamtvarianzen reduzieren, was zu genaueren Prognosen führt.
Random-Forest-Algorithmen haben drei Haupthyperparameter, die vor dem Training eingestellt werden müssen. Dazu gehören die Knotengröße, die Anzahl der Bäume und die Anzahl der abgetasteten Funktionen. Anhand dieser Erkenntnisse kann der Klassifikator des Random Forests zur Lösung von Regressions- oder Klassifizierungsproblemen verwendet werden.
Der Random-Forest-Algorithmus besteht aus einer Sammlung von Decision Trees. Jeder Baum im Ensemble besteht aus einer Datenstichprobe, die aus einem Trainingsdatensatz mit Ersatz gezogen wird, der sogenannten Bootstrapping-Stichprobe. Von dieser Trainingsstichprobe wird ein Drittel als Testdaten beiseite gelegt, die sogenannte Out-of-Bag-Stichprobe (OOB), auf die wir später noch zurückkommen werden. Eine weitere Zufallsinstanz wird dann durch Funktions-Bagging hinzugefügt, was dem Datensatz mehr Vielfalt verleiht und die Korrelation zwischen den Decision Trees verringert. Je nach Art des Problems wird die Bestimmung der Prognose variieren. Bei einer Regression werden die einzelnen Decision Trees gemittelt, und bei einer Klassifizierungsaufgabe ergibt die Mehrheitsabstimmung – d. h. die häufigste kategorische Variable – die vorhergesagte Klasse. Schließlich wird die OOB-Stichprobe zur Kreuzvalidierung verwendet, um die Prognose abzuschließen.
Es gibt eine Reihe von wichtigen Vorteilen und Herausforderungen, die der Random-Forest-Algorithmus bei Klassifizierungs- oder Regressionproblemen birgt. Einige davon sind:
Der Random-Forest-Algorithmus wird in zahlreichen Branchen angewendet und ermöglicht bessere Geschäftsentscheidungen. Zu den Anwendungsfällen gehören beispielsweise:
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Entdecken Sie beaufsichtigte Lernansätze wie Support Vector Machines und Wahrscheinlichkeitsklassifikatoren.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com