Da das Random-Forest-Modell aus mehreren Decision Trees besteht, ist es hilfreich, zunächst den Algorithmus der Decision Trees zu beschreiben. Decision Trees liegt eine bestimmte Frage zugrunde, wie z. B. „Soll ich surfen?“ Von dort aus können Sie eine Reihe von Fragen stellen, um eine Antwort zu ermitteln, z. B. „Handelt es sich um anhaltenden Wellengang?“ oder „Bläst der Wind ablandig?“. Diese Fragen bilden die Entscheidungsknoten im Baum und dienen als Mittel zur Aufteilung der Daten. Jede Frage hilft einer Person, eine endgültige Entscheidung zu treffen, die durch den Blattknoten gekennzeichnet wird. Beobachtungen, die den Kriterien entsprechen, folgen dem Zweig „Ja“, und Beobachtungen, die dies nicht tun, folgen dem alternativen Pfad. Decision Trees versuchen, die beste Aufteilung für die Daten zu finden, und werden in der Regel mit dem „Classification and Regression Tree“-Algorithmus (CART) trainiert. Zur Bewertung der Qualität der Aufteilung können Metriken wie die Gini-Verunreinigung, der Informationsgewinn oder die mittlere quadratische Abweichung (Mean Square Error, MSE) herangezogen werden.

Dieser Decision Tree ist ein Beispiel für ein Klassifizierungsproblem, bei dem die Klassenetiketten „Surfen“ und „Nicht surfen“ lauten.

Obwohl Decision Trees gängige überwachte Lernalgorithmen sind, können sie anfällig für Probleme wie Verzerrung und Überanpassung sein. Wenn in einem Random-Forest-Algorithmus mehrere Decision Trees ein Ensemble bilden, liefern sie genauere Ergebnisse, insbesondere wenn die einzelnen Bäume nicht miteinander korrelieren.