Random Forest-Knoten - Erstellungsoptionen

Auf der Registerkarte "Erstellungsoptionen" können Sie Erstellungsoptionen für den Random Forest-Knoten angeben, und zwar sowohl Basisoptionen als auch erweiterte Optionen. Weitere Informationen zu diesen Optionen finden Sie unter https://scikit-learn.org/stable/modules/ensemble.html#forest .

Basis

Zu erstellende Anzahl Bäume. Wählen Sie die Anzahl der Bäume in der Gesamtstruktur (Forest) aus.

Maximale Tiefe angeben. Wird diese Option nicht ausgewählt, werden Knoten erweitert, bis alle Blätter rein sind oder weniger als min_samples_split Stichproben haben.

Maximale Tiefe. Die maximale Tiefe des Baums.

Mindestblattknotengröße. Die für einen Blattknoten mindestens erforderliche Anzahl Stichproben.

Anzahl der Features für Aufteilung. Die Anzahl der Merkmale, die bei der Suche nach der besten Aufteilung berücksichtigt werden sollen:
  • Bei Angabe von auto gilt max_features=sqrt(n_features) für Klassifikationsmerkmale und max_features=n_features für Regression.
  • Bei Angabe von sqrt gilt max_features=sqrt(n_features).
  • Bei Angabe von log2 gilt max_features=log2(n_features).

Erweitert

Bootstrap-Stichproben beim Erstellen von Bäumen verwenden. Bei Auswahl dieser Option werden beim Erstellen von Bäumen Bootstrap-Stichproben verwendet.

OOB-Stichproben (Out-of-Bag) zum Schätzen der Generalisierungsgenauigkeit verwenden. Bei Auswahl dieser Option werden OOB-Stichproben (Out-of-Bag) zum Schätzen der Generalisierungsgenauigkeit verwendet.

Extrem randomisierte Bäume verwenden. Bei Auswahl dieser Option werden anstelle von allgemeinen Random Forests extrem randomisierte Bäume verwendet. Bei extrem randomisierten Bäumen geht die Randomisierung hinsichtlich der Methode zur Berechnung der Aufteilungen einen Schritt weiter. Wie bei Random Forests wird ein beliebiges Subset potenzieller Merkmale verwendet. Allerdings werden nicht die Schwellenwerte mit den größten Unterschieden gesucht, sondern die Schwellenwerte werden nach dem Zufallsprinzip für die einzelnen potenziellen Merkmale festgelegt und der beste dieser zufällig generierten Schwellenwerte wird als Aufteilungsregel verwendet. Dadurch kann die Varianz des Modells in der Regel weiter reduziert werden, was allerdings zu einem leichten Anstieg der Verzerrung führt. 1

Ergebnisse replizieren. Bei Auswahl dieser Option wird der Modellerstellungsprozess repliziert, um dieselben Scoring-Ergebnisse zu erzielen.

Startwert für Zufallszahlen. Sie können auf Generieren klicken, um den Startwert zu generieren, der vom Zufallszahlengenerator verwendet wird.

Hyperparameteroptimierung (auf Basis von Rbfopt). Wählen Sie diese Option aus, um die Hyperparameteroptimierung auf der Basis von Rbfopt zu aktivieren. Diese erkennt automatisch die optimale Parameterkombination, sodass das Modell die erwartete oder eine niedrigere Fehlerrate für die Stichproben erzielt. Details zu Rbfopt finden Sie unter http://rbfopt.readthedocs.io/en/latest/rbfopt_settings.html.

Ziel. Der Zielfunktionswert (Fehlerrate des Modells für die Stichproben), der erreicht werden soll (z. B. der Wert des unbekannten Optimums). Set to an acceptable value such as 0.01.

Max. Iterationen. Die maximale Anzahl Iterationen zum Testen des Modells. Der Standardwert ist 1000.

Maximale Bewertungen. Die maximale Anzahl Funktionsauswertungen im genauen Modus zum Testen des Modells. Der Standardwert ist 300.

Die folgende Tabelle zeigt die Beziehung zwischen den Einstellungen im Dialogfeld des Random Forest-Knotens von SPSS® Modeler und den Parametern der Random Forest-Bibliothek von Python .
Tabelle 1. Zuordnung von Knoteneigenschaften zu Python-Bibliotheksparametern
Einstellung SPSS Modeler Scriptname (Eigenschaftsname) Random Forest-Parameter
Ziel target
Prädiktoren inputs
Zu erstellende Anzahl Bäume n_estimators n_estimators
Max. Tiefe angeben specify_max_depth specify_max_depth
Maximale Tiefe max_depth max_depth
Mindestgröße der Blattknoten min_samples_leaf min_samples_leaf
Anzahl der Features für Aufteilung max_features max_features
Bootstrap-Stichproben beim Erstellen von Bäumen verwenden bootstrap bootstrap
OOB-Stichproben (Out-of-Bag) zum Schätzen der Generalisierungsgenauigkeit verwenden oob_score oob_score
Extrem randomisierte Bäume verwenden extreme
Ergebnisse replizieren use_random_seed
Startwert für Zufallszahlen random_seed random_seed
Hyperparameteroptimierung (auf Basis von Rbfopt) enable_hpo
Ziel (für HPO) target_objval
Maximum Iterationen (für HPO) max_iterations
Maximum Auswertungen (für HPO) max_evaluations

1L. Breiman, "Random Forests," Machine Learning, 45(1), 5-32, 2001.