Random Forest-Knoten - Erstellungsoptionen
Auf der Registerkarte "Erstellungsoptionen" können Sie Erstellungsoptionen für den Random Forest-Knoten angeben, und zwar sowohl Basisoptionen als auch erweiterte Optionen. Weitere Informationen zu diesen Optionen finden Sie unter https://scikit-learn.org/stable/modules/ensemble.html#forest .
Basis
Zu erstellende Anzahl Bäume. Wählen Sie die Anzahl der Bäume in der Gesamtstruktur (Forest) aus.
Maximale Tiefe angeben. Wird diese Option nicht ausgewählt, werden Knoten erweitert, bis alle Blätter rein sind oder weniger als min_samples_split Stichproben haben.
Maximale Tiefe. Die maximale Tiefe des Baums.
Mindestblattknotengröße. Die für einen Blattknoten mindestens erforderliche Anzahl Stichproben.
- Bei Angabe von
autogiltmax_features=sqrt(n_features)für Klassifikationsmerkmale undmax_features=n_featuresfür Regression. - Bei Angabe von
sqrtgiltmax_features=sqrt(n_features). - Bei Angabe von
log2giltmax_features=log2(n_features).
Erweitert
Bootstrap-Stichproben beim Erstellen von Bäumen verwenden. Bei Auswahl dieser Option werden beim Erstellen von Bäumen Bootstrap-Stichproben verwendet.
OOB-Stichproben (Out-of-Bag) zum Schätzen der Generalisierungsgenauigkeit verwenden. Bei Auswahl dieser Option werden OOB-Stichproben (Out-of-Bag) zum Schätzen der Generalisierungsgenauigkeit verwendet.
Extrem randomisierte Bäume verwenden. Bei Auswahl dieser Option werden anstelle von allgemeinen Random Forests extrem randomisierte Bäume verwendet. Bei extrem randomisierten Bäumen geht die Randomisierung hinsichtlich der Methode zur Berechnung der Aufteilungen einen Schritt weiter. Wie bei Random Forests wird ein beliebiges Subset potenzieller Merkmale verwendet. Allerdings werden nicht die Schwellenwerte mit den größten Unterschieden gesucht, sondern die Schwellenwerte werden nach dem Zufallsprinzip für die einzelnen potenziellen Merkmale festgelegt und der beste dieser zufällig generierten Schwellenwerte wird als Aufteilungsregel verwendet. Dadurch kann die Varianz des Modells in der Regel weiter reduziert werden, was allerdings zu einem leichten Anstieg der Verzerrung führt. 1
Ergebnisse replizieren. Bei Auswahl dieser Option wird der Modellerstellungsprozess repliziert, um dieselben Scoring-Ergebnisse zu erzielen.
Startwert für Zufallszahlen. Sie können auf Generieren klicken, um den Startwert zu generieren, der vom Zufallszahlengenerator verwendet wird.
Hyperparameteroptimierung (auf Basis von Rbfopt). Wählen Sie diese Option aus, um die Hyperparameteroptimierung auf der Basis von Rbfopt zu aktivieren. Diese erkennt automatisch die optimale Parameterkombination, sodass das Modell die erwartete oder eine niedrigere Fehlerrate für die Stichproben erzielt. Details zu Rbfopt finden Sie unter http://rbfopt.readthedocs.io/en/latest/rbfopt_settings.html.
Ziel. Der Zielfunktionswert (Fehlerrate des Modells für die Stichproben), der erreicht werden soll (z. B. der Wert des unbekannten Optimums). Set to an acceptable value such as 0.01.
Max. Iterationen. Die maximale Anzahl Iterationen zum Testen des Modells. Der Standardwert ist 1000.
Maximale Bewertungen. Die maximale Anzahl Funktionsauswertungen im genauen Modus zum Testen des Modells. Der Standardwert ist 300.
| Einstellung SPSS Modeler | Scriptname (Eigenschaftsname) | Random Forest-Parameter |
|---|---|---|
| Ziel | target |
|
| Prädiktoren | inputs |
|
| Zu erstellende Anzahl Bäume | n_estimators |
n_estimators |
| Max. Tiefe angeben | specify_max_depth |
specify_max_depth |
| Maximale Tiefe | max_depth |
max_depth |
| Mindestgröße der Blattknoten | min_samples_leaf |
min_samples_leaf |
| Anzahl der Features für Aufteilung | max_features |
max_features |
| Bootstrap-Stichproben beim Erstellen von Bäumen verwenden | bootstrap |
bootstrap |
| OOB-Stichproben (Out-of-Bag) zum Schätzen der Generalisierungsgenauigkeit verwenden | oob_score |
oob_score |
| Extrem randomisierte Bäume verwenden | extreme |
|
| Ergebnisse replizieren | use_random_seed |
|
| Startwert für Zufallszahlen | random_seed |
random_seed |
| Hyperparameteroptimierung (auf Basis von Rbfopt) | enable_hpo |
|
| Ziel (für HPO) | target_objval |
|
| Maximum Iterationen (für HPO) | max_iterations |
|
| Maximum Auswertungen (für HPO) | max_evaluations |
|
1L. Breiman, "Random Forests," Machine Learning, 45(1), 5-32, 2001.