Random Trees ノード - 基本

デシジョン ツリーを作成する方法に関する基本オプションを指定します。

構築するモデルの数: ノードが構築できるツリーの最大数を指定します。

サンプル サイズ: デフォルトでは、ブートストラップ サンプルのサイズは元の学習データと同じになります。大きなデータセットを扱う場合は、サンプル サイズを縮小することでパフォーマンスを高めることができます。0 から 1 の比率です。例えば、サンプル サイズを 0.6 に設定すると、サイズが元の学習データ サイズの 60% に削減されます。

バランス調整をしていないデータを処理する: モデルの対象がフラグの結果である場合 (例えば、購入するかしないかのどちらか) に、望ましくない結果に対する望ましい結果の比率が非常に小さいと、データが不均衡になり、モデルによって行われるブートストラップのサンプリングがモデルの精度に影響する可能性があります。精度を改善するには、このチェック ボックスを選択します。モデルで収集される望ましい結果の比率が上がり、より適切なモデルが生成されます。

変数選択に重み付きサンプルを使用する: デフォルトでは、各葉ノードの変数が同じ確率でランダムに選択されます。変数に重みを付けて選択プロセスを改善するには、このチェック ボックスを選択します。重みは、Random Trees ノード自体によって計算されます。重要度の高い (重みの大きい) フィールドは、予測変数として選択される可能性が高くなります。

ノードの最大数: 個々のツリーで許容される葉ノードの最大数を指定します。次の分割でこの数を超える場合は、ツリーの成長が停止して分割が行われません。

最大ツリー深さ。 ルート ノードの下の葉ノード の最大レベル数、つまりサンプルを (再帰的に) 分割できる最大回数を指定します。

子ノードの最小サイズ: 親ノードが分割された後の子ノードに最低限含まれていなければならないレコード数を指定します。子ノードに含まれるレコード数が指定した数より少なくなる場合は、親ノードは分割されません。

分割に使用する予測値の数を指定する: 分割モデルを構築する場合、各分割の構築に使用する予測値の最小個数を設定します。これにより、分割によって極端に小さいサブグループが作成されるのを防ぎます。このオプションを選択しなかった場合のデフォルト値は、sqrt(M)⌋ (分類の場合) および ⌊M/3⌋ (回帰の場合) です (M は、予測変数の総数です)。このオプションを選択した場合、指定した数の予測値が使用されます。
注: 分割用の予測値の数をデータ内の予測値の総数より多くすることはできません。

精度の向上が見込めない場合は構築を中止する: Random Trees は、学習を停止するタイミングを決定するために特定の手順を使用します。具体的には、現在のアンサンブルの精度の向上が指定しきい値より小さい場合、新規ツリーの追加が停止されます。 このため、「構築するモデルの数」オプションに指定した値よりもツリーが少ないモデルになることがあります。