Random Trees ノード

Random Trees ノードは、分散環境内のデータと共に使用できます。このノードでは、複数のディシジョンツリーで構成されるアンサンブルモデルを構築します。

Random Trees ノードは、分類と回帰ツリー方法論に基づいて作成される、ツリー・ベースの分類および予測方法です。この予測方法では、C&R Tree と同様に、再帰的な区分化を使用して、学習レコードが同様の出力フィールド値を持つセグメントに分割されます。ノードでは、まず使用可能な入力フィールドが検証され、分割による不純度の減少を測定することで最適な分割が検出されます。分割によって 2 つのサブグループが定義されます。停止基準が起動されるまで、2 つのサブグループへの分割が繰り返されます。すべての分割は 2 分割 (2 つのサブグループのみ) です。

Random Trees ノードでは、置き換えを伴うブートストラップサンプリングを使用してサンプルデータを生成します。サンプルデータは、ツリーモデルを成長させるために使用します。ツリーの成長中、Random Trees はデータを再度サンプリングしません。代わりに、予測値の一部をランダムに選択し、最良の予測値を使用してツリーノードを分割します。このプロセスは、各ツリーノードの分割時に繰り返されます。これがランダムフォレストにおけるツリーの成長の基本的な概念です。

Random Trees では、C&R Tree に似たツリーを使用します。そのようなツリーは 2 分岐であるため、分割用の各フィールドは、2 つの枝に分岐します。複数のカテゴリがあるカテゴリ型フィールドの場合、カテゴリは、内部分割基準に基づいて、2 つのグループにグループ化されます。各ツリーは、できる限り大きくなるように成長します (剪定は行われません)。スコアリングでは、Random Trees は、多数決 (分類の場合) または平均 (回帰の場合) によって個別のツリーのスコアを結合します。

Random Trees と C&R Tree には、以下のような違いがあります。

Random Trees ノードは、指定した数の予測値をランダムに選択し、選択したもので最良の予測値を使用してノードを分割します。対照的に、C&R Tree は、すべての予測値で最良のものを探します。
Random Trees の各ツリーは通常、各葉ノードに単一のレコードが含まれるまで十分に成長します。そのため、ツリーの深さは非常に大きくなる可能性があります。一方、標準的な C&R Tree では、ツリーの成長にさまざまな停止規則が使用され、通常、はるかに浅いツリーになります。

Random Trees では、C&R Tree と比較して以下の 2 つの機能が追加されています。

最初の機能であるバギングでは、元のデータセットから置換してサンプリングすることによって、学習データセットの複製が作成されます。このアクションによって、元のデータセットと同じサイズのブートストラップサンプルが作成され、それを元に各複製の上にコンポーネントモデルが作成されます。同時にこれらのコンポーネント・モデルがアンサンブル・モデルを形成します。
2 番目の機能では、ツリーの各分割において、入力フィールドのサンプリングのみが不純度測定の対象となります。

要件: Random Trees モデルを学習するには、1 つ以上の入力フィールドと 1 つの対象フィールドが必要です。対象フィールドおよび入力フィールドは、連続型 (数値範囲) またはカテゴリーとなります。両方またはなしに設定されているフィールドは無視されます。モデルで使用されるフィールドは、その型を完全にインスタンス化している必要があり、モデルで使用されるすべての順序型 (順序セット) フィールドは、数値ストレージ (文字列不可) である必要があります。必要な場合、データ分類ノードを使用して変換できます。

利点: Random Trees モデルは、大規模なデータセットと大量のフィールドを扱う場合に堅固なモデルです。バギングとフィールドサンプリングを使用することにより、このモデルはオーバーフィットになる可能性が小さくなるため、検定で得られる結果は新規データを使用した場合にも繰り返される可能性が高くなります。