ディシジョン・ツリー・ノード

IBM® SPSS® Modeler のディシジョン・ツリー・ノードでは、次のツリー構築アルゴリズムを使用できます。

  • C&R Tree
  • QUEST
  • CHAID
  • C5.0
  • Tree-AS
  • Random Trees

詳しくは、ディシジョン・ツリー・モデルのトピックを参照してください。

アルゴリズムは、データをより小さいサブグループに再帰的に分割してディシジョン・ツリーを構築できるという点では類似していますが、大きく異なる点がいくつかあります。

入力フィールド: 入力フィールド (予測値) は、連続型、カテゴリー型、フラグ型、名義型、または順序型のいずれかになります。

対象フィールド: 指定できる対象フィールドは 1 つだけです。C&R Tree、CHAID、Tree-AS、および Random Trees の場合、対象は連続型、カテゴリー型、フラグ型、名義型、または順序型です。QUEST の場合、カテゴリー型、フラグ型、または名義型となります。C5.0 の場合、対象はフラグ型、名義型または順序型となります。

分割の種類: C&R Tree、QUEST、および Random Trees では、2 進分割のみがサポートされます (つまり、ツリーの各ノードは 3 つ以上のブランチには分割できません)。一方、CHAID、C5.0、および Tree-AS は一度に 3 つ以上のブランチへの分割をサポートしています。

分割に使用する方法: アルゴリズムは、分割の指定に使用する基準によって異なります。C&R Tree がカテゴリー型出力を予測する場合、分散計測が使用されます (デフォルトでは Gini 係数ですが、変更できます)。連続型対象フィールドの場合、最小 2 乗偏差 (LSD) 法が使用されます。CHAID および Tree-AS ではカイ 2 乗検定、QUEST ではカテゴリー型予測フィールドにカイ 2 乗検定、連続型入力フィールドに分散分析を使用します。C5.0 の場合、情報理論測定、情報ゲイン率が使用されます。

欠損値の処理]すべてのアルゴリズムでは、予測フィールドの欠損値を許可しますが、それらの処理にはさまざまな方法を使用します。C&R Tree と QUEST は、必要に応じて代理の予測フィールドを使用し、学習時にツリー全体の欠損値を持つレコードの処理を進めます。CHAID は欠損値に別のカテゴリーを作成し、それらをツリー構築に使用できるようにします。C5.0 では分割方法を使用し、分割が欠損値を持つフィールドに基づくノードから、レコードの一部をツリーの各ブランチに渡します。

剪定: C&R Tree、QUEST および C5.0 には、ツリーを完全に成長させ、ツリーの精度に大きく貢献しない下位レベルの分割を削除してツリーを剪定するオプションがあります。ただし、すべてのディシジョン・ツリー・アルゴリズムを使用して、最小サブグループ・サイズを制御し、ブランチのデータ・レコード数が少なくならないようにすることができます。

インタラクティブ ツリー構築: C&R Tree、 QUEST および CHAID には、インタラクティブ セッションを起動するオプションがあります。このオプションを使用して、モデルを作成する前に、一度に 1 レベルずつツリーを構築、分割を編集、そしてツリーを剪定することができます。C5.0、Tree-AS、および Random Trees にはインタラクティブ オプションがありません。

事前確率: C&R Tree および QUEST では、カテゴリー型対象フィールドを予測する際に、カテゴリーの事前確率を指定できるようになります。事前確率は、学習データを取り出す母集団内の各対象カテゴリーの全体的な相対頻度の見積もりです。つまり、予測値を知る「前に」、可能性のある各対象値に対して行われる確率の予測です。CHAID、C5.0、Tree-AS、および Random Trees では、事前確率を指定できません。

ルール セット: カテゴリー型対象フィールドのあるモデルの場合、ディシジョン・ツリー・ノードでは、ルール・セットの形式でモデルを作成できます。Tree-AS および Random Trees では使用できません。この場合、複雑なディシジョン・ツリーに比べて解釈が容易になります。C&R Tree、QUEST および CHAID の場合、インタラクティブ セッションでルール・セットを生成できます。C5.0 の場合、このオプションはモデル作成ノードで指定できます。また、すべてのディシジョン・ツリー・モデルを使用して、モデル・ナゲットからルール・セットを生成できます。 詳しくは、ディシジョン・ツリーからのルールセットの生成のトピックを参照してください。