自動分類ノードのエキスパートに関するオプション

自動分類ノードの「エキスパート」タブで、データ区分を適用し (利用可能な場合)、使用するアルゴリズムを選択し、停止基準を指定することができます。

モデルの選択。 デフォルトでは、作成対象としてすべてのモデルが選択されます。ただし、Analytic Server を使用している場合、モデルを Analytic Server で実行可能なものだけに制限し、それらをプリセットすることを選択できます。 これにより、分割モデルが作成されるか、あるいは大規模データ・セットを処理する準備ができます。
注: 自動分類ノード内での Analytic Server モデルのローカル作成はサポートされていません。

使用されたモデル: 左側のチェック・ボックスを使用して、比較に含めるモデル タイプ (アルゴリズム) を選択します。選択したタイプが多ければ多いほど沢山のモデルが作成されるため、処理時間が長くなります。

モデル タイプ: 使用できるアルゴリズムを表示します (下記参照)。

モデル パラメーター: 各モデル タイプに対し、デフォルト設定を使用するか、「指定」 を選択してオプションを選択することができます。特定の複数のオプションは別のモデル作成ノードで利用できるものと同じであり、複数オプションまたは組み合わせオプションの違いも選択できます。例えば、ニューラル・ネットワーク・モデルを比較する場合に 6 つの学習方法の 1 つを選択するのではなく、単一パスで 6 モデルを学習させるためにそのすべてを選択することができます。

モデルの数: 現在の設定に基づいて各アルゴリズムに対応して作成されるモデルの数を表示します。オプションを組み合わせるとモデルを簡単に追加できるので、特に大きなデータセットを使用する場合はこの数字に細かい注意を払ってください。

単一モデルの構築最大時間を制限 : (K-Means、Kohonen、TwoStep、SVM、KNN、Bayes Net およびディシジョン・リスト・モデルのみ) モデルの最大時間制限を設定します。例えば、複雑な交互作用を含む特定のモデルの学習で予期外に長い時間を必要とする場合、すべてのモデルの作成を実行しません。

注: 対象が名義型 (セット型) の場合、ディシジョン・リスト・オプションは使用できません。

サポート対象のアルゴリズム

サポート・ベクター・マシン (SVM) ノードを使用すると、オーバーフィットすることなく、データを 2 つのグループのいずれかに分類することができます。SVM は、非常に多数の入力フィールドを含むデータセットなど、広範なデータセットを処理することができます。
k が整数である場合、k 最近傍 (KNN) ノードは、新しいケースを、予測領域の新しいケースに最も近い k 個のオブジェクトのカテゴリーまたは値と関連付けます。類似したケースはお互いに近く、類似していないケースはお互いに離れています。
判別分析によって、ロジスティック回帰より厳密な仮説を立てることができますが、これらの仮説が一致した場合、ロジスティック回帰分析に対する様々な代替あるいは補足になります。
ベイズ・ネットワーク・ノードを使用すると、観測された情報および記録された情報を実際の知識を組み合わせることによって確率モデルを作成し、発生の尤度を確立できます。ノードは主に分類に使用される Tree Augmented Naïve Bayes (TAN) および Markov Blanket ネットワークに焦点を当てています。
ディシジョン・リスト・ノードは、母集団に関連する与えられた 2 値の結果の高いもしくは低い尤度を示すサブグループまたはセグメントを識別します。例えば、離れる可能性の少ないもしくはキャンペーンに好意的に答える可能性のある顧客を探すことができます。顧客区分を追加し、結果を比較するために他のモデルを並べて表示することによって、ビジネスに関する知識をモデルに導入することができます。ディシジョン・リスト・モデルは、ルールのリストから構成され、各ルールには条件と結果が含まれます。ルールは順番に適用され、一致する最初のルールで、結果が決まります。
ロジスティック回帰は、入力フィールドの値に基づいてレコードを分類する統計手法です。線型回帰と似ていますが、数値範囲ではなくカテゴリー対象フィールドを使用します。
CHAID ノードはディシジョン・ツリーを生成し、カイ二乗統計値を使用して最適な分割を識別します。C&R ツリーおよび QUEST ノードと違って、CHAID は、非 2 分岐ツリーを生成できます。これは、ある分岐が 3 個以上のブランチを持つことを意味します。対象フィールドおよび入力フィールドは、数値範囲 (連続型) またはカテゴリーとなります。Exhaustive CHAID は CHAID の修正版で、可能性のある分割すべてを調べることで、よりよい結果を得られますが、計算時間も長くなります。
QUEST ノードには、ディシジョン・ツリーの構築用に2 分岐の方法が用意されています。これは、大規模な C&R ツリー分析が必要とする処理時間を短縮すると同時に、より多くの分割を可能にする入力値が優先される分類ツリー内の傾向を低減するように設計されています。入力フィールドは、数値範囲 (連続型) にできますが、目標変数はカテゴリーでなければなりません。すべての分割は 2 分岐です。
C&R Tree (分類と回帰ツリー) ノードは、ディシジョン・ツリーを生成し、将来の観測値を予測または分類できるようにします。この方法は再帰的なデータ区分を使用して学習レコードを複数のセグメントに分割し、各ステップで不純性を最小限に抑えます。ツリーのノードが「純粋」であると考えられるのは、ノード中にあるケースの 100% が、対象フィールドのある特定のカテゴリーに分類される場合です。対象フィールドおよび入力フィールドは、数値範囲またはカテゴリー (名義型、順序型、フラグ) が使用できます。すべての分岐は 2 分割です (2 つのサブグループのみ)。
C5.0 ノードは、ディシジョン・ツリーとルール・セットのどちらかを構築します。このモデルは、各レベルで最大の情報の対応をもたらすフィールドに基づいてサンプルを分割します。対象フィールドは、カテゴリーでなければなりません。複数の分割を 2 つ以上のサブグループに分割できます。
ニューラル・ネットワーク・ノードは、人間の脳が情報を処理する方法を単純化したモデルを使用します。ニューラル・ネットワーク・ノードは、連係する多数の単純な処理単位をシミュレートします。処理単位は、ニューロンを抽象化したものと表現できます。ニューラル・ネットワークは強力な一般関数推定法であり、学習させたり、適用するには、最低限の統計学および数学の知識しか必要ありません。
線型回帰モデルは、対象と 1 つまたは複数の予測値との線型の関係に基づいて連続型対象を予測します。
線型サポート・ベクター・マシン (LSVM) ノードを使用すると、オーバーフィットすることなく、データを 2 つのグループのいずれかに分類することができます。LSVM は線型であり、極めて多数のレコードを含むデータセットなど、広範なデータセットを処理することができます。
ランダム ツリー ノードは既存の C&RT ノードと似ていますが、ランダム ツリー ノードはビッグデータを処理して単一のツリーを作成することを目的に設計されており、結果のモデルが SPSS® Modeler バージョン 17 で追加された出力ビューアーに表示されます。ランダム ツリー ノードは、将来の観測値を予測または分類するために使用するディシジョン ツリーを生成します。この方法では、再帰的なデータ分岐を使用して、各ステップで不純性を最小限に抑えることで、学習レコードがセグメントに分割されます。ツリー内のノードは、ノード内のケースの 100% が対象フィールドの特定のカテゴリーに分類される場合に、純粋 と見なされます。対象フィールドおよび入力フィールドは、数値範囲またはカテゴリー (名義型、順序型、フラグ) が使用できます。すべての分岐は 2 分割です (2 つのサブグループのみ)。
Tree-AS ノードは既存の CHAID ノードに似ていますが、Tree-AS ノードはビッグデータを処理して 1 つのツリーを作成することを目的に設計されており、結果モデルが SPSS Modeler バージョン 17 で追加された出力ビューアーに表示されます。このノードは、カイ 2 乗統計量 (CHAID) を使用して最適な分割を特定することで、ディシジョン・ツリーを生成します。CHAID をこのように使用することで、非 2 分岐ツリーを生成できます。これは、3 個以上のブランチを持つ分岐が存在することを意味します。対象フィールドおよび入力フィールドは、数値範囲 (連続型) またはカテゴリーとなります。Exhaustive CHAID は CHAID の修正版で、可能性のある分割すべてを調べることで、よりよい結果を得られますが、計算時間も長くなります。
注: Analytic Server で Tree-AS を実行することを選択すると、データ区分ノードが上流にある場合は、モデルの作成に失敗します。この場合、Analytic Server 上の他のモデル作成ノードで自動分類を機能させるには、Tree-AS モデル タイプを選択解除します。