予測フィールドのスクリーニング (特徴量選択)
フィールド選択ノードは、ある結果を予測する上で最も重要なフィールドを識別するのに役立ちます。数百、数千の予測フィールド・セットから、フィールド選択ノードは最も重要と思われる予測フィールドをスクリーニング、ランク付け、および選択します。最終的には、より簡単でより効果的なモデル、すなわち少ない予測フィールドを使用して、すぐに実行できる分かりやすいモデルになります。
この例で使用するデータは、架空の電話会社のデータウェアハウスを想定しており、この会社の 5,000 人の顧客から得る特別プロモーションに対する応答に関する情報があります。このデータには、顧客の年齢、職業、収入、電話利用状況の統計などの多くのフィールドが含まれています。3 つの「対象」フィールドは、顧客が 3 つのオファーのそれぞれに反応したかどうかを示しています。この会社は、このデータを活用して、今後、類似のオファーに対して反応する可能性が最も高い顧客を予測したいと考えています。
この例では、featureselection.str という名前のストリームを使用します。これは、customer_dbase.sav という名前のデータ・ファイルを参照します。これらのファイルは、IBM® SPSS® Modeler インストール済み環境の Demos ディレクトリーにあります。このディレクトリーには、Windows の「スタート」メニューの IBM SPSS Modeler プログラム・グループからアクセスできます。featureselection.str ファイルは、streams ディレクトリーにあります。
この例では、オファーの 1 つに注目して対象として取り上げます。CHAID ツリー構築ノードを使用して、販売促進活動に反応する可能性が最も高い顧客を示すモデルを作成します。ここで次の 2 つの方法を比較します。
- 特徴量選択なし。データ・セットのすべての予測フィールドが CHAID ツリーへの入力として使用されます。
- 特徴量選択あり。フィールド選択ノードを使用して、上位 10 の予測フィールドを選択します。それが CHAID ツリーに入力されます。
この 2 つの結果ツリー・モデルを比較することで、フィールド選択がいかに有効な成果を生むかがわかります。