ストリームの作成
新規ストリームを作成し、IBM® SPSS® Modeler インストール環境の Demos フォルダーにある car_sales_knn_mod.sav を指し示す Statistics ファイル入力ノードを追加します。
まず、メーカーが収集したデータについて見てみましょう。
- テーブル・ノードを Statistics ファイル入力ノードに接続します。
- テーブル・ノードを開いて、「実行」をクリックします。
newCar と newTruck という 2 つのプロトタイプの詳細が、ファイルの最後に追加されています。
ソース・データから、メーカーはかなりあいまいな「トラック」の分類 (type 列の値 1) を使用していて、自動車以外の種類の車両を意味していることが分かります。
最近傍を特定する場合に 2 つのプロトタイプをホールドアウトの順序で指定できるようにするには、最後の列 partition が必要です。このように、これらのデータは、検討に入れる市場の残りの部分であるため、計算に影響しません。2 つのホールドアウト・レコードの partition の値を 1 に設定し、他のすべてのレコードについてこのフィールドの値を 0 に設定すると、重要レコード (最近傍を計算する対象レコード) を設定する際に後でこのフィールドを使用できます。
後から参照するので、テーブル出力ウィンドウは開いたままにします。
- データ型ノードをストリームに追加します。
- データ型ノードを Statistics ファイル入力ノードに接続します。
- データ型ノードを開きます。
フィールド price から mpg までのみを比較するため、これらのすべてのフィールドの役割は「入力」の設定のままにします。
- その他のすべてのフィールド (manufact から type と lnsales) の役割を「なし」に設定します。
- 最後のフィールド partition の測定の尺度を「フラグ型」に設定します。その役割が「入力」に設定されていることを確認してください。
- 「値の読み込み」をクリックしてデータ値をストリームに読み込みます。
- 「OK」をクリックします。
- KNN ノードをデータ型ノードに接続します。
- KNN ノードを開きます。
2 つのプロトタイプの最近傍を見つけるだけなので、今回は対象フィールドの予測は行っていません。
- 「目的」タブで、「最近傍のみを識別」を選択します。
- 「設定」タブをクリックします。
ここでは、データ区分 フィールドを使用して重要レコード (最近傍を特定する対象のレコード) を特定できます。フラグ型フィールドを使用して、このフィールドの値が 1 に設定されたレコードが重要レコードとなっていることを確認します。
前述のとおり、このフィールドの値が 1 になっているレコードは newCar および newTruck のみであるため、それらのレコードが重要レコードになります。
- 「設定」タブの「モデル」パネルで、「重要レコードの特定」チェック・ボックスを選択します。
- このフィールドのドロップダウン・リストから、「データ区分」を選択します。
- 「実行」ボタンをクリックします。