ストリームの作成

新規ストリームを作成し、IBM® SPSS® Modeler インストール環境の Demos フォルダーにある car_sales_knn_mod.sav を指し示す Statistics ファイル入力ノードを追加します。

まず、メーカーが収集したデータについて見てみましょう。

テーブル・ノードを Statistics ファイル入力ノードに接続します。
テーブル・ノードを開いて、「実行」をクリックします。
図 2. 乗用車およびトラックのソース・データ

newCar と newTruck という 2 つのプロトタイプの詳細が、ファイルの最後に追加されています。

ソース・データから、メーカーはかなりあいまいな「トラック」の分類 (type 列の値 1) を使用していて、自動車以外の種類の車両を意味していることが分かります。

最近傍を特定する場合に 2 つのプロトタイプをホールドアウトの順序で指定できるようにするには、最後の列 partition が必要です。このように、これらのデータは、検討に入れる市場の残りの部分であるため、計算に影響しません。2 つのホールドアウト・レコードの partition の値を 1 に設定し、他のすべてのレコードについてこのフィールドの値を 0 に設定すると、重要レコード (最近傍を計算する対象レコード) を設定する際に後でこのフィールドを使用できます。

後から参照するので、テーブル出力ウィンドウは開いたままにします。

図 3. データ型ノードの設定
データ型ノードをストリームに追加します。
データ型ノードを Statistics ファイル入力ノードに接続します。
データ型ノードを開きます。
フィールド price から mpg までのみを比較するため、これらのすべてのフィールドの役割は「入力」の設定のままにします。
その他のすべてのフィールド (manufact から type と lnsales) の役割を「なし」に設定します。
最後のフィールド partition の測定の尺度を「フラグ型」に設定します。その役割が「入力」に設定されていることを確認してください。
「値の読み込み」をクリックしてデータ値をストリームに読み込みます。
「OK」をクリックします。
図 4. 最近傍の識別の選択
KNN ノードをデータ型ノードに接続します。
KNN ノードを開きます。
2 つのプロトタイプの最近傍を見つけるだけなので、今回は対象フィールドの予測は行っていません。
「目的」タブで、「最近傍のみを識別」を選択します。
「設定」タブをクリックします。
図 5. データ区分フィールドを使用した重要レコードの特定

ここでは、データ区分 フィールドを使用して重要レコード (最近傍を特定する対象のレコード) を特定できます。フラグ型フィールドを使用して、このフィールドの値が 1 に設定されたレコードが重要レコードとなっていることを確認します。

前述のとおり、このフィールドの値が 1 になっているレコードは newCar および newTruck のみであるため、それらのレコードが重要レコードになります。
「設定」タブの「モデル」パネルで、「重要レコードの特定」チェック・ボックスを選択します。
このフィールドのドロップダウン・リストから、「データ区分」を選択します。
「実行」ボタンをクリックします。