ストリームの作成

図 1. KNN モデル作成のサンプル・ストリーム
KNN モデル作成のサンプル・ストリーム

新規ストリームを作成し、IBM® SPSS® Modeler インストール環境の Demos フォルダーにある car_sales_knn_mod.sav を指し示す Statistics ファイル入力ノードを追加します。

まず、メーカーが収集したデータについて見てみましょう。

  1. テーブル・ノードを Statistics ファイル入力ノードに接続します。
  2. テーブル・ノードを開いて、「実行」をクリックします。
    図 2. 乗用車およびトラックのソース・データ
    乗用車およびトラックのソース・データ

    newCarnewTruck という 2 つのプロトタイプの詳細が、ファイルの最後に追加されています。

    ソース・データから、メーカーはかなりあいまいな「トラック」の分類 (type 列の値 1) を使用していて、自動車以外の種類の車両を意味していることが分かります。

    最近傍を特定する場合に 2 つのプロトタイプをホールドアウトの順序で指定できるようにするには、最後の列 partition が必要です。このように、これらのデータは、検討に入れる市場の残りの部分であるため、計算に影響しません。2 つのホールドアウト・レコードの partition の値を 1 に設定し、他のすべてのレコードについてこのフィールドの値を 0 に設定すると、重要レコード (最近傍を計算する対象レコード) を設定する際に後でこのフィールドを使用できます。

    後から参照するので、テーブル出力ウィンドウは開いたままにします。

    図 3. データ型ノードの設定
    データ型ノードの設定
  3. データ型ノードをストリームに追加します。
  4. データ型ノードを Statistics ファイル入力ノードに接続します。
  5. データ型ノードを開きます。

    フィールド price から mpg までのみを比較するため、これらのすべてのフィールドの役割は「入力」の設定のままにします。

  6. その他のすべてのフィールド (manufact から typelnsales) の役割を「なし」に設定します。
  7. 最後のフィールド partition の測定の尺度を「フラグ型」に設定します。その役割が「入力」に設定されていることを確認してください。
  8. 「値の読み込み」をクリックしてデータ値をストリームに読み込みます。
  9. 「OK」をクリックします。
    図 4. 最近傍の識別の選択
    最近傍の識別の選択
  10. KNN ノードをデータ型ノードに接続します。
  11. KNN ノードを開きます。

    2 つのプロトタイプの最近傍を見つけるだけなので、今回は対象フィールドの予測は行っていません。

  12. 「目的」タブで、「最近傍のみを識別」を選択します。
  13. 「設定」タブをクリックします。
    図 5. データ区分フィールドを使用した重要レコードの特定
    データ区分フィールドを使用した重要レコードの特定

    ここでは、データ区分 フィールドを使用して重要レコード (最近傍を特定する対象のレコード) を特定できます。フラグ型フィールドを使用して、このフィールドの値が 1 に設定されたレコードが重要レコードとなっていることを確認します。

    前述のとおり、このフィールドの値が 1 になっているレコードは newCar および newTruck のみであるため、それらのレコードが重要レコードになります。

  14. 「設定」タブの「モデル」パネルで、「重要レコードの特定」チェック・ボックスを選択します。
  15. このフィールドのドロップダウン・リストから、「データ区分」を選択します。
  16. 「実行」ボタンをクリックします。

次へ