新しい自動車製品の評価 (KNN)

最近傍分析は、そのほかのケースに対する類似性に基づいてケースを分類する方法です。マシン学習で、保存されたパターンまたはケースに完全に一致する必要なしにデータのパターンを認識する方法として開発されました。類似したケースはお互いに近く、類似していないケースはお互いに離れています。つまり、2 つのケース間の距離は、それらの非類似度の尺度です。

互いに近いケースを「近傍」と呼びます。新しいケース (ホールドアウト) が存在する場合、モデル内の各ケースからその新しいケースへの距離が計算されます。最も類似したケースの分類である「最近傍」が集計され、新しいケースが、最大数の最近傍を含むカテゴリーに投入されます。

検証する最近傍の数を指定できます。この値を k とします。図は、新しいケースが 2 つの異なる値の k を使用してどのように分類されるかを示します。k = 5 の場合、最近傍の大部分はカテゴリー 1 に属するため、新しいケースはカテゴリー 1 にあります。ただし k = 9 の場合、最近傍の大部分はカテゴリー 0 に属するため、新しいケースはカテゴリー 0 にあります。

また、最近傍分析を使用して、連続型対象値を計算することもできます。この場合、最近傍の平均または中央の対象値を使用して、新しいケースの予測値を取得します。

自動車メーカーが、2 つの新しい自動車 (乗用車およびトラック) のプロトタイプを開発しています。新しいモデルを範囲に導入する前に、メーカーは市場にある既存の自動車でどれが最もプロトタイプに近いのか、つまりどの自動車が「最近傍」なのか、そのためどのモデルが競争相手となるのかを判断する必要があります。

メーカーはさまざまなカテゴリーの既存のモデルに関するデータを収集し、そのプロトタイプの詳細情報を追加しました。モデルを比較するカテゴリーには、価格 (単位: 千) (price)、エンジンのサイズ (engine_s)、馬力 (horsepow)、ホイールベース (wheelbas)、幅 (width)、全長 (length)、重量 (curb_wgt)、燃料積載量 (fuel_cap) および燃料効率 (mpg) があります。

この例では、Demos フォルダーの streams サブフォルダー内にある car_sales_knn.str というストリームを使用します。データ・ファイルは car_sales_knn_mod.sav です。詳細については、Demos フォルダーを参照してください。

次へ