评估新车辆产品 (KNN)
“最近相邻元素分析”是根据观测值与其他观测值的类似程度分类观测值的方法。在机器学习中,将其开发为识别数据模式的一种方法,而不需要与任何存储模式或观测值完全匹配。类似观测值相互靠近,而不同观测值相互远离。因此,两个观测值之间的距离是其不相似性的测量。
将靠近彼此的观测值视为“相邻元素”。当提出新的观测值(holdout 观测值)时,计算其到模型中每个观测值的距离。计算最相似观测值(最近相邻元素)的分类,并将新观测值放在最近相邻元素数最多的类别中。
您可以指定要检查的最近相邻元素的数目;此值称为 k。图片显示了如何使用两个不同的 k 值对新观测值进行分类。当 k = 5 时,新观测值将放在类别 1 中,这是因为大多数最近相邻元素都属于类别 1。但是,当 k = 9 时,新观测值将放在类别 0 中,这是因为大多数最近相邻元素都属于类别 0。
最近相邻元素分析也可用于计算连续目标的值。在此情况下,最近相邻元素的平均值或中间目标值用于获得新观测值的预测值。
某家汽车制造商开发了两款新车(轿车和货车)的原型。在将新车型引入其产品系列前,该制造商想确定市场上哪些现有车辆与原型产品最接近,即哪些车辆是它们的“最近相邻元素”,并以此确定它们将与哪些车型展开竞争。
该制造商收集了有关现有车型的不同类别的数据,并添加了其原型产品的详细信息。需要在不同车型间进行比较的类别包括以千为单位的价格 (price)、发动机尺寸 (engine_s)、马力 (horsepow)、轴距 (wheelbas)、车宽 (width)、车长 (length)、整车重量 (curb_wgt)、油箱容量 (fuel_cap) 和燃油效率 (mpg)。
本示例使用了名为 car_sales_knn.str 的流,该流位于 Demos 文件夹下的 streams 子文件夹中。数据文件为 car_sales_knn_mod.sav。有关更多信息,请参阅Demos 文件夹主题。