最近邻元素分析

“最近邻元素分析”方法是根据个案间的相似性来对个案进行分类。 在 machine learning 中,它被开发为一种识别数据模式而不需要与任何存储的模式或个案完全匹配的方法。 类似个案相互靠近,而不同个案相互远离。 因此,通过两个个案之间的距离可以测量他们的非相似性。

相互靠近的个案称为“邻元素”。 当出现新个案(保持)时,将计算它与模型中每个个案之间的距离。 计算得出最相似个案(最近邻元素)的分类,并将新个案放入包含最多最近邻元素的类别。

您可以指定要检查的最近邻元素数目,该值称为 k

最近邻元素分析也可用于计算连续目标的值。 在这种情况下,使用最近邻元素的平均值或中位数目标值来获取新个案的预测值。

最近邻元素分析数据注意事项

目标和功能。 目标和特征包括:

  • 名义当变量值表示不具有内在等级的类别时,该变量可以作为名义变量;例如,雇员任职的公司部门。 名义变量的示例包括地区、邮政编码和宗教信仰。
  • 有序当变量值表示带有某种内在等级的类别时,该变量可以作为有序变量;例如,从十分不满意到十分满意的服务满意度水平。 有序变量的示例包括表示满意度或可信度的态度分数和优先选择评分。
  • 标度当变量值表示带有有意义的度规的已排序类别时,该变量可以作为刻度(连续)变量对待,以便在值之间进行合适的距离比较。 刻度变量的示例包括以年为单位的年龄和以千美元为单位的收入。

    最近邻元素分析以相同的方式处理名义和有序变量。 此过程假设已对每个变量指定相应的测量级别;但是,您可以右键单击源变量列表中的变量并从弹出菜单中选择测量级别,以临时更改该变量的测量级别。 要永久更改变量的测量级别,请参阅 变量测量级别

变量列表中每个变量旁的图标标识测量级别和数据类型:

表 1. 测量级别图标
  数值 字符串 日期 时间
刻度(连续)
刻度图标
不适用
"刻度日期" 图标
"刻度时间" 图标
有序
有序图标
有序字符串图标
有序日期图标
"有序时间" 图标
名义
名义图标
名义字符串图标
名义日期图标
名义时间图标

分类变量编码。 该过程使用使用一个 c 编码在过程期间临时重新编码分类预测变量和因变量。 如果变量有 c 个类别,那么该变量将存储为 c 个向量,第一个类别表示为 (1,0 , ... , 0) ,下一个类别表示为 (0,1,0 , ... , 0) , ... , 和最终类别 (0,0 , ... ,0, 1)。

此编码方案增加了功能空间的维数。 具体来说,维度总数为刻度预测变量数目加上所有分类预测变量间的类别数目。 因此,此编码方案可导致训练减速。 如果您的最近邻元素训练进行很慢,在运行过程之前,可尝试通过将类似的类别组合起来,或删除具有极少见类别的个案以减少分类预测变量中的类别数目。

所有单c 编码都基于训练数据,即使定义了保留样本也是如此 (请参阅 分区 (最近邻元素分析))。 因此,如果坚持样本包含训练数据中不存在的预测变量类别个案,那么不对那些个案评分。 如果坚持样本包含训练数据中不存在的因变量类别个案,那么对那些个案评分。

重新调整。 刻度特征在缺省情况下将标准化。 所有重定比例都是根据训练数据执行的,即使定义了保留样本也是如此 (请参阅 分区 (最近邻元素分析))。 如果您指定一个变量以定义分区,这些特征在训练样本和坚持样本之间具有相似分布将至关重要。 例如,使用 探索 过程来检查分区之间的分布。

频率权重。 该过程忽略频率权重。

复制结果。 此过程在随机分配分区和交叉验证折期间使用随机数字生成器。 如果要完全复制结果,除了使用相同的过程设置外,还需要为 Mersenne Twister 设置种子 (请参阅 分区 (最近邻元素分析)) ,或者使用变量来定义分区和交叉验证折叠。

获取最近邻元素分析

此功能需要 Statistics Base 选项。

从菜单中选择:

分析 > 分类 > 最近邻元素 ...

注意: 红色标记的字段为必填项。 在所有必填字段中输入有效值后," 粘贴 "和 "确定 "按钮将被启用。
  1. 指定一项或多项特征,它们可被视为自变量或预测变量(如果存在目标的话)。

    目标(可选)。 如果未指定目标(因变量或响应),那么此过程仅查找 k 个最近邻元素 - 而不会执行任何分类或预测。

    规范化刻度特征。 标准化特征具有相同的值范围,这可改进估计算法的性能。 使用调整后规范化 [2*(x-min)/(max-min)]-1。 调整后的标准化值介于 -1 与 1 之间。

    焦点个案标识 (可选)。 这可以标记感兴趣的个案。 例如,研究员希望确定一个学区的测验分数(焦点个案)是否与类似学区的测验分数相当。 他使用最近邻元素分析来查找在给定特征组方面最相似的学区。 然后,他将焦点学区的测验分数与最近邻学区的分数进行比较。

    也可在临床研究中使用焦点个案来选择与临床个案相似的控制个案。 焦点个案显示在 k 个最近邻元素和距离表、特征空间图表、对等图表和象限图中。 有关焦点个案的信息保存到在“输出”选项卡上指定的文件中。

    在指定变量上为正值的个案被视为焦点个案。 指定具有非正值的变量是无效的。

Case 标签 (可选)。 在特征空间图表、对等图表和象限图中使用这些值来标记个案。

具有未知测量级别的字段

当数据集中的一个或多个变量(字段)的测量级别未知时,将显示测量级别警告。 由于测量级别会影响该过程的计算结果,因此所有变量必须都定义有测量级别。

扫描数据。 读取活动数据集中的数据,并分配缺省测量级别给任何具有当前未知测量级别的字段。 如果数据集较大,该过程可能需要一些时间。

手动分配。 打开列出了所有具有未知测量级别的字段的对话框。 您可以使用该对话框将测量级别分配给这些字段。 您也可以在数据编辑器的变量视图中分配测量级别。

由于测量级别对该过程很重要,因此您无法访问运行该过程的对话框,除非所有字段均定义了测量级别。

此过程将粘贴 KNN 命令语法。