细胞样本分类(SVM)

支持矢量机 (SVM) 是一项特别适合于广泛数据集的分类和回归技术。广泛数据集包含大量预测变量,例如可能会在生物信息学领域遇到(对生物化学数据和生物学数据应用信息技术)的预测变量。

一位医学研究人员获得了一个包含大量人体细胞样本的特征的数据集,这些样本是从被认为可能会患上癌症的患者身上提取的。对原始数据的分析表明,良性样本与恶性样本之间的很多特征显著不同。该研究人员希望开发一个 SVM 模型,使该模型可以使用其他患者样本中的这些细胞特征值尽早发现他们的样本是良性还是恶性。

本示例使用了名为 svm_cancer.str 的流,该流位于 Demos 文件夹下的 streams 子文件夹中。数据文件为 cell_samples.data 。有关更多信息,请参阅Demos 文件夹主题。

本示例基于可以从 UCI Machine Learning Repository 公开获取的数据集。数据集由数百条人体细胞样本记录组成,每条记录都包含一组细胞特征的值。每条记录中包含的字段包括:

字段名称 描述
标识 (ID) 患者标识
Clump 肿块的厚度
UnifSize 细胞大小的均匀度
UnifShape 细胞大小的均匀度
MargAdh 边际粘连
SingEpiSize 单层上皮细胞的大小
BareNuc 裸核
BlandChrom 温和的染色质
NormNucl 正常的核仁
Mit 有丝分裂
Class 良性或恶性

为达到本示例的目的,我们使用的是每条记录包含相对较少预测变量的数据集。

Next