對細胞樣本進行分類 (SVM)
支援向量機器 (SVM) 是一項分類和迴歸方法技術,特別適合用於大型資料集。大型資料集是具有大量預測值的資料集,例如在生物資訊學(將資訊技術應用於生化和生物資料)中可能遇到的大型資料集。
醫學研究員已取得一個資料集,其中包含擷取自被認為有患癌風險之病人的數個人類細胞樣本的性質。分析原始資料表明良性與惡性樣本之間的許多性質存在顯著差異。該研究人員希望開發一種 SVM 模型,該模型可以使用其他病患的樣本中的這些細胞特性的值,以盡早發現他們的樣本是良性還是惡性。
此範例使用名為 svm_cancer.str 的串流,可從 Demos 資料夾中 streams 子資料夾下取得。資料檔案是 cell_samples.data。如需相關資訊,請參閱Demos 資料夾主題。
範例基於可從 UCI 機器學習儲存庫中公開取得的資料集。該資料集包含幾百個人類細胞樣本記錄,每筆記錄包含一組細胞性質。每筆記錄中的欄位如下:
| 欄位名稱(F) | 說明 |
|---|---|
| ID | 病患 ID |
| Clump | 腫塊厚度 |
| UnifSize | 細胞大小的均勻度 |
| UnifShape | 細胞形狀的均勻度 |
| MargAdh | 邊際粘性 |
| SingEpiSize | 單一上皮細胞大小 |
| BareNuc | 裸核 |
| BlandChrom | 乏味染色體 |
| NormNucl | 正常核 |
| Mit | 有絲分裂 |
| Class | 良性或惡性 |
對於此範例,我們使用每筆記錄中預測值數目相對較少的資料集。