Классификация образцов клеток (SVM)

Механизм опорных векторов (Support Vector Machine, SVM) - это способ классификации и построения регрессии, особенно подходящий для больших наборов данных. Большой набор данных содержит много предикторов, что может встретиться в области биоинформатики (применение информационных технологий к биохимическим и биологическим данным).

В медицинских исследованиях получен набор данных, содержащих характеристики многих образцов человеческих клеток от пациентов, для которых предполагается риск развития рака. Анализ исходных данных показал, что для здоровых и злокачественных клеток многие характеристики существенно отличаются. Медики хотят разработать модель SVM, которая сможет использовать значения характеристик клеток в образцах от других пациентов, чтобы получить раннюю диагностику нормальности или злокачественности новых образцов.

В этом примере используется поток с именем svm_cancer.str, доступный в папке Demos в подпапке streams. Файл данных - это cell_samples.data. Дополнительную информацию смотрите в разделе Папка demos.

Этот пример основан на наборе данных, общедоступном в репозитории UCI Machine Learning. Этот набор данных состоит из нескольких сотен записей образцов человеческих клеток, каждая из которых содержит значения набора клеточных характеристик. В каждой записи есть следующие поля:

Имя поля Описание
ID Идентификатор пациента
Clump Консистенция колонии
UnifSize Однородность размеров клеток
UnifShape Однородность формы клеток
MargAdh Граничная адгезия
SingEpiSize Размер одной эпителиальной клетки
BareNuc Голые ядра
BlandChrom Пассивный хроматин
NormNucl Обычные ядрышки
Mit Митозы
Class Здоровая или злокачественная

Для целей этого примера мы используем набор данных с относительно малым числом предикторов в каждой записи.

Далее