Классификация образцов клеток (SVM)
Механизм опорных векторов (Support Vector Machine, SVM) - это способ классификации и построения регрессии, особенно подходящий для больших наборов данных. Большой набор данных содержит много предикторов, что может встретиться в области биоинформатики (применение информационных технологий к биохимическим и биологическим данным).
В медицинских исследованиях получен набор данных, содержащих характеристики многих образцов человеческих клеток от пациентов, для которых предполагается риск развития рака. Анализ исходных данных показал, что для здоровых и злокачественных клеток многие характеристики существенно отличаются. Медики хотят разработать модель SVM, которая сможет использовать значения характеристик клеток в образцах от других пациентов, чтобы получить раннюю диагностику нормальности или злокачественности новых образцов.
В этом примере используется поток с именем svm_cancer.str, доступный в папке Demos в подпапке streams. Файл данных - это cell_samples.data. Дополнительную информацию смотрите в разделе Папка demos.
Этот пример основан на наборе данных, общедоступном в репозитории UCI Machine Learning. Этот набор данных состоит из нескольких сотен записей образцов человеческих клеток, каждая из которых содержит значения набора клеточных характеристик. В каждой записи есть следующие поля:
| Имя поля | Описание |
|---|---|
| ID | Идентификатор пациента |
| Clump | Консистенция колонии |
| UnifSize | Однородность размеров клеток |
| UnifShape | Однородность формы клеток |
| MargAdh | Граничная адгезия |
| SingEpiSize | Размер одной эпителиальной клетки |
| BareNuc | Голые ядра |
| BlandChrom | Пассивный хроматин |
| NormNucl | Обычные ядрышки |
| Mit | Митозы |
| Class | Здоровая или злокачественная |
Для целей этого примера мы используем набор данных с относительно малым числом предикторов в каждой записи.