Clasificación de muestras de células (SVM)

Máquina de vectores de soporte (SVM) es una clasificación y técnica de regresión especialmente adecuada para conjuntos de datos de grandes dimensiones. Un conjunto de datos de grandes dimensiones es uno con un amplio número de predictores, como el que se puede encontrar en el campo de bioinformática (la aplicación de tecnología de la información a la bioquímica y a los datos biológicos).

Un investigador médico ha obtenido un conjunto de datos con las características de un número de muestras de células humanas extraídas de pacientes con riesgo de desarrollar un cáncer. El análisis de los datos originales demostró que muchas de las características de las muestras benignas y malignas eran muy diferentes. El investigador quiere desarrollar un modelo SVM que pueda utilizar los valores de estas características de las células en las muestras de otros pacientes para indicar si las muestras pueden ser benignas o malignas.

Este ejemplo utiliza la ruta denominada svm_cancer.str, disponible en la carpeta Demos bajo la subcarpeta streams. El archivo de datos es cell_samples.data. Consulte el tema Carpeta Demos para obtener más información.

El ejemplo está basado en un conjunto de que datos está disponible de forma pública en UCI Machine Learning Repository. El conjunto de datos contiene varios cientos de muestras de células humanas y cada una contiene los valores de un conjunto de características de celdas. Los campos de cada registro son:

Nombre de campo Descripción
ID Identificador de paciente
Grupo Grosor de grupo
UnifTamaño Uniformidad del tamaño de célula
UnifForma Uniformidad de la forma del tamaño de célula
MargAdh Adhesión marginal
TamEpiSim Tamaño de célula epitelial simple
NucDes Núcleo desnudo
CromBland Cromatina blanda
NuclNorm Nucleolos normales
Mit Mitosis
Clase Benigna o maligna

En este ejemplo se utiliza un conjunto de datos con un número relativamente pequeño de predictores en cada registro.

Siguiente