Classification des échantillons de cellules (SVM)

Support Vector Machine (SVM) est une technique de classification et de régression particulièrement adaptée aux larges jeux de données. Un large jeu de données est un ensemble contenant un nombre important de prédicteurs, comme c'est le cas dans le domaine de la bio-informatique (l'application des technologies de l'information aux données biochimiques et biologiques).

Un chercheur en médecine a obtenu un jeu de données contenant les caractéristiques d'un certain nombre d'échantillons de cellules humaines supposées favoriser le développement du cancer. L'analyse des données originales indiquait que de nombreuses caractéristiques différaient considérablement entre les échantillons bénins et malins. Ce chercheur en médecine souhaite développer un modèle SVM qui peut utiliser les valeurs des caractéristiques de ces cellules dans des échantillons d'autres patients pour savoir au plus tôt si leurs échantillons peuvent être bénins ou malins.

Cet exemple utilise le flux nommé svm_cancer.str, disponible dans le dossier Demos du sous-dossier des flux. Le fichier de données est cell_samples.data. Pour plus d'informations, voir la rubrique Dossier Demos.

Cet exemple utilise un jeu de données disponible au public dans le référentiel d'apprentissage automatique. Ce jeu de données est constitué de plusieurs centaines d'enregistrements d'échantillons de cellules humaines, chacun d'entre eux contenant les valeurs d'un ensemble de caractéristiques des cellules. Les champs de chaque enregistrement sont :

Nom du champ Description
ID Identifiant du patient
Clump Epaisseur de l'agglutination
UnifSize Uniformité de la taille des cellules
UnifShape Uniformité de la forme des cellules
MargAdh Adhésion marginale
SingEpiSize Taille des cellules épithéliales
BareNuc Noyau nu
BlandChrom Chromatine terne
NormNucl Nucléole normal
Mit Mitoses
Class Bénigne ou maligne

Dans cet exemple, nous utilisons un jeu de données contenant un nombre relativement petit de prédicteurs dans chaque enregistrement.

Suivant