Classification des échantillons de cellules (SVM)
Support Vector Machine (SVM) est une technique de classification et de régression particulièrement adaptée aux larges jeux de données. Un large jeu de données est un ensemble contenant un nombre important de prédicteurs, comme c'est le cas dans le domaine de la bio-informatique (l'application des technologies de l'information aux données biochimiques et biologiques).
Un chercheur en médecine a obtenu un jeu de données contenant les caractéristiques d'un certain nombre d'échantillons de cellules humaines supposées favoriser le développement du cancer. L'analyse des données originales indiquait que de nombreuses caractéristiques différaient considérablement entre les échantillons bénins et malins. Ce chercheur en médecine souhaite développer un modèle SVM qui peut utiliser les valeurs des caractéristiques de ces cellules dans des échantillons d'autres patients pour savoir au plus tôt si leurs échantillons peuvent être bénins ou malins.
Cet exemple utilise le flux nommé svm_cancer.str, disponible dans le dossier Demos du sous-dossier des flux. Le fichier de données est cell_samples.data. Pour plus d'informations, voir la rubrique Dossier Demos.
Cet exemple utilise un jeu de données disponible au public dans le référentiel d'apprentissage automatique. Ce jeu de données est constitué de plusieurs centaines d'enregistrements d'échantillons de cellules humaines, chacun d'entre eux contenant les valeurs d'un ensemble de caractéristiques des cellules. Les champs de chaque enregistrement sont :
| Nom du champ | Description |
|---|---|
| ID | Identifiant du patient |
| Clump | Epaisseur de l'agglutination |
| UnifSize | Uniformité de la taille des cellules |
| UnifShape | Uniformité de la forme des cellules |
| MargAdh | Adhésion marginale |
| SingEpiSize | Taille des cellules épithéliales |
| BareNuc | Noyau nu |
| BlandChrom | Chromatine terne |
| NormNucl | Nucléole normal |
| Mit | Mitoses |
| Class | Bénigne ou maligne |
Dans cet exemple, nous utilisons un jeu de données contenant un nombre relativement petit de prédicteurs dans chaque enregistrement.