Les SVM linéaires sont utilisées avec des données linéairement séparables, ce qui signifie que les données n’ont pas besoin d’être transformées pour être séparées en différentes classes. La limite de décision et les vecteurs de support ont l’apparence d’une rue, et le professeur Patrick Winston du MIT utilise l’analogie de « remplir la rue la plus large possible »2 pour décrire ce problème d’optimisation quadratique. Mathématiquement, cet hyperplan de séparation peut être représenté comme suit :
wx + b = 0
où w est le vecteur de poids, x est le vecteur d’entrée et b est le terme de biais.
Il existe deux approches pour calculer la marge, ou la distance maximale entre les classes, à savoir la classification par marge fixe et la classification par marge souple. Si nous utilisons des SVM à marge stricte, les points de données seront parfaitement séparés en dehors des vecteurs de support, ou « hors de la rue » pour poursuivre l’analogie du professeur Hinton. Cela est représenté par la formule suivante :
(wxj + b) yj ≥ a,
puis la marge est maximisée, ce qui est représenté par : max ɣ= a / ||w||, où a est la marge projetée sur w.
La classification par marge souple est plus souple, car elle autorise certaines erreurs de classification grâce à l’utilisation de variables lâches (« ξ »). L’hyperparamètre, C, ajuste la marge ; une valeur C plus élevée réduit la marge pour une classification erronée minimale, tandis qu’une valeur C plus petite l’élargit, permettant ainsi d’obtenir davantage de données mal classées.3