Le SVM lineari sono utilizzate con dati linearmente separabili; ciò significa che i dati non necessitano di alcuna trasformazione per essere separati in classi diverse. Il boundary decisionale e i vettori di supporto formano l'aspetto di una strada e il professor Patrick Winston del MIT usa l'analogia di "adattare la strada più ampia possibile "2 per descrivere questo problema di ottimizzazione quadratica. Matematicamente, questo iperpiano di separazione può essere rappresentato come:
wx + b = 0
dove w è il vettore dei pesi, x è il vettore di input e b è il termine di bias.
Ci sono due approcci per calcolare il margine, o la distanza massima tra le classi, che sono la classificazione hard-margin e la classificazione soft-margin. Se utilizziamo una SVM hard-margin, i punti dati saranno perfettamente separati al di fuori dei vettori di supporto, o "fuori dalla strada" per continuare con l'analogia del professor Hinton. Questo è rappresentato dalla formula,
(wxj + b) yj ≥ a,
e poi viene massimizzato il margine, che è rappresentato come: max ɣ= a / ||w||, dove a è il margine proiettato su w.
La classificazione soft-margin è più flessibile e consente alcuni errori di classificazione tramite l'uso di variabili di slack (`ξ`). L'iperparametro C regola il margine; un valore C più grande restringe il margine per una classificazione errata minima, mentre un valore C più piccolo lo amplia, consentendo una maggiore tolleranza per i dati classificati in modo errato3.