Las SVM lineales se utilizan con datos linealmente separables; esto significa que los datos no necesitan sufrir ninguna transformación para separarlos en diferentes clases. El límite de decisión y los vectores de soporte forman la apariencia de una calle, y el profesor Patrick Winston del MIT utiliza la analogía de"ajustar la calle más ancha posible"2 para describir este problema de optimización cuadrática. Matemáticamente, este hiperplano de separación puede representarse como:
wx + b = 0
donde w es el vector de ponderación, x es el vector de entrada y b es el término de sesgo.
Existen dos enfoques para calcular el margen, o la distancia máxima entre clases, que son la clasificación de margen duro y la clasificación de margen blando. Si utilizamos SVM de margen duro, los puntos de datos estarán perfectamente separados fuera de los vectores de soporte, o "fuera de la calle" para continuar con la analogía del profesor Hinton. Esto se representa con la fórmula,
(wxj + b) yj ≥ a,
y luego se maximiza el margen, que se representa como: max ɣ= a / ||w||, donde a es el margen proyectado sobre w.
La clasificación de margen blando es más flexible y permite cierta clasificación errónea mediante el uso de variables de holgura (`ξ`). El hiperparámetro C ajusta el margen; un valor C mayor estrecha el margen para una clasificación errónea mínima, mientras que un valor C menor lo amplía, permitiendo más datos clasificados erróneamente3.