Las SVM lineales se emplean con datos separables linealmente. Esto significa que los datos no necesitan sufrir ninguna transformación para separar los datos en diferentes clases. El boundary y los vectores de soporte forman la apariencia de una calle, y el profesor Patrick Winston del MIT utiliza la analogía de "ajustar la calle más ancha posible " 2 para describir este problema de optimización cuadrática. Matemáticamente, este hiperplano de separación se puede representar de la siguiente manera:
wx + b = 0
donde w es el vector de ponderación, x es el vector de entrada y b es el término de sesgo.
Existen dos enfoques para calcular el margen, o la distancia máxima entre clases, que son la clasificación de margen duro y la clasificación de margen blando. Si utilizamos SVM de margen duro, los puntos de datos estarán perfectamente separados fuera de los vectores de soporte, o "fuera de la calle" para continuar con la analogía del profesor Hinton. Esto se representa con la fórmula,
(wxj + b) yj ≥ a,
y luego se maximiza el margen, que se representa como: max ɣ= a / ||w||, donde a es el margen proyectado sobre w.
La clasificación de margen suave es más flexible, ya que permite algunos errores de clasificación mediante el uso de variables de holgura (`ξ`). El hiperparámetro C ajusta el margen; un valor C mayor estrecha el margen para una clasificación errónea mínima, mientras que un valor C menor lo amplía, permitiendo más datos clasificadoserróneamente 3.