SVMs wurden in den 1990er Jahren von Wladimir N. Vapnik und seinen Kollegen entwickelt und diese Arbeit wurde 1995 in einem Artikel mit dem Titel „Support Vector Method for Function Approximation, Regression Estimation, and Signal Processing“1 veröffentlicht.
SVMs werden häufig innerhalb von Klassifizierungsproblemen verwendet. Sie unterscheiden zwischen zwei Klassen, indem sie die optimale Hyperebene finden, die den Abstand zwischen den nächstgelegenen Datenpunkten der entgegengesetzten Klassen maximiert. Die Anzahl der Merkmale in den Eingabedaten bestimmt, ob die Hyperebene eine Linie in einem 2-D-Raum oder eine Ebene in einem n-dimensionalen Raum ist. Da mehrere Hyperebenen zur Unterscheidung der Klassen gefunden werden können, ermöglicht die Maximierung der Spanne zwischen den Punkten dem Algorithmus, die beste Entscheidungsgrenze zwischen den Klassen zu finden. Dies wiederum ermöglicht eine gute Generalisierung auf neue Daten und genaue Klassifizierungsvorhersagen. Die Linien, die an die optimale Hyperebene angrenzen, werden als Support-Vektoren bezeichnet, da diese Vektoren durch die Datenpunkte verlaufen, die den maximalen Spielraum bestimmen.
Der SVM-Algorithmus wird häufig im Bereich maschinelles Lernen verwendet, da er sowohl lineare als auch nichtlineare Klassifikationsaufgaben bewältigen kann. Wenn die Daten jedoch nicht linear trennbar sind, werden Kernel-Funktionen verwendet, um den höherdimensionalen Raum der Daten zu transformieren, um eine lineare Trennung zu ermöglichen. Diese Anwendung von Kernel-Funktionen kann als „Kernel-Trick“ bezeichnet werden. Die Wahl der Kernel-Funktion, wie z.B. lineare Kernel, Polynom-Kernel, Radial Basis Function (RBF)-Kernel oder Sigmoid-Kernel, hängt von den Dateneigenschaften und dem spezifischen Anwendungsfall ab.