As SVMs foram desenvolvidas na década de 1990 por Vladimir N. Vapnik e seus colegas, e eles publicaram esse trabalho em um artigo intitulado "Support Vector Method for Function Approximation, Regression Estimation, and Signal Processing"1 em 1995.

As SVMs são comumente usadas em problemas de classificação. Eles distinguem duas classes encontrando o hiperplano ideal que maximiza a margem entre os pontos de dados mais próximos de classes opostas. O número de atributos dos dados de entrada determina se o hiperplano é uma linha em um espaço 2D ou um plano em um espaço n-dimensional. Como vários hiperplanos podem ser encontrados para diferenciar as classes, maximizar a margem entre os pontos permite que o algoritmo encontre o melhor limite de decisão entre as classes. Isso, por sua vez, permite uma boa generalização dos novos dados e a realização de previsões de classificação precisas. As linhas adjacentes ao hiperplano ideal são conhecidas como vetores de suporte, pois esses vetores percorrem os pontos de dados que determinam a margem máxima.

O algoritmo SVM é amplamente utilizado no aprendizado de máquina, pois pode lidar com tarefas de classificação linear e não linear. No entanto, quando os dados não são linearmente separáveis, funções de kernel são usadas para transformar os dados em um espaço de maior dimensão, permitindo a separação linear. Essa aplicação de funções de kernel é conhecida como o "truque do kernel", e a escolha da função de kernel, como kernels lineares, kernels polinomiais, kernels de função base radial (RBF) ou kernels sigmoides, depende das características dos dados e do caso de uso específico.