Problemas de regressão usam um conceito semelhante ao problema de classificação, mas nesse caso, a média dos k vizinhos mais próximos é usada para fazer uma previsão sobre uma classificação. A principal distinção aqui é que a classificação é usada para valores discretos, enquanto a regressão é usada com valores contínuos. No entanto, antes que uma classificação possa ser feita, a distância precisa ser definida. A distância euclidiana é a mais comumente utilizada, sobre a qual vamos nos aprofundar mais abaixo.
Também vale observar que o algoritmo KNN faz parte de uma família de modelos de "aprendizado preguiçoso", o que significa que ele apenas armazena um conjunto de dados de treinamento, em vez de passar por uma fase de treinamento. Isso também significa que toda a computação ocorre quando uma classificação ou previsão está sendo feita. Como ele depende bastante da memória para armazenar todos os seus dados de treinamento, também é chamado de método de aprendizado baseado em instância ou em memória.
Evelyn Fix e Joseph Hodges são creditados com as ideias iniciais em torno do modelo KNN neste artigo de 1951, enquanto Thomas Cover expande o conceito em sua pesquisa "Nearest Neighbor Pattern Classification." Embora não seja tão popular quanto já foi, ainda é um dos primeiros algoritmos que se aprende em ciência de dados devido à sua simplicidade e precisão. No entanto, à medida que um conjunto de dados cresce, o KNN se torna cada vez mais ineficiente, comprometendo o desempenho geral do modelo. É comumente utilizado para sistemas de recomendação simples, reconhecimento de padrões, mineração de dados, previsões de mercados financeiros, detecção de intrusões e muito mais.