Los problemas de regresión utilizan un concepto similar al problema de clasificación, pero en este caso, se toma el promedio de los k vecinos más cercanos para hacer una predicción sobre una clasificación. La principal distinción aquí es que la clasificación se usa para valores discretos, mientras que la regresión se usa para valores continuos. Sin embargo, antes de que se pueda hacer una clasificación, se debe definir la distancia. La distancia euclidiana es la más utilizada, en la que profundizaremos más adelante.
También vale la pena señalar que el algoritmo KNN también es parte de una familia de modelos de "aprendizaje vago", lo que significa que solo almacena un conjunto de datos de entrenamiento en lugar de someterse a una etapa de entrenamiento. Esto también significa que todo el cálculo se produce cuando se está haciendo una clasificación o predicción. Dado que depende en gran medida de la memoria para almacenar todos sus datos de entrenamiento, también se conoce como un método de aprendizaje basado en instancias o en memoria.
A Evelyn Fix y Joseph Hodges se les atribuyen las ideas iniciales en torno al modelo KNN en este artículo de 1951, mientras que Thomas Cover amplía su concepto en su investigación, “Nearest Neighbor Pattern Classification". Aunque no es tan popular como antes, sigue siendo uno de los primeros algoritmos que se aprenden en la ciencia de datos debido a su simplicidad y precisión. Sin embargo, a medida que crece un conjunto de datos, KNN se vuelve cada vez más ineficiente, lo que compromete el rendimiento general del modelo. Se utiliza habitualmente para sistemas de recomendación sencillos, reconocimiento de patrones, minería de datos, predicciones de mercados financieros, detección de intrusiones y más.