Regressionsprobleme verwenden ein ähnliches Konzept wie Klassifizierungsprobleme, aber in diesem Fall wird der Durchschnitt der k nächsten Nachbarn herangezogen, um eine Vorhersage über eine Klassifizierung zu treffen. Der Hauptunterschied besteht darin, dass die Klassifizierung für diskrete Werte verwendet wird, während die Regression für kontinuierliche Werte verwendet wird. Bevor jedoch eine Klassifizierung durchgeführt werden kann, muss die Entfernung definiert werden. Am häufigsten wird der euklidische Abstand verwendet, auf den wir weiter unten noch näher eingehen werden.
Es ist auch erwähnenswert, dass der KNN-Algorithmus auch Teil einer Familie von „Lazy Learning“-Modellen ist, was bedeutet, dass er nur einen Trainingsdatensatz speichert und nicht eine Trainingsphase durchläuft. Das bedeutet auch, dass die gesamte Berechnung zum Zeitpunkt der Klassifizierung oder Vorhersage erfolgt. Da er stark auf Speicher angewiesen ist, um alle Trainingsdaten zu speichern, wird er auch als instanzbasierte oder speicherbasierte Lernmethode bezeichnet.
Evelyn Fix und Joseph Hodges werden die ersten Ideen rund um das KNN-Modell in diesem Artikel von 1951 zugeschrieben, während Thomas Cover ihr Konzept in seiner Studie"Nearest Neighbor Pattern Classification" erweitert. Obwohl er nicht mehr so populär ist wie früher, ist er aufgrund seiner Einfachheit und Genauigkeit immer noch einer der ersten Algorithmen, die man im Bereich Data Science lernt. Wenn ein Datensatz jedoch wächst, wird KNN zunehmend ineffizient, was die Gesamtleistung des Modells beeinträchtigt. Es wird häufig für einfache Empfehlungssysteme, Mustererkennung, Datenabbau, Finanzmarktvorhersagen, Angriffserkennung und mehr eingesetzt.