Masalah regresi menggunakan konsep yang mirip dengan masalah klasifikasi, tetapi dalam kasus ini, rata-rata dari k tetangga terdekat diambil untuk membuat prediksi tentang klasifikasi. Perbedaan utama di sini adalah bahwa klasifikasi digunakan untuk nilai diskrit, sedangkan regresi digunakan untuk nilai kontinu. Namun, sebelum klasifikasi dapat dibuat, jarak harus ditentukan. Jarak Euclidean adalah yang paling umum digunakan, yang akan kita bahas lebih lanjut di bawah ini.
Perlu juga dicatat bahwa algoritma KNN juga merupakan bagian dari keluarga model “pembelajaran malas“, yang berarti bahwa algoritma ini hanya menyimpan kumpulan data pelatihan dan bukan menjalani tahap pelatihan. Ini juga berarti bahwa semua perhitungan terjadi ketika klasifikasi atau prediksi dibuat. Karena metode ini sangat bergantung pada memori untuk menyimpan semua data pelatihannya, metode ini juga disebut sebagai metode pembelajaran berbasis contoh atau berbasis memori.
Evelyn Fix dan Joseph Hodges dikreditkan dengan ide-ide awal seputar model KNN dalam makalah tahun 1951 ini sementara Thomas Cover memperluas konsep mereka dalam penelitiannya, “Klasifikasi Pola Tetangga Terdekat.” Meskipun tidak sepopuler dulu, algoritma ini masih menjadi salah satu algoritma pertama yang dipelajari dalam ilmu data karena kesederhanaan dan keakuratannya. Namun, seiring bertambahnya kumpulan data, KNN menjadi semakin tidak efisien, mengorbankan kinerja model secara keseluruhan. Ini sering digunakan untuk sistem rekomendasi sederhana, pengenalan pola, penggalian data, prediksi pasar keuangan, deteksi intrusi, dan lain-lain.