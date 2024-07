Regressionsprobleme verwenden ein ähnliches Konzept wie Klassifizierungsprobleme, aber in diesem Fall wird der Durchschnitt der K-Nächsten-Nachbarn herangezogen, um eine Vorhersage über eine Klassifizierung zu treffen. Der Hauptunterschied besteht darin, dass die Klassifizierung für diskrete Werte verwendet wird, während die Regression für kontinuierliche Werte eingesetzt wird. Bevor jedoch eine Klassifizierung vorgenommen werden kann, muss der Abstand definiert werden. Am häufigsten wird der euklidische Abstand verwendet, auf den wir im Folgenden noch näher eingehen werden.

Es ist außerdem erwähnenswert, dass der KNN-Algorithmus zur Familie der „Lazy Learning"-Modelle (d. h. Modelle für „träges Lernen") gehört, was bedeutet, dass er nur einen Trainingsdatensatz speichert, anstatt eine Trainingsphase zu durchlaufen. Dies bedeutet auch, dass die gesamte Verarbeitung erfolgt, wenn eine Klassifizierung oder Vorhersage vorgenommen wird. Da sich dieser Ansatz stark auf den Arbeitsspeicher stützt, um alle Trainingsdaten zu speichern, wird er auch als instanz- oder speicherbasiertes Lernverfahren bezeichnet.

Die ersten Ideen zum KNN-Modell werden in diesem Arbeitspapier (PDF, 1,1 MB) (Link befindet sich außerhalb von ibm.com) von 1951 Evelyn Fix und Joseph Hodges zugeschrieben, während Thomas Cover ihr Konzept in seiner Forschungsarbeit (PDF 1 MB) (Link befindet sich außerhalb von ibm.com), „Nearest Neighbor Pattern Classification" (Klassifizierung von Mustern durch den nächsten Nachbarn), weiter ausbaut. Dieser Algorithmus ist zwar nicht mehr so populär wie früher, gehört aber aufgrund seiner Einfachheit und Genauigkeit immer noch zu den ersten Algorithmen, die man in der Datenwissenschaft lernt. Mit zunehmender Größe eines Datensatzes wird KNN jedoch zunehmend ineffizient, was wiederum die Gesamtleistung eines Modells beeinträchtigt. KNN wird häufig für einfache Empfehlungssysteme, Mustererkennung, Data Mining, Finanzmarktprognosen, Erkennung von Eindringlingen und vieles mehr verwendet.