KNN의 백그라운드

KNN 알고리즘에서는 다수 투표 메커니즘을 사용합니다. 이는 교육 데이터 세트에서 데이터를 수집하고 나중에 이 데이터를 사용하여 새 레코드를 예측합니다.

새 레코드 각각에 대한 교육 데이터 세트의 k-최근접 레코드를 판별합니다. 최근접 레코드의 대상 속성 값을 기반으로 새 레코드를 예측합니다.

기본적인 최근접 이웃(NN: nearest neighbor) 알고리즘은 임의 인스턴스에 대한 분류 예상 또는 회귀 예측을 작성합니다. 이를 위해 NN 알고리즘은 임의 인스턴스에 가장 근접하는 교육 인스턴스를 식별합니다. 그런 다음 NN 알고리즘은 교육 인스턴스의 클래스 레이블 또는 대상 함수 값을 임의 인스턴스의 예상 클래스 레이블 또는 대상 함수 값으로서 리턴합니다.

KNN 알고리즘은 단 하나의 인스턴스를 사용하는 대신 1 이상인 지정된 수 k개의 최근접 교육 인스턴스를 사용하여 이 프로세스를 확장합니다. 일반적인 값의 범위는 1 - 여러 다스입니다.

출력은 분류 또는 회귀에 KNN 알고리즘을 사용하는지에 따라 다릅니다.

  • KNN 분류에서 예측된 클래스 레이블은 최근접 이웃의 투표에 의해 판별됩니다 즉, 선택한 k 인스턴스 세트에 있는 다수 클래스 레이블이 리턴됩니다.
  • KNN 회귀에서 최근접 이웃의 대상 함수 값에 대한 평균값은 예측 값으로서 리턴됩니다.

1 이상의 지정된 숫자 k를 사용하면 과적합 예방 및 분석 사이의 트래이드 오프를 제어할 수 있습니다. 과적합 예방은 손상된 데이터에 중요할 수 있습니다. 분석은 유사한 인스턴스에 대해 서로 다른 예측을 하는 경우 중요할 수 있습니다.