La valeur k dans l'algorithme k-NN définit le nombre de voisins qui seront vérifiés pour déterminer la classification d'un point de requête spécifique. Par exemple, si k=1, l'instance sera affectée à la même classe que son seul voisin le plus proche. Définir k peut être un acte d'équilibrage, car différentes valeurs peuvent conduire à un surajustement ou à un sous-ajustement. Des valeurs inférieures de k peuvent avoir un écart élevé, mais un biais faible, et des valeurs plus élevées de k peuvent entraîner un biais élevé et un écart inférieur. Le choix de k dépendra en grande partie des données d'entrée, car les données avec plus de valeurs aberrantes ou de bruit fonctionneront probablement mieux avec des valeurs de k plus élevées. Dans l'ensemble, il est recommandé d'avoir un nombre impair pour k afin d'éviter les liens de classification, et les tactiques de validation croisée peuvent vous aider à choisir le k optimal pour votre jeu de données.

Algorithme des k plus proches voisins et Python

Pour approfondir le sujet, vous pouvez en savoir plus sur l'algorithme k-NN en utilisant Python et scikit-learn (également connu sous le nom de sklearn). Notre tutoriel dans Watson Studio vous aide à apprendre la syntaxe de base de cette bibliothèque, qui contient également d'autres bibliothèques populaires, telles que NumPy, Pandas et Matplotlib. Le code suivant est un exemple de création et de prédiction avec un modèle KNN :

depuis sklearn.neighbors importer KNeighborsClassifier

model_name = 'Discriminant du k plus proche voisin'

knnClassifier = KNeighborsClassifier(n_neighbors = 5, unité de mesure = 'minkowski', p=2)

knn_model = Pipeline(steps=[('preprocessor', preprocessorForFeatures), ('classifier' , knnClassifier)])

knn_model.fit(X_train, y_train)

y_pred = knn_model.predict(X_test)