Présentation (commande KNN)
L'analyse du voisin le plus proche est une méthode de classification d'observations en fonction de leur similarité avec les autres observations. En apprentissage automatique, elle a été développée comme une façon de reconnaître les configurations de données sans avoir à recourir à une correspondance exacte avec d'autres configurations ou observations stockées. Les observations semblables sont proches l'une de l'autre et les observations dissemblables sont éloignées l'une de l'autre. Par conséquent, la distance entre deux observations est une mesure de leur dissemblance.
Les observations proches l'une de l'autre sont "voisines". Lorsqu'une observation (restante) est présentée, sa distance par rapport à chacune des observations du modèle est calculée. Les classifications des observations les plus semblables - les voisins les plus proches - sont comptées et la nouvelle observation est placée dans la catégorie qui contient le plus grand nombre de voisins les plus proches.
Vous pouvez indiquer le nombre de voisins les plus proches à examiner ; cette valeur s'appelle K. Les images montrent la façon dont un nouveau cas est classé à l'aide de deux valeurs différentes de k. Lorsque k = 5, le nouveau cas est placé dans la catégorie 1 car une majorité des voisins les plus proches appartiennent à la catégorie 1. Cependant, lorsque k = 9, le nouveau cas est placé dans la catégorie 0 car une majorité des voisins les plus proches appartiennent à la catégorie 0.
L'analyse du voisin le plus proche peut également être utilisée pour calculer des valeurs pour une cible continue. Dans cette situation, la valeur cible de la médiane ou de la moyenne des voisins les plus proches est utilisée pour obtenir la valeur prédite de la nouvelle observation.
Options
Prévision ou classification. La variable dépendante peut être de type échelle, catégorielle ou une combinaison. Si une variable dépendante a un niveau de mesure d'échelle, le modèle prédit des valeurs continues qui se rapprochent de la valeur "vraie" d'une fonction continue des données d'entrée. Si une variable dépendante est catégorielle, le modèle est utilisé pour classer les observations dans la "meilleure catégorie" en fonction des prédicteurs d'entrée.
Redimensionnement: KNN rééchelonne éventuellement les covariables, c'est-à-dire les prédicteurs avec niveau de mesure d'échelle, avant d'entraîner le modèle. La normalisation ajustée est la méthode de redimensionnement.
Partition d'apprentissage et partition traitée : KNN divise éventuellement le jeu de données en partitions d'apprentissage et de stockage. Le modèle est entraîné à l'aide de la partition d'entraînement. La partition holdout est complètement exclue du processus d'apprentissage et est utilisée pour l'évaluation indépendante du modèle final.
Valeurs manquantes. La procédure KNN comporte une option permettant de traiter les valeurs manquantes de l'utilisateur des variables catégorielles comme étant valides. Les valeurs manquantes de l'utilisateur des variables d'échelle sont toujours traitées comme non valides. La procédure utilise la suppression des observations incomplètes, c'est-à-dire que les observations avec des valeurs non valides pour n'importe quelle variable sont exclues du modèle.
Sortie. KNN affiche un récapitulatif du traitement des observations sous forme de tableau croisé dynamique et une vue de modèle interactive des autres résultats. Les tables du modèle incluent les k voisins les plus proches et les distances pour observations focales, classement des variables de réponse catégorielle, ainsi qu'un récapitulatif d'erreur. La sortie graphique de la vue du modèle inclut un journal des erreurs de sélection automatique, un graphique d'importance des fonctions, un graphique d'espace des fonctions, un graphique d'homologues et une carte des quadrants. La procédure enregistre également les valeurs prédites dans le jeu de données actif, PMML dans un fichier externe et les distances aux observations focales dans un nouveau jeu de données ou fichier externe.
Spécification de base
La spécification de base est la commande KNN , suivie de zéro ou d'une variable dépendante, du mot clé BY et d'un ou de plusieurs facteurs, ainsi que du mot clé WITH et d'une ou de plusieurs covariables.
Par défaut, la procédure KNN normalise les covariables et sélectionne un échantillon d'apprentissage avant d'entraîner le modèle. Le modèle utilise la distance euclidienne pour sélectionner les trois voisins les plus proches. Les valeurs manquantes de l'utilisateur sont exclues et la sortie par défaut est affichée.
S'il n'y a pas de variables de réponse, la procédure ne trouve que les k voisins les plus proches-aucune classification ou prévision n'est effectuée.
Règles de syntaxe
- Toutes les sous-commandes sont facultatives.
- Les sous-commandes peuvent être spécifiées dans n'importe quel ordre.
- Une seule instance de chaque sous-commande est autorisée.
- Une erreur se produit si un mot clé est spécifié plusieurs fois dans une sous-commande.
- Les parenthèses, les signes égal et les barres obliques affichés dans le graphique de syntaxe sont obligatoires.
- Le nom de la commande, les noms de sous-commande et les mots clés doivent être orthographiés en entier.
- Les sous-commandes vides ne sont pas autorisées.
- Toute variable de scission définie dans la commande
SPLIT FILEne peut pas être utilisée en tant que variable dépendante, facteur, covariable ou variable de partition.
Limites
Les pondérations de fréquence spécifiées dans la commande WEIGHT sont ignorées avec un avertissement par la procédure KNN .
Variables catégorielles
Bien que la procédure KNN accepte les variables catégorielles en tant que prédicteurs ou variables dépendantes, l'utilisateur doit être prudent lors de l'utilisation d'une variable catégorielle avec un très grand nombre de catégories.
La procédure KNN recode temporairement les prédicteurs indépendants à l'aide du codage one-of-c pour la durée de la procédure. S'il existe c catégories d'une variable, la variable est stockée en tant que vecteurs c , avec la première catégorie notée (1,0, ..., 0), la catégorie suivante (0,1,0, ..., 0), ..., et la catégorie finale (0,0, ..., 0, 1).
Ce schéma de codification augmente la dimensionnalité de l'espace des fonctions. Plus particulièrement, le nombre total de dimensions correspond au nombre de prédicteurs d'échelle plus le nombre de catégories sur l'ensemble des prédicteurs catégoriels. En conséquence, ce système de codification peut provoquer un ralentissement de l'entraînement. Si l'apprentissage de vos voisins les plus proches se déroule très lentement, vous pouvez essayer de réduire le nombre de catégories dans vos prédicteurs indépendants en combinant des catégories similaires ou en supprimant des observations qui ont des catégories extrêmement rares avant d'exécuter la procédure KNN .
Tous les codages one-of-c sont basés sur les données d'apprentissage, même si un échantillon restant est défini (voir Sous-commande PARTITION (commande KNN)). Ainsi, si l'échantillon restant contient des observations avec des catégories de prédicteurs absentes des données d'apprentissage, ces observations ne seront pas évaluées. Si l'échantillon restant contient des observations avec des catégories de variable dépendantes absentes des données d'apprentissage, ces observations seront évaluées.
duplication des résultats
La procédure KNN utilise la génération de nombres aléatoires lors de l'affectation aléatoire des partitions et des niveaux de validation croisée. Pour reproduire ultérieurement les mêmes résultats aléatoires, utilisez la commande SET pour définir la valeur d'initialisation du générateur de nombres aléatoires avant chaque exécution de la procédure KNN ou utilisez des variables pour définir des partitions et des niveaux de validation croisée.