Análisis de vecinos más cercanos

Análisis de vecinos más próximos es un método para clasificar casos basándose en su parecido a otros casos. En el aprendizaje automático, se desarrolló como una forma de reconocer patrones de datos sin la necesidad de una coincidencia exacta con patrones o casos almacenados. Los casos parecidos están próximos y los que no lo son están alejados entre sí. Por lo tanto, la distancia entre dos casos es una medida de disimilaridad.

Los casos próximos entre sí se denominan “vecinos”. Cuando se presenta un nuevo caso (reserva), se calcula su distancia con respecto a los casos del modelo. Las clasificaciones de los casos más parecidos (los vecinos más próximos) se cuadran y el nuevo caso se incluye en la categoría que contiene el mayor número de vecinos más próximos.

Puede especificar el número de vecinos más cercanos a examinar; este valor se denomina k.

El método Análisis de vecinos más próximos también puede utilizarse para calcular valores para un destino continuo. En esta situación, la media o el valor objetivo medio de los vecinos más próximos se utiliza para obtener el valor predicho del nuevo caso.

Análisis de vecino más próximo: Consideraciones sobre los datos

Destino y características. El objetivo y las características pueden ser:

  • Nominal. Una variable puede ser tratada como nominal cuando sus valores representan categorías que no obedecen a una clasificación intrínseca. Por ejemplo, el departamento de la compañía en el que trabaja un empleado. Algunos ejemplos de variables nominales son: región, código postal o confesión religiosa.
  • Ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan categorías con alguna clasificación intrínseca. Por ejemplo, los niveles de satisfacción con un servicio, que abarquen desde muy insatisfecho hasta muy satisfecho. Entre los ejemplos de variables ordinales se incluyen escalas de actitud que representan el grado de satisfacción o confianza y las puntuaciones de evaluación de las preferencias.
  • Escala. Una variable puede tratarse como escala (continua) cuando sus valores representan categorías ordenadas con una métrica con significado, por lo que son adecuadas las comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en años y los ingresos en dólares.

    El análisis de vecinos más próximos trata por igual las variables nominales u ordinales. El procedimiento supone que se ha asignado el nivel de medición adecuado a cada variable. No obstante, puede cambiar temporalmente el nivel de medición para una variable pulsando con el botón derecho en la variable en la lista de variables de origen y seleccionar un nivel de medición en el menú emergente. Para cambiar de forma permanente el nivel de medición de una variable, consulte Nivel de medición de variable.

Un icono situado junto a cada variable de la lista de variables identifica el nivel de medición y el tipo de datos.

Tabla 1. Iconos de nivel de medición
  Numérico Serie Fecha Hora
Escala (Continuo)
Icono de escala
n/a
Icono de fecha de escala
Icono de tiempo de escala
Ordinal
Icono ordinal
Icono de serie ordinal
Icono de fecha ordinal
Icono de hora ordinal
Nominal
Icono nominal
Icono Cadena nominal
Icono de fecha nominal
Icono de hora nominal

Codificación de la variable categórica. El procedimiento recodifica temporalmente predictores categóricos y variables dependientes utilizando la codificación "una de c" para todo el procedimiento. Si hay categorías c de una variable, la variable se almacena como vectores c, con la primera categoría denotada (1,0, ..., 0), la siguiente categoría (0,1,0, ..., 0), ..., y la categoría final (0,0, ..., 0, 1).

Este esquema de codificación aumenta la dimensionalidad del espacio de características. En concreto, el número total de dimensiones es el número de predictores de escala más el número de categorías en todos los predictores categóricos. Como resultado, este esquema de codificación puede conllevar un entrenamiento más lento. Si el entrenamiento de vecinos más próximos avanza muy lentamente, pruebe a reducir el número de categorías en los predictores categóricos combinando categorías similares o eliminando los casos que tengan categorías extremadamente raras antes de ejecutar el procedimiento.

Toda la codificación de una dec se basa en los datos de entrenamiento, incluso si se ha definido una muestra reservada (consulte Particiones (Análisis de vecinos más próximos)). De este modo, si las muestras reservadas contienen casos con categorías de predictores que no están presentes en los datos de entrenamiento, esos casos no se puntúan. Si las muestras reservadas contienen casos con categorías de variables dependientes que no están presentes en los datos de entrenamiento, esos casos se puntúan.

Reescalado. Fe forma predeterminada, las características de escala se normalizan. Todo el cambio de escala se realiza basándose en los datos de entrenamiento, incluso si se ha definido una muestra reservada (consulte Particiones (Análisis de vecinos más próximos)). Si especifica una variable para definir particiones, es importante que las características tengan distribuciones similares en todas las muestras reservadas, de entrenamiento o comprobación. Utilice, por ejemplo, el procedimiento Explorar para examinar las distribuciones entre particiones.

Ponderaciones de frecuencia. Este procedimiento ignora las ponderaciones de frecuencia.

Replicación de los resultados. El procedimiento utiliza la generación de números aleatorios durante la asignación aleatoria de particiones y pliegues de validación cruzada. Si desea replicar los resultados exactamente, además de utilizar los mismos valores de procedimiento, establezca una semilla para Mersenne Twister (consulte Particiones (Análisis de vecinos más próximos)), o utilice variables para definir particiones y pliegues de validación cruzada.

Para obtener un análisis de vecino más próximo

Esta característica requiere la opción Statistics Base.

En los menús seleccione:

Analizar > Clasificar > Vecino más cercano ...

  1. Especifique una o más características que puedan constituir variables independientes o predictores en caso de haber un destino.

    Destino (opcional). Si no hay ningún destino (variable dependiente o respuesta) especificado, el procedimiento encontrará únicamente los k vecinos más próximos, sin realizar ninguna clasificación ni predicción.

    Características de escala de normalización. Las características normalizadas tienen el mismo rango de valores, lo que puede mejorar el rendimiento del algoritmo de estimación. Se utilizará la normalización ajustada [2*(x−min)/(max−min)]1. Los valores normalizados ajustados quedan comprendidos entre -1 y 1.

    Identificador de caso focal (opcional). Esto le permite marcar casos de especial interés. Por ejemplo, un investigador desea determinar si las puntuaciones de las pruebas de un distrito escolar (el caso focal) son comparables con las de distritos escolares similares. Utiliza un análisis de vecinos más próximos para encontrar los distritos escolares más parecidos con respecto a un conjunto dado de características. Después compara las puntuaciones de las pruebas del distrito escolar focal con las de los vecinos más próximos.

    Los casos focales también deben emplearse en estudios clínicos para seleccionar casos de control similares a los casos clínicos. Los casos focales se muestran en la tabla de k vecinos más próximos y distancias, el gráfico de espacio de características, el gráfico de homólogos y el mapa de cuadrantes. La información sobre casos focales se guarda en los archivos especificados en la pestaña Resultados.

    Los casos con un valor positivo en la variable especificada se tratan como casos focales. No es posible especificar una variable sin valores positivos.

Etiqueta de caso (opcional). Los casos se etiquetan utilizando estos valores en el gráfico de espacio de características, el gráfico de homólogos y el mapa de cuadrantes.

Campos con nivel de medición desconocido

La alerta de nivel de medición se muestra si el nivel de medición de una o más variables (campos) del conjunto de datos es desconocido. Como el nivel de medición afecta al cálculo de los resultados de este procedimiento, todas las variables deben tener un nivel de medición definido.

Explorar datos. Lee los datos del conjunto de datos activo y asigna el nivel de medición predefinido en cualquier campo con un nivel de medición desconocido. Si el conjunto de datos es grande, puede llevar algún tiempo.

Asignar manualmente. Abre un cuadro de diálogo que contiene todos los campos con un nivel de medición desconocido. Puede utilizar este cuadro de diálogo para asignar el nivel de medición a esos campos. También puede asignar un nivel de medición en la Vista de variables del Editor de datos.

Como el nivel de medición es importante para este procedimiento, no puede acceder al cuadro de diálogo para ejecutar este procedimiento hasta que se hayan definido todos los campos en el nivel de medición.

Este procedimiento pega la sintaxis del comando KNN .