Análisis de clústeres de K-medias

Este procedimiento intenta identificar grupos de casos relativamente homogéneos basándose en las características seleccionadas y utilizando un algoritmo que puede gestionar un gran número de casos. Sin embargo, el algoritmo requiere que el usuario especifique el número de clústeres. Puede especificar los centros iniciales de los clústeres si conoce de antemano dicha información. Puede elegir uno de los dos métodos disponibles para clasificar los casos: la actualización de los centros de los clústeres de forma iterativa o sólo la clasificación. Asimismo, puede guardar la pertenencia a los clústeres, información de la distancia y los centros de los clústeres finales. Si lo desea, puede especificar una variable cuyos valores sean utilizados para etiquetar los resultados por casos. También puede solicitar los estadísticos F de los análisis de varianza. Aunque estos estadísticos son oportunistas (ya que el procedimiento trata de formar grupos que de hecho difieran), el tamaño relativo de los estadísticos proporciona información acerca de la contribución de cada variable a la separación de los grupos.

Ejemplo. ¿Cuáles son los grupos identificables de programas de televisión que atraen audiencias parecidas dentro de cada grupo? Con el análisis de clústeres de k-medias, podría agrupar los programas de televisión (los casos) en k grupos homogéneos, basados en las características del televidente. Este proceso se puede utilizar para identificar segmentos de mercado. También puede agrupar ciudades (los casos) en grupos homogéneos, de manera que se puedan seleccionar ciudades comparables para probar diversas estrategias de marketing.

Estadísticas. Solución completa: centros iniciales de los clústeres, tabla de ANOVA. Cada caso: información del clúster, distancia desde el centro del clúster.

Análisis de clústeres de K-medias: Consideraciones sobre los datos

Datos. Las variables deben ser cuantitativas en el nivel de intervalo o de razón. Si las variables son binarias o recuentos, utilice el procedimiento Análisis de clústeres jerárquicos.

Orden de casos y centro de clústeres iniciales. El algoritmo predeterminado para elegir centros de clústeres iniciales no es invariable con respecto a la ordenación de casos. La opción Usar medias actualizadas del cuadro de diálogo Iterar hace que la solución resultante dependa potencialmente del orden de casos con independencia de cómo se eligen los centros de clústeres iniciales. Si va a utilizar alguno de estos métodos, puede que desee obtener varias soluciones distintas con los casos ordenados en distintos órdenes aleatorios para comprobar la estabilidad de una solución determinada. La especificación de los centros de clústeres iniciales y la no utilización de la opción Usar medias actualizadas evita los problemas relacionados con el orden de casos. No obstante, la ordenación de los centros de clústeres iniciales puede afectar a la solución en caso de haber distancias empatadas desde los casos a los centros de clústeres. Para evaluar la estabilidad de una solución determinada, puede comparar los resultados de los análisis con las distintas permutaciones de los valores de centros iniciales.

Supuestos. Las distancias se calculan utilizando la distancia euclídea simple. Si desea utilizar otra medida de distancia o de similaridad, utilice el procedimiento Análisis de clústeres jerárquicos. El escalamiento de variables es una consideración importante. Si sus variables utilizan diferentes escalas (por ejemplo, una variable se expresa en dólares y otra, en años), los resultados podrían ser equívocos. En estos casos, debería considerar la estandarización de las variables antes de realizar el análisis de clústeres de k-medias (esta tarea se puede hacer en el procedimiento Descriptivos). Este procedimiento supone que ha seleccionado el número apropiado de clústeres y que ha incluido todas las variables relevantes. Si ha seleccionado un número inapropiado de clústeres o ha omitido variables relevantes, los resultados podrían ser equívocos.

Para obtener un análisis de clústeres de K-medias

Esta característica requiere la opción Statistics Base.

En los menús seleccione:
Analizar > Clasificar > Clúster K-Means ...
Seleccione las variables que se van a utilizar en el análisis de clústeres.
Especifique el número de clústeres. (Este número no debe ser inferior a 2 ni superior al número de casos del archivo de datos.)
Seleccione Iterar y clasificar o Clasificar sólo.
Si lo desea, seleccione una variable de identificación para etiquetar los casos.

Este procedimiento pega la sintaxis del comando QUICK CLUSTER .