Análisis de clústeres jerárquico

Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o de variables) basándose en las características seleccionadas, mediante un algoritmo que comienza con cada caso (o cada variable) en un clúster diferente y combina los clústeres hasta que sólo queda uno. Es posible analizar las variables brutas o elegir de entre una variedad de transformaciones de estandarización. Las medidas de distancia o similaridad se generan mediante el procedimiento Proximidades. Los estadísticos se muestran en cada etapa para ayudar a seleccionar la mejor solución.

Ejemplo. ¿Existen grupos identificables de programas televisivos que atraigan a audiencias similares dentro de cada grupo? Con el análisis de clústeres jerárquico, podría agrupar los programas de TV (los casos) en grupos homogéneos basados en las características del espectador. Esto se puede utilizar para identificar segmentos de mercado. También puede agrupar ciudades (los casos) en grupos homogéneos, de manera que se puedan seleccionar ciudades comparables para probar diversas estrategias de marketing.

Estadísticas. Historial de conglomeración, matriz de distancias (o similaridades) y pertenencia a los clústeres para una solución única o una serie de soluciones. Gráficos: dendrogramas y diagramas de témpanos.

Análisis de clústeres jerárquico: Consideraciones sobre los datos

Datos. Las variables pueden ser cuantitativas, binarias o datos de recuento. El escalamiento de las variables es un aspecto importante, ya que las diferencias en el escalamiento pueden afectar a las soluciones en clústeres. Si las variables muestran grandes diferencias en el escalamiento (por ejemplo, una variable se mide en dólares y la otra se mide en años), debería considerar la posibilidad de estandarizarlas (esto puede llevarse a cabo automáticamente mediante el propio procedimiento Análisis de clústeres jerárquico).

Orden de casos. Si hay distancias empatadas o similitudes en los datos de entrada o si éstas se producen entre los clústeres actualizados durante la unión, la solución de clúster resultante puede depender del orden de los casos del archivo. Puede que desee obtener varias soluciones distintas con los casos ordenados en distintos órdenes aleatorios para comprobar la estabilidad de una solución determinada.

Supuestos. Las medidas de distancia o similaridad empleadas deben ser adecuadas para los datos analizados (véase el procedimiento Proximidades para obtener más información sobre la elección de las medidas de distancia y similaridad). Asimismo, debe incluir todas las variables relevantes en el análisis. Si se omiten variables de interés la solución obtenida puede ser equívoca. Debido a que el análisis de clústeres jerárquico es un método exploratorio, los resultados deben considerarse provisionales hasta que sean confirmados mediante otra muestra independiente.

Para obtener un análisis de clústeres jerárquico

Esta característica requiere la opción Statistics Base.

En los menús seleccione:
Analizar > Clasificar > Clúster jerárquico ...

Nota: Los campos resaltados en rojo son obligatorios. Los botones Pegar y Aceptar se activan después de introducir valores válidos en todos los campos obligatorios.
Si está aglomerando casos, seleccione al menos una variable numérica. Si está aglomerando variables, seleccione al menos tres variables numéricas.

Si lo desea, puede seleccionar una variable de identificación para etiquetar los casos.

Este procedimiento pega la sintaxis del comando CLUSTER .