Principios de agrupación en clúster

Para manejar variables categóricas y continuas, el procedimiento de análisis de clústeres TwoStep utiliza una medida de distancia de verosimilitud que presupone que las variables del modelo de clúster son independientes. Además, se supone que cada variable continua tiene una distribución normal (gaussiana) y que cada variable categórica tiene una distribución multinomial. Las comprobaciones empíricas internas indican que este procedimiento es bastante robusto frente a las violaciones tanto del supuesto de independencia como de las distribuciones, pero aún así es preciso tener en cuenta hasta qué punto se cumplen estos supuestos.

Los dos pasos del algoritmo del procedimiento de análisis de clústeres TwoStep se pueden resumir de la siguiente manera:

Paso 1. El procedimiento empieza con la construcción de un árbol de características de clúster (CF). El árbol empieza colocando el primer caso en la raíz del árbol en un nodo hoja que contiene información variable sobre ese caso. Cada caso sucesivo se añade a un nodo existente o forma un nodo nuevo, basándose en su similitud con los nodos existentes y utilizando la medida de distancia como criterio de similitud. Un nodo que contiene varios casos contiene un resumen de información de variables sobre esos casos. Por lo tanto, el árbol CF proporciona un resumen de la cápsula del archivo de datos.

Paso 2. A continuación, los nodos de hoja del árbol CF se agrupan utilizando un algoritmo de agrupación en clúster aglomerativo. La agrupación aglomerante se puede utilizar para producir una gama de soluciones. Para determinar qué número de clústeres es "mejor", cada una de estas soluciones de clúster se compara utilizando el criterio bayesiano (BIC) de Schwarz o el criterio de información de Akaike (AIC) como criterio de agrupación en clúster.