Un modelo de clúster robusto17 crea clústers con una alta similitud intraclase y una baja similitud interclase. Sin embargo, puede ser difícil definir la calidad de los clústeres, y su selección de criterios de enlace y números de clústeres puede afectar significativamente sus resultados. Por lo tanto, al crear un modelo de clustering, pruebe diferentes opciones y seleccione las que mejor le ayuden a explorar y revelar patrones en el conjunto de datos para su consideración futura. Entre los factores que se deben considerar 18 se incluyen:
- La cantidad de clústeres que son prácticos o lógicos para el conjunto de datos (tamaño del conjunto de datos dado, formas de los clústeres, ruido, etc.)
- Estadísticas, como los valores medios, máximos y mínimos de cada clúster
- La mejor métrica de disimilitud o criterio de enlace a aplicar
- El impacto de cualquier valor atípico o variable de resultado
- Algún conocimiento de dominio o conjunto de datos específico
Otros métodos para ayudar a determinar el número óptimo de clústeres19 incluyen:
- El método del codo, donde se grafica la suma de cuadrados dentro del clúster contra el número de clústeres y se determina el "codo" (el punto donde el gráfico se nivela)
- Estadística de brecha, en la que se compara la suma de cuadrados real dentro del clúster con la suma de cuadrados esperada dentro del clúster para una distribución de referencia nula e identifica la brecha más grande.