Un modelo de agrupamiento robusto17 crea clústeres con alta similitud intraclase y baja similitud interclase. Sin embargo, puede ser difícil definir la calidad del clúster, y su selección de criterios de vinculación y números de clúster puede afectar significativamente sus resultados. Por lo tanto, al crear un modelo de agrupación en clústeres, pruebe diferentes opciones y seleccione las que mejor le ayuden a explorar y revelar patrones en el conjunto de datos para su consideración futura. Los factores a considerar18 incluyen:
- El número de clústeres que son prácticos o lógicos para el conjunto de datos (dado el tamaño del conjunto de datos, las formas del clúster, el ruido, etc.)
- Estadísticas, como los valores medio, máximo y mínimo para cada clúster
- La mejor métrica de disimilitud o criterio de vinculación a aplicar
- El impacto de cualquier valor atípico o variable de resultado
- Cualquier conocimiento específico sobre un dominio o conjunto de datos
Otros métodos para ayudar a determinar el número óptimo de clústeres19 incluyen:
- El método del codo, donde se grafica la suma de cuadrados dentro del clúster contra el número de clústeres y se determina el "codo" (el punto donde el gráfico se nivela)
- Estadística de brechas, donde se compara la suma real de cuadrados dentro del clúster con la suma esperada dentro del clúster de cuadrados para una distribución de referencia nula e identifica la brecha más grande.