Um modelo de agrupamento robusto17 cria clusters com alta similaridade intraclasse e baixa similaridade interclasse. No entanto, pode ser difícil definir a qualidade dos clusters, e a seleção do critério de ligação e dos números dos clusters pode afetar significativamente os resultados. Portanto, ao construir um modelo de agrupamento, experimente diferentes opções e selecione aquelas que melhor o ajudarem a explorar e revelar padrões no conjunto de dados para consideração futura. Os fatores a serem considerados18 incluem:
- O número de clusters práticos ou lógicos para o conjunto de dados (tamanho do conjunto de dados, formas de cluster, ruído etc.)
- Estatísticas, como os valores médio, máximo e mínimo para cada cluster
- A melhor métrica de disparidade ou critério de ligação a ser aplicado
- O impacto de quaisquer valores discrepantes ou variáveis de resultado
- Qualquer conhecimento específico de domínio ou conjunto de dados
Outros métodos para ajudar a determinar o número ideal de clusters19 são:
- O método do cotovelo, onde você traça a soma dos quadrados dentro do cluster em relação ao número de clusters e determina o "cotovelo" (o ponto em que o gráfico se nivela)
- Estatística de lacuna, onde você compara a soma real dos quadrados dentro do cluster com a soma esperada dos quadrados dentro do cluster para uma distribuição de referência nula e identifica a maior lacuna.