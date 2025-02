Um modelo de agrupamento robusto17 cria agrupamentos com alta semelhança intraclasses e baixa semelhança interclasses. No entanto, pode ser difícil definir a qualidade do cluster e a seleção do critério de ligação e dos números dos clusters pode afetar consideravelmente os resultados. Portanto, ao construir um modelo de clustering, experimente diversas opções e selecione as que melhor ajudarem a explorar e revelar padrões no conjunto de dados para consideração futura. Os fatores a serem considerados18 são:

- O número de clusters práticos ou lógicos para o conjunto de dados (tamanho do conjunto de dados, formas de cluster, ruído, etc.)

- Estatísticas, como os valores médio, máximo e mínimo para cada cluster

- A melhor métrica de disparidade ou critério de ligação a ser aplicado

- O impacto de quaisquer valores discrepantes ou variáveis de resultado



- Qualquer conhecimento específico de domínio ou conjunto de dados

Outros métodos para ajudar a determinar o número ideal de clusters19 são:

- O método do cotovelo, onde você traça a soma dos quadrados dentro do cluster em relação ao número de clusters e determina o "cotovelo" (o ponto em que o gráfico se nivela)



- Estatística de lacuna, onde você compara a soma real dos quadrados dentro do cluster com a soma esperada dos quadrados dentro do cluster para uma distribuição de referência nula e identifica a maior lacuna.