Un modèle de partitionnement robuste17 crée des clusters avec une similarité intraclasse élevée et une faible similarité interclasse. Cependant, il peut être difficile de définir la qualité des clusters, et votre sélection des critères de liaison et des nombres de clusters peut avoir une incidence significative sur vos résultats. Ainsi, lors de la création d’un modèle de partitionnement, essayez différentes options et sélectionnez celles qui vous aident le mieux à découvrir et à révéler des schémas dans le jeu de données pour une considération future. Les facteurs à prendre en compte18 sont les suivants :
- Le nombre de clusters pratiques ou logiques pour le jeu de données (compte tenu de la taille du jeu de données, de la forme des clusters, du bruit, etc.)
- Les statistiques, telles que les valeurs moyennes, maximales et minimales pour chaque cluster
- Le meilleur indicateur de dissimilarité ou critère de liaison à appliquer
- L’impact de toute donnée aberrante ou variable de résultat
- Toute connaissance spécifique d’un domaine ou d’un jeu de données
Voici d’autres méthodes permettant de déterminer le nombre optimal de clusters19 :
- La méthode du coude, qui consiste à tracer la somme des carrés au sein du cluster par rapport au nombre de clusters et à déterminer le « coude » (le point où le graphique se stabilise)
- La statistique d’écart, qui consiste à comparer la somme des carrés réelle à la somme des carrés attendue au sein des clusters pour obtenir une distribution de référence nulle et à identifier l’écart le plus important.