يُنشئ نموذج التجميع17 المجموعات ذات تشابه عالٍ داخل الصفوف وتشابه منخفض بين الصفوف. ومع ذلك، قد يكون من الصعب تحديد جودة المجموعة، ويمكن أن يؤثِر اختيارك لمعيار الربط وأرقام المجموعات بشكل كبير في نتائجك. وبالتالي، عند إنشاء نموذج تجميع، جرِّب خيارات مختلفة واختَر تلك التي تساعدك على استكشاف الأنماط في مجموعة البيانات والمجموعة للنظر فيها مستقبلًا. العوامل التي يجب أخذها في الاعتبار 18 تشمل:
- عدد المجموعات العملية أو المنطقية لمجموعة البيانات (بالنظر إلى حجم مجموعة البيانات وأشكال المجموعات والضوضاء في البيانات وما إلى ذلك).
- الإحصاءات، مثل المتوسط، والقيم القصوى والدنيا لكل مجموعة.
أفضل مقياس لاختلاف التشابه أو معيار الارتباط الذي يجب تطبيقه.
- تأثير أي قيم خارجية أو متغيّرات النتائج.
- أي معرفة محددة بالمجال أو مجموعة البيانات.
تشمل الطرق الأخرى التي تساعد على تحديد العدد الأمثل للمجموعات19 ما يلي:
طريقة المِرفق (Elbow Method)، حيث يتم رسم مجموع المربعات داخل المجموعات مقابل عدد المجموعات لتحديد نقطة المِرفق، وهي النقطة التي يبدأ فيها الرسم البياني بالتسطّح، ما يشير إلى العدد الأمثل للعنقوديات.
- إحصائية الفجوة، حيث تقارن مجموع المربعات الفعلي داخل المجموعة بمجموع المربعات المتوقع داخل المجموعة للتوزيع المرجعي الفارغ وفقًا لتوزيع مرجعي فارغ، ومن ثم تحديد أكبر فجوة للإشارة إلى العدد الأمثل للمجموعات.