التجميع الهرمي، والمعروف أيضًا بتحليل التجميع الهرمي (HCA)، هو خوارزمية تجميع غير خاضعة للإشراف يمكن تصنيفها بطريقتين: تجميعية أو تقسيمية.
يُعد التجميع التجميعي "نهجًا تصاعديًا". نقاط بياناته معزولة في البداية كمجموعات منفصلة، ثم يتم دمجها تكراريًا على أساس التشابه حتى يتم تحقيق عنقود واحد. تُستخدم أربع طرق مختلفة بشكل شائع لقياس التشابه:
- ارتباط Ward: تُعرف هذه الطريقة بأن المسافة بين مجموعتين تُحدد بزيادة مجموع المربعات بعد دمج المجموعتين.
- الارتباط المتوسط: يتُعرف هذه الطريقة من خلال المسافة المتوسطة بين نقطتين في كل مجموعة.
- الارتباط الكامل (أو الأقصى): تُعرف هذه الطريقة من خلال المسافة القصوى بين نقطتين في كل مجموعة.
- الارتباط الفردي (أو الأدنى): تُعرف هذه الطريقة بالحد الأدنى للمسافة بين نقطتين في كل مجموعة.
المسافة الإقليدية هي المقياس الأكثر شيوعًا المستخدم لحساب هذه المسافات؛ ومع ذلك، هناك مقاييس أخرى، مثل مسافة مانهاتن، المذكورة أيضًا في أدبيات التجميع.
يمكن تعريف التجميع التقسيمي على أنه عكس التجميع التجميعي؛ وبدلاً من ذلك فإنه يتبع نهجًا "تنازليًا". في هذه الحالة، يتم تقسيم مجموعة بيانات واحدة استنادًا إلى الاختلافات بين نقاط البيانات. لا يُستخدم التجميع التقسيمي بشكل شائع، لكنه لا يزال جديراً بالملاحظة في سياق التجميع الهرمي. وعادةً ما يتم تصوير عمليات التجميع هذه باستخدام مخطط شجري، وهو رسم بياني شبيه بالشجرة يوثق دمج أو تقسيم نقاط البيانات في كل تكرار.