يقوم التجميع القائم على التوزيع، والذي يُطلق عليه أحيانًا التجميع الاحتمالي، بتجميع نقاط البيانات معًا بناءً على توزيعها الاحتمالي. يفترض هذا النهج أن هناك عملية تولِّد توزيعات طبيعية لكل بُعد من أبعاد البيانات التي تنشئ مراكز المجموعات. وهو يختلف عن التجميع القائم على النقطة المركزية من حيث إنه لا يستخدم مقياس مسافة مثل المسافة الإقليدية أو مسافة مانهاتن. بدلًا من ذلك، تبحث الأساليب القائمة على التوزيع عن توزيع محدد بوضوح يظهر في كل بُعد من أبعاد البيانات. متوسطات المجموعات هي متوسطات توزيع غاوسي (Gaussian) في كل بُعد من أبعاد البيانات. التجميع القائم على التوزيع هو نهج قائم على النماذج لتجميع البيانات؛ حيث يتطلب تطبيق توزيع على البيانات عدة مرات عبر كل بُعد من الأبعاد للعثور على المجموعات، وهذا يعني أنه يمكن أن يكون مكلفًا حسابيًا عند التعامل مع مجموعات بيانات كبيرة.
أحد الأساليب شائعة الاستخدام للتجميع القائم على التوزيع هو إنشاء نموذج مزيج غاوسي (GMM) من خلال التوقع-التعظيم. سُمِّي نموذج GMM بهذا الاسم بسبب افتراض أن كل مجموعة يتم تعريفها بواسطة توزيع غاوسي، وغالبًا ما يُطلق عليه التوزيع الطبيعي.
يمكننا التفكير في مجموعة بيانات تحتوي على مجموعتين متميزتين، A وB، حيث يتم تعريف كل مجموعة بواسطة توزيع غاوسي مختلف: واحد يمتد على المحور السيني (x-axis) وآخر يمتد على المحور الصادي (y-axis). تبدأ خوارزمية التوقع-التعظيم (Expectation-Maximization) بتخمين عشوائي لماهية التوزيعات الموجودة على كل محور، ثم تبدأ بتحسين هذا التخمين بشكل تدريجي من خلال التبديل بين خطوتين:
التوقع: عيين كل نقطة بيانات إلى كل مجموعة من المجموعات وحساب احتمال أن تكون قد أتت من المجموعة أ والمجموعة ب.
الزيادة: تحديث المَعلمات التي تحدِّد كل مجموعة وموقع المتوسط المرجح ومصفوفة التباين والتغاير، بناءً على احتمالية وجود كل نقطة بيانات في المجموعة. ثم تكرار خطوة التوقع حتى تتقارب المعادلة مع التوزيعات الملاحظة لكل مجموعة.
يتم إعطاء كل نقطة بيانات احتمال ارتباطها بمجموعة ما. وهذا يعني أن التجميع باستخدام خوارزمية "التوقع-التعظيم" هو نهج تجميع ناعم وأن نقطة معينة قد تكون مرتبطة بشكل محتمل بأكثر من مجموعة واحدة. وقد يكون هذا منطقيًا في بعض السيناريوهات، مثل أن تكون الأغنية تحتوي على تأثيرات أو عناصر من أنواع موسيقية متعددة (الفولك أو الروك)، أو أن يكون لدى المستخدم تفضيل لمشاهدة البرامج التليفزيونية باللغة الإسبانية، لكنه أحيانًا يشاهد أيضًا برامج باللغة الإنجليزية.