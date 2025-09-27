Distribusi Gaussian tunggal, disebut juga “distribusi normal”, menggambarkan berbagai jenis fenomena alam. Distribusi tinggi siswa di ruang kelas, berat bayi yang baru lahir, dan masa pakai komponen mesin sering kali merupakan distribusi Gaussian.

Namun, distribusi Gaussian tunggal tidak cocok untuk memodelkan kumpulan data dengan beberapa klaster data atau yang memiliki kemiringan signifikan atau ekor tebal. Dalam kasus ini, GMM mungkin lebih tepat.

GMM menggunakan pembelajaran tanpa pengawasan untuk menghasilkan model probabilistik yang mengasumsikan data dihasilkan dari kombinasi beberapa distribusi Gaussian. Alih-alih mengasumsikan semua data berasal dari satu distribusi normal (satu model Gaussian), GMM mengasumsikan bahwa terdapat beberapa distribusi normal, masing-masing menunjukkan "klaster" atau "subpopulasi" yang berbeda dalam kumpulan data, dan masing-masing memiliki mean dan variansnya sendiri.

Dalam kasus siswa, bayangkan ketinggian dengan distribusi bimodal, tetapi identitas gender siswa tidak diketahui. Dalam kasus suku cadang mesin, bayangkan suku cadang tersebut mungkin berasal dari dua pemasok yang berbeda, salah satunya membuat suku cadang yang berkualitas lebih tinggi daripada yang lain. Dalam kedua kasus tersebut, akan sangat berguna untuk menghitung di subpopulasi mana sebuah titik data berada dan karakteristik dari subpopulasi tersebut.