「正規分布」とも呼ばれる単一のガウス分布は、さまざまな種類の自然現象を表しています。教室内の生徒の身長、新生児の体重、機械部品の動作寿命などは、多くの場合ガウス分布の形を取ります。

ただし、単一のガウス分布は、複数のデータクラスターを持つデータセットや、大きく偏っているデータや深いテールを持つデータセットのモデリングには適していません。このような場合はGMMの方が適している可能性があります。

GMMは教師なし学習を使用して、データが複数のガウス分布の組み合わせから生成されると想定する確率モデルを生成します。GMMでは、すべてのデータが単一の正規分布 （1つのガウス・モデル) から取得されると想定するのではなく、複数の正規分布があり、それぞれがデータセット内の異なる「クラスター 」または「下位集団」を表し、それぞれが独自の平均と分散を持っていると想定します。

例えば、学生の身長はバイモーダル分布になるが、学生の性自認は不明のままである、という例があります。または、機械部品であれば、部品が2つの異なるサプライヤーから製造され、一方がもう一方のサプライヤーよりも高品質の部品を製造しているという状況が考えられます。どちらの場合も、データ・ポイントが属する部分母集団、またその部分母集団の特徴を計算することが役立つと考えられます。