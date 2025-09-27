单一的高斯分布，也称为“正态分布”，描述了多种自然现象。教室里学生的身高、新生儿的体重以及机械零件的使用寿命分布通常呈高斯分布。

然而，单一的高斯分布并不适合用于对具有多个数据簇、显著偏斜或厚尾特征的数据集进行建模。在这些情况下，GMM 可能更合适。

GMM 使用无监督学习来生成概率模型，该模型假设数据是由多个高斯分布的组合生成的。GMM 并不假定所有数据都源自一个单一的正态分布（即一个高斯模型），而是假设存在多个正态分布，每个都代表一个不同的“簇”或“子群体”，且各自拥有其均值与方差，这些分布共同构成了整个数据集。

我们可以学生身高为例，设想一个双峰分布的场景，且学生的性别身份是未知的。对于机器零件，可以设想它们可能源自两家不同的供应商，其中一家的产品质量更优。在这两种情况下，计算数据点属于哪个子群体以及该子群体的特征都可能很有用。