'정규 분포'라고도 하는 단일 가우스 분포는 많은 종류의 자연 현상을 설명합니다. 교실에서 학생들의 키 분포, 신생아의 몸무게, 기계 부품의 작동 수명 등은 가우스 분포인 경우가 많습니다.

그러나 단일 가우스 분포는 여러 클러스터가 있는 데이터 세트나 심각한 왜곡 또는 꼬리가 있는 데이터 세트를 모델링하는 데 적합하지 않습니다. 이러한 경우에는 GMM이 더 적합할 수 있습니다.

GMM은 비지도 학습을 사용하여 데이터가 여러 가우스 분포의 조합에서 생성된다고 가정하는 확률 모델을 생성합니다. 모든 데이터가 단일 정규 분포(하나의 가우스 모델)에서 나온다고 가정하는 대신, GMM은 데이터 세트에 각각 다른 '클러스터' 또는 '하위 모집단'을 나타내는 여러 정규 분포가 있고 각 분포마다 고유한 평균과 분산을 갖는다고 가정합니다.

학생의 경우 키는 바이모달 분포이지만 학생의 성 정체성은 알 수 없는 경우를 상상해 보세요. 기계 부품의 경우, 서로 다른 두 공급업체에서 부품을 공급받았는데 그 중 한 공급업체가 다른 공급업체보다 더 높은 품질의 부품을 생산한다고 상상해 보세요. 두 경우 모두 데이터 요소가 속한 하위 모집단 및 해당 하위 모집단의 특성을 계산하는 것이 유용할 수 있습니다.