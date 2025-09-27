Uma única distribuição gaussiana, também chamada de "distribuição normal", descreve muitos tipos de fenômenos naturais. A distribuição da altura dos alunos em uma sala de aula, o peso dos recém-nascidos e a vida útil operacional das peças mecânicas são frequentemente distribuições gaussianas.

No entanto, uma única distribuição gaussiana não é adequada para modelar conjuntos de dados com múltiplos clusters de dados ou aqueles com uma assimetria significativa ou caudas pesadas. Nesses casos, um GMM pode ser mais apropriado.

Um GMM usa o aprendizado não supervisionado para gerar um modelo probabilístico que pressupõe que os dados são gerados a partir de uma combinação de várias distribuições gaussianas. Em vez de assumir que todos os dados vêm de uma única distribuição normal (um modelo gaussiano), o GMM pressupõe que existem várias distribuições normais, cada uma representando um"cluster" ou "subpopulação" diferente no conjunto de dados, e cada uma delas com sua própria média e variância.

No caso de estudantes, imagine alturas com uma distribuição bimodal, mas a identidade de gênero dos estudantes é desconhecida. No caso de peças de máquinas, imagine que as peças podem ter vindo de dois fornecedores diferentes, um dos quais fabrica peças de qualidade superior à do outro. Em ambos os casos, pode ser útil calcular a qual subpopulação um ponto de dados pertence e as características dessa subpopulação.