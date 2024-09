A principal distinção entre aprendizado de máquina semissupervisionado e totalmente supervisionado é que este último só pode ser treinado usando conjuntos de dados totalmente rotulados, enquanto o primeiro utiliza tanto amostras de dados rotuladas quanto não rotuladas no processo de treinamento. Técnicas de aprendizagem semissupervisionadas modificam ou complementam um algoritmo supervisionado, conhecido como "aprendiz base", nesse contexto, para integrar informações de exemplos não rotulados. Os pontos de dados rotulados são utilizados para fundamentar as previsões do aprendiz base e adicionar estrutura (como quantas classes existem e as características básicas de cada uma) ao problema de aprendizado.

O objetivo de treinar qualquer modelo de classificação é aprender um limite de decisão preciso: uma linha—ou, para dados com mais de duas dimensões, uma "superfície" ou hiperplano, separa pontos de dados de uma categoria de classificação de pontos de dados pertencentes a uma categoria de classificação diferente. Embora um modelo de classificação totalmente supervisionado tecnicamente possa aprender uma fronteira de decisão usando apenas alguns pontos de dados rotulados, ele pode não generalizar bem para exemplos do mundo real, tornando as previsões do modelo pouco confiáveis.

O conjunto de dados clássico "meias-luas" visualiza as limitações dos modelos supervisionados que dependem de poucos pontos de dados rotulados. Embora o limite de decisão "corrigido" separe cada uma das duas meia-luas, é provável que um modelo de aprendizado supervisionado superajuste os poucos pontos de dados rotulados disponíveis. Os pontos de dados não rotulados transmitem claramente um contexto útil, mas um algoritmo supervisionado tradicional não pode processar dados não rotulados.