À l'inverse des méthodes d'encapsulation (et des algorithmes intrinsèquement semi-supervisés), qui utilisent simultanément des données étiquetées et non étiquetées, certaines méthodes de SSL utilisent des données non étiquetées et étiquetées à des étapes distinctes, avec une phase de prétraitement non supervisée suivie d'une étape supervisée.

Ces techniques peuvent en théorie être utilisées pour tout apprenant de base supervisé, tout comme les méthodes d'encapsulation. Mais contrairement à celles-ci, le modèle supervisé « principal » est au final entraîné uniquement sur des points de données étiquetés dès l'origine (annotés manuellement).

On peut utiliser ces méthodes de prétraitement pour tirer des caractéristiques utiles à partir de données non étiquetées, mener un partitionnement initial des points de données non étiquetés, ou encore appliquer un pré-entraînement en vue de déterminer les paramètres initiaux d'un modèle supervisé (en suivant un processus similaire aux tâches de prétexte dans l'apprentissage auto-supervisé).



Cluster puis étiquette (CTL)

Une technique semi-supervisée simple consiste à agréger tous les points de données (étiquetés et non étiquetés) avec un algorithme non supervisé. En suivant l'hypothèse de clustering, ces groupes peuvent servir à entraîner un modèle de classification indépendant. Si les points de données étiquetés d'un cluster donné appartiennent tous à la même classe, il convient alors de produire des pseudo-étiquettes et de poursuivre de la même façon qu'avec les méthodes d'encapsulation.

Comme le montre l'exemple des « demi-lunes » cité plus haut dans cet article, des méthodes simples (comme celle des k plus proches voisins) peuvent donner des prévisions inadéquates. Des algorithmes de clustering plus perfectionnés, comme DBSCAN (qui implémente l'hypothèse de faible densité),6 démontrent une plus grande fiabilité.

Pré-entraînement et extraction de caractéristiques

Une phase de pré-entraînement non supervisé (ou auto-supervisé) permet d'enseigner aux modèles des représentations utiles de l'espace d'entrée, limitant la quantité de données étiquetées requises pour les affiner par apprentissage supervisé.

Une approche courante consiste à utiliser un réseau neuronal, souvent un auto-encodeur, pour apprendre comment incorporer ou représenter les caractéristiques des données d'entrée, puis à utiliser ces caractéristiques apprises pour entraîner un apprenant de base supervisé. Cela implique souvent une réduction de dimensionnalité : une tâche qui appelle à l'utilisation de l'hypothèse multiple.