L'apprentissage auto-supervisé est un sous-ensemble de l'apprentissage non supervisé : toutes les techniques d'apprentissage auto-supervisées sont de l'apprentissage non supervisé, mais la majeure partie de l'apprentissage non supervisé n'implique pas d'auto-supervision.
Ni l’apprentissage non supervisé ni l’apprentissage auto-supervisé n’utilisent d’étiquettes au cours du processus d’entraînement : les deux méthodes apprennent des schémas et des corrélations intrinsèques présents dans les données non étiquetées, et non des corrélations imposées de manière externe provenant de jeux de données annotés. Exception faite de ce point commun, les différences entre l’apprentissage auto-supervisé et l’apprentissage non supervisé reflètent en grande partie les différences entre l’apprentissage non supervisé et l’apprentissage supervisé.
L’apprentissage non supervisé conventionnel ne mesure pas les résultats par rapport à une vérité terrain déjà connue. Par exemple, un modèle d’association non supervisé peut alimenter un moteur de recommandations pour l’e-commerce en identifiant les produits fréquemment achetés ensemble. L’utilité du modèle n’est pas dérivée de la réplication de prédictions humaines, mais de la découverte de corrélations non apparentes pour les observateurs humains.
L’apprentissage auto-supervisé mesure les résultats par rapport à une vérité terrain, mais cette vérité est implicitement dérivée de données d’apprentissage non étiquetées. Comme les modèles supervisés, les modèles auto-supervisés sont optimisés à l’aide d’une fonction de perte, autrement dit un algorithme mesurant la divergence (« perte ») entre la vérité terrain et les prédictions du modèle. Lors de l’entraînement, les modèles auto-supervisés utilisent la descente de gradient au moment de la rétropropagation pour ajuster les poids du modèle de façon à minimiser la perte (et ainsi améliorer la précision).
En raison de cette distinction essentielle, les deux méthodes se concentrent sur différents cas d'utilisation : les modèles non supervisés sont utilisés pour des tâches comme le partitionnement, la détection des anomalies et la réduction de dimensionnalité (qui ne nécessitent pas de fonction de perte), tandis que les modèles auto-supervisés sont utilisés pour la classification et la régression.