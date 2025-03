Contrairement à l'apprentissage semi-supervisé (et entièrement supervisé), les algorithmes d'apprentissage non supervisé n'emploient pas de données étiquetées et de fonctions de perte. L'apprentissage non supervisé élimine toute notion de « vérité terrain » par rapport à laquelle la précision du modèle peut être mesurée et optimisée.

Une approche semi-supervisée de plus en plus courante, en particulier pour les grands modèles de langage, consiste à « pré-entraîner » les modèles avec des tâches non supervisées qui leur enseignent à tirer des représentations significatives de jeux de données non étiquetées. Lorsque de telles tâches intègrent une vérité terrain et une fonction de perte (sans annotation manuelle de données), on parle alors d’apprentissage auto-supervisé. Ensuite, après une « mise au point supervisée » sur une petite quantité de données étiquetées, les modèles pré-entraînés peuvent souvent livrer des résultats comparables à ceux des modèles entièrement supervisés.

Si les méthodes d’apprentissage non supervisé peuvent être utiles dans de nombreux scénarios, le manque de contexte peut les rendre mal adaptées à la classification sans aide extérieure. Prenons en exemple la façon dont un algorithme de clustering classique (qui regroupe des points de données en un nombre prédéterminé de clusters selon leur proximité les uns aux autres), traiterait un jeu de données en demi-lune.