La plupart des meilleurs modèles d’apprentissage profond pour la classification ou la régression sont entraînés par apprentissage supervisé, ce qui nécessite de nombreux examples étiquetés de classes de données pertinentes. Les modèles « apprennent » en effectuant des prédictions sur un jeu de données d’entraînement étiqueté ; les étiquettes de données fournissent à la fois l’éventail de réponses possibles et les réponses correctes (ou vérité terrain) pour chaque exemple d’entraînement. « Apprendre » signifie ici ajuster les pondérations du modèle pour minimiser les différences entre les prédictions du modèle et la vérité terrain. Ce processus nécessite une quantité suffisante d’échantillons étiquetés pour de nombreuses séries d’entraînement et de mises à jour.
Bien que puissant, l’apprentissage supervisé n’est pas pratique dans certains scénarios du monde réel. L’annotation de grandes quantités d’échantillons de données est coûteuse et prend du temps, et dans des cas tels que les maladies rares et les espèces récemment découvertes, les exemples peuvent être rares ou inexistants. Envisagez les tâches de reconnaissance d’image : selon une étude, les humains peuvent reconnaître environ 30 000 catégories d’objets pouvant être distingués individuellement.1 Il n’est pas possible pour les modèles d’intelligence artificielle, en termes de temps, de coûts et de ressources informatiques, d’appréhender à distance les capacités humaines s’ils doivent être explicitement entraînés sur des données étiquetées pour chaque classe.
La nécessité pour les modèles de machine learning de pouvoir se généraliser rapidement à un grand nombre de catégories sémantiques avec un minimum d’entraînement a donné naissance au n-shot learning, un sous-ensemble du machine learning qui comprend également le few-shot learning (FSL) et le one-shot learning. L’apprentissage « few-shot » fait généralement appel à des méthodes d’apprentissage par transfert et de méta-apprentissage pour entraîner les modèles à reconnaître rapidement de nouvelles classes avec seulement quelques exemples d’entraînement étiquetés (ou, dans le cas d’un apprentissage one-shot, avec un seul exemple étiqueté).
Le zero-shot learning (ZSL), comme toutes les méthodes n-shot learning, ne se rapporte pas à un algorithme spécifique ou à une architecture de réseaux neuronaux, mais à la nature même du problème d’apprentissage : dans le ZSL, le modèle n’est pas entraîné sur des exemples étiquetés de classes non vues sur lesquelles il est demandé d’effectuer des prédictions après l’entraînement.
Cette configuration du problème ne tient pas compte de la présence de cette classe (bien que non étiquetée) dans les données d’entraînement. Par exemple, certains grands modèles de langage (LLM) sont bien adaptés aux tâches ZSL, car ils sont pré-entraînés par apprentissage auto-supervisé sur un corpus massif de textes qui peuvent contenir des références accidentelles ou des connaissances sur des classes de données non vues. En l’absence d’exemples étiquetés sur lesquels s’appuyer, les méthodes ZSL reposent toutes sur l’utilisation de ces connaissances auxiliaires pour formuler des prédictions.
Compte tenu de sa polyvalence et de son large éventail de cas d’utilisation, le zero-shot learning est devenu un domaine de recherche de plus en plus important dans la science des données, en particulier dans les domaines de la vision par ordinateur et du traitement automatique du langage naturel (NLP).