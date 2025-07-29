L’apprentissage contextuel (ICL) est une capacité d’IA avancée introduite par l’article fondateur « Language Models are Few-Shot Learners », qui a révélé GPT-3.1 Contrairement à l’apprentissage supervisé, lors duquel le modèle passe par une phase d’entraînement avec rétropropagation pour modifier ses paramètres, l’ICL s’appuie entièrement sur des modèles de langage pré-entraînés et garde leurs paramètres inchangés.

Le modèle d’IA utilise le prompt comme guide temporaire pour déduire la tâche et générer la sortie attendue. L’ICL reconnaît les relations entre les exemples du prompt, également appelés paires entrée-sortie, et applique le même mappage aux nouvelles entrées. Ce processus imite le raisonnement humain, à savoir résoudre de nouveaux problèmes en s’appuyant sur les analogies des expériences antérieures. Il exploite les schémas et les connaissances apprises lors du pré-entraînement, et s’adapte dynamiquement aux nouvelles tâches, ce qui le rend très flexible et efficace.

Essentiellement, l’apprentissage contextuel fonctionne en conditionnant un grand modèle de langage (LLM) sur un prompt qui inclut un jeu d’exemples (paires entrée-sortie ou exemples contextuels) généralement écrits en langage naturel dans le cadre de la séquence d’entrée. Ces exemples, souvent tirés d’un jeu de données, ne sont pas utilisés pour entraîner à nouveau le modèle, mais sont introduits directement dans sa fenêtre contextuelle. Cette fenêtre, qui sert de mémoire temporaire pour générer des réponses cohérentes, indique la quantité de texte qu’un LLM peut traiter à la fois. Elle fait partie du modèle qui traite les entrées séquentielles.

Formellement, le prompt sera constitué de k exemples sous la forme de paires d’entrées/de sorties :

C={(x1 ,y1 ),(x2 ,y2 ),...,(xk ,yk )}

À partir d’une nouvelle entrée x et d’un espace de sortie candidat Y={y1,...,ym}, le modèle calcule la probabilité de chaque sortie possible en fonction du prompt :

P(yj ∣ x,C)

La prévision est déterminée en choisissant l’option qui a la probabilité la plus élevée :

y ^ = arg max y j ∈ Y P ( y j ∣ x , C )

Le modèle ne met pas à jour ses pondérations pendant ce processus. Au lieu de cela, en tirant parti de son architecture transformatrice d’apprentissage profond, le modèle apprend le schéma de manière dynamique en utilisant uniquement les exemples du prompt actuel.

Pour voir cette méthode en pratique, prenons comme exemple une tâche de classification des sentiments. Le prompt peut ressembler à ceci :

Avis : Le film était fantastique → Sentiment : positif

Avis : Je n’ai pas aimé l’histoire → Sentiment : négatif

Avis : La musique était agréable → Sentiment :

Le modèle complète la dernière ligne en prédisant « Positif » et en continuant la structure observée dans les mappings étiquette-entrée précédents. Cet exemple illustre l’apprentissage few-shot, lors duquel le modèle déduit la tâche et génère des réponses appropriées en fonction d’un nombre réduit d’exemples.