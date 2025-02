Dans les années 2000, les chercheurs commencent à explorer les modèles de langue neuronaux (NLM), qui utilisent des réseaux neuronaux pour modéliser les relations entre les mots dans un espace continu. Ces premiers modèles jettent les bases du développement à venir des plongements lexicaux.

Bengio et al. (2003) introduisent les réseaux neuronaux à propagation avant pour la modélisation du langage. Ces modèles sont capables de capturer des représentations distribuées de mots, mais leur capacité à gérer des vocabulaires de grande taille est limitée.

Des chercheurs, dont Mnih et Hinton (2009), explorent les modèles probabilistes pour l’apprentissage des représentations distribuées de mots. Ces modèles se concentrent sur la capture des relations sémantiques entre les mots et constituent une étape importante vers les plongements lexicaux.

Le modèle Word2Vec, introduit par Tomas Mikolov et ses collègues de Google en 2013, marque une avancée majeure. Word2Vec s’appuie sur deux modèles, le Continuous Bag of Words (CBOW) et le Continuous Skip-gram, qui apprennent efficacement les plongements lexicaux à partir de grands corpus, et qui bénéficient d’une large adoption de par leur simplicité et leur efficacité.

GloVe (Global Vectors for Word Representation), introduit par Pennington et al. en 2014, repose sur l’utilisation des statistiques globales (fréquences de cooccurrence des mots) pour l’apprentissage des représentations vectorielles des mots. Il est utilisé dans diverses applications de NLP et il est connu pour sa capacité à capturer les relations sémantiques.

Aujourd’hui, avec l’essor de l’apprentissage profond, les couches de plongements sont devenues des composantes standard des architectures de réseaux neuronaux pour les tâches de NLP. Les plongements sont désormais utilisés non seulement pour les mots, mais aussi pour les entités, les phrases et d’autres unités linguistiques. Dans une large mesure, les plongements lexicaux ont permis à des modèles de langage tels que les réseaux de neurones récurrents (RNN), les réseaux de mémoire à long et court terme (LSTM), ELMo (Embeddings from Language Models), BERT, ALBERT (a light BERT) et GPT d’évoluer à un rythme fulgurant.