Les modèles de plongement indépendants peuvent être préentraînés ou entraînés à partir de zéro pour des tâches spécifiques ou des jeux de données particuliers. Chaque forme de données bénéficie généralement d’une architecture de réseau neuronal spécifique, mais l’utilisation d’un algorithme spécifique pour une tâche spécifique est souvent une bonne pratique plutôt qu’une règle explicite.
Parfois, le processus de plongement fait partie d’un réseau neuronal plus vaste. Par exemple, dans les réseaux neuronaux convolutifs (CNN) de type codeur-décodeur, utilisés pour des tâches telles que la segmentation d’images, l’optimisation du réseau pour des prédictions précises passe par l’entraînement des couches d’encodage afin de produire des plongements vectoriels efficaces des images en entrée.
Modèles préentraînés
Pour de nombreux cas d’utilisation et domaines d’étude, les modèles préentraînés peuvent fournir des plongements utiles qu’il est ensuite possible d’utiliser comme entrées dans des modèles personnalisés ou dans des bases de données vectorielles. Ces modèles open source sont généralement entraînés sur des ensembles de données très vastes pour apprendre des représentations utiles à de nombreuses tâches en aval, telles que l’apprentissage few-shot ou zero-shot.
Pour les données textuelles, des modèles de plongement lexical open source tels que Word2Vec de Google ou Global Vectors (GloVe) de l’université de Stanford peuvent être entraînés à partir de zéro, mais ils existent aussi sous forme de versions préentraînées sur des corpus publics tels que Wikipédia et Common Crawl. De même, les grands modèles de langage (LLM) de type codeur-décodeur, tels que BERT et ses nombreuses variantes, sont préentraînés sur de grandes quantités de données textuelles.
Pour les tâches de vision par ordinateur, les modèles de classification d'images pré-entraînés tels qu'ImageNet, ResNet ou VGG peuvent être adaptés pour produire des plongements vectoriels en supprimant simplement leur dernière couche de prédiction entièrement connectée.
Modèles de plongement personnalisés
Certains cas d’utilisation, notamment ceux impliquant des concepts complexes ou de nouvelles classes de données, peuvent bénéficier d’un ajustement personnalisé de modèles préentraînés ou de la création de modèles de plongement entièrement sur mesure.
Les domaines juridique et médical sont des exemples typiques de secteurs reposant sur un vocabulaire ésotérique et hautement spécialisé, ainsi que sur des bases de connaissances ou des images rarement incluses dans les ensembles de données d'entraînement des modèles généralistes. Compléter les connaissances de base des modèles pré-entraînés en les affinant avec des exemples spécifiques au domaine peut améliorer la qualité des plongements produits.
Bien qu’il soit possible de concevoir une architecture de réseau neuronal entièrement personnalisée ou d’entraîner une architecture déjà existante à partir de zéro, cela requiert des ressources et des compétences techniques souvent inaccessibles pour la plupart des organisations ou amateurs.