Le modèle fait passer les tokens par un réseau de Transformers. Les modèles de Transformers, qui sont apparus en 2017, sont utiles en raison de leur mécanisme d’auto-attention, qui leur permet de « prêter attention à » différents tokens à différents moments. Cette technique est la pièce maîtresse du Transformer et représente son innovation phare. L’auto-attention est utile en partie parce qu’elle permet au modèle d’IA de calculer les relations et les dépendances entre les tokens, en particulier ceux qui sont éloignés les uns des autres dans le texte. Les architectures de Transformers permettent également la parallélisation, ce qui rend le processus beaucoup plus efficace que les méthodes précédentes. Ces qualités ont permis aux LLM de gérer des jeux de données d’une taille sans précédent.
Une fois le texte divisé en tokens, chaque token est mappé à un vecteur de nombres appelé un plongement. Les réseaux de neurones sont constitués de couches de neurones artificiels, où chaque neurone effectue une opération mathématique. Les Transformers sont composés de plusieurs couches et, à chacune, les plongements sont légèrement ajustés, devenant ainsi des représentations contextuelles plus riches d’une couche à l’autre.
L’objectif de ce processus est de permettre au modèle d’apprendre les associations sémantiques entre les mots, de sorte que le mot « bark » (aboyer) et le mot « dog » (chien) apparaissent plus près l’un de l’autre dans l’espace vectoriel d’un texte sur les chiens que le mot « bark » (écorce) et le mot « tree » (arbre), en se basant sur les mots environnants liés aux chiens dans l’essai. Les Transformers ajoutent également des encodages positionnels, qui fournissent à chaque token des informations sur sa place dans la séquence.
Pour calculer l’attention, chaque plongement est projeté dans trois vecteurs distincts à l’aide de matrices de poids apprises : une requête, une clé et une valeur. La requête représente ce qu’un token donné « recherche », la clé représente les informations que chaque token contient, et la valeur « renvoie » les informations de chaque vecteur clé, mise à l’échelle par son poids d’attention respectif.
Les scores d’alignement sont ensuite calculés en fonction de la similarité entre les requêtes et les clés. Ces scores, une fois normalisés en pondérations d’attention, déterminent la quantité de chaque vecteur de valeur qui circule dans la représentation du token actuel. Ce processus permet au modèle de se concentrer de manière flexible sur le contexte pertinent tout en ignorant les tokens moins importants (comme « arbre »).
L’auto-attention crée ainsi des connexions « pondérées » entre tous les tokens, de manière plus efficace que les architectures antérieures ne le pouvaient. Le modèle attribue une pondération à chaque relation entre les tokens. Les LLM peuvent avoir des milliards ou des trilliards de ces poids, qui sont un type de paramètre LLM, les variables de configuration internes d’un modèle de machine learning qui contrôlent la façon dont il traite les données et fait des prédictions. Le nombre de paramètres fait référence au nombre de ces variables qui existent dans un modèle, certains LLM contenant des milliards de paramètres. Les petits modèles de langage sont plus petits en échelle et en portée et incluent relativement peu de paramètres, ce qui les rend adaptés aux déploiements sur des appareils plus petits ou dans des environnements à ressources limitées.
Durant l’entraînement, le modèle effectue des prédictions sur des millions d’exemples tirés de ses données d’entraînement, et une fonction de perte quantifie l’erreur de chaque prédiction. Grâce à un cycle itératif de prédictions puis de mise à jour des poids du modèle par rétropropagation et descente de gradient, le modèle « apprend » les poids des couches qui produisent les vecteurs requête, clé et valeur.
Une fois que ces poids sont suffisamment optimisés, ils peuvent prendre en compte l’plongement de vecteur original de n’importe quel token et produire des vecteurs de requête, de clé et de valeur qui, en interagissant avec les vecteurs générés pour tous les autres tokens, donnent de meilleurs résultats d’alignement, qui se traduisent à leur tour par des pondérations d’attention qui aident le modèle à produire de meilleures productions. Le résultat final est un modèle qui a appris des schémas dans la grammaire, les faits, les structures de raisonnement, les styles d’écriture et plus encore.