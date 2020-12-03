Les modèles de langage estiment la probabilité que les mots apparaissent dans une phrase, ou que la phrase elle-même existe. En tant que tels, ils constituent des éléments de base utiles dans un grand nombre d’applications de PNL. Mais ils nécessitent souvent une quantité importante de données de formation pour être utiles dans des tâches et des domaines spécifiques.

Les modèles de langage massifs basés sur l’apprentissage profond sont conçus pour résoudre ces problèmes omniprésents liés aux données d’entraînement. Ils sont pré-entraînés à l’aide d’un énorme volume de données non annotées afin de fournir un modèle d’apprentissage profond à usage général. En affinant ces modèles pré-entraînés, les utilisateurs en aval peuvent créer des modèles spécifiques à une tâche avec des jeux de données d’entraînement annotés plus petits (une technique appelée apprentissage par transfert). Ces modèles représentent une avancée majeure dans le domaine du NLP : il est désormais possible d’obtenir des résultats de pointe avec des ensembles de données d’entraînement plus petits.

Jusqu’à récemment, l’état de l’art en matière de modèles de langage NLP était constitué de modèles RNN. Celles-ci sont utiles pour des tâches séquencées telles que la synthèse abstraite, la traduction automatique et la génération générale de langage naturel. Les modèles RNN traitent les mots de manière séquentielle, dans l’ordre dans lequel ils apparaissent dans un contexte, un mot à la fois. Par conséquent, ces modèles sont difficiles à paralléliser et ne permettent pas de conserver les relations contextuelles dans des textes longs. Comme nous l’avons déjà évoqué dans un article précédent, le contexte du NLP est essentiel.

Le Transformer, un modèle introduit en 2017, contourne ces problèmes. Ces transformeurs (tels que BERT et GPT) emploient un mécanisme d’attention qui « prête attention » aux mots les plus utiles pour prédire le mot suivant dans une phrase. Grâce à ces mécanismes d’attention, les transformeurs traitent une séquence de mots en entrée en une seule fois et cartographient les dépendances pertinentes entre les mots, quelle que soit la distance qui les sépare dans le texte. Ils sont donc hautement parallélisables, peuvent entraîner des modèles beaucoup plus grands à un rythme plus rapide et utilisent des indices contextuels pour résoudre de nombreux problèmes d’ambiguïté qui affectent souvent les textes.

Les transformeurs individuels ont également leurs propres avantages. Jusqu’à cette année, BERT était le modèle NLP d’apprentissage profond le plus populaire, obtenant des résultats de pointe dans de nombreuses tâches NLP.

Entraîné à partir 2,5 milliards de mots, son principal avantage est qu’il utilise l’apprentissage bidirectionnel pour contextualiser les mots à la fois de gauche à droite et de droite à gauche. L’approche d’entraînement bidirectionnelle de BERT est optimisée pour prédire les mots masqués (Masked LM) et surpasse l’entraînement de gauche à droite après quelques étapes préalables à l’entraînement. Pendant le processus d’entraînement du modèle, la prédiction de la prochaine phrase (NSP ou Next Sentence Prediction) permet au modèle de comprendre comment les phrases s’articulent entre elles, si la phrase B doit précéder ou suivre la phrase A. En conséquence, il peut obtenir plus de contexte. Par exemple, il peut comprendre la sémantique du mot anglais bank dans les phrases suivantes : « Levez vos rames quand vous arrivez au bord (bank en anglais) du fleuve » et « La banque (bank) envoie une nouvelle carte de débit ». Pour comprendre cela, il utilise des indices de cartes de débit de gauche à droite et de droite à gauche.

Contrairement aux modèles BERT, les modèles GPT sont unidirectionnels. Le principal avantage des modèles GPT est le volume de données sur lequel ils ont été préentraînés : le GPT-3, le modèle GPT de troisième génération, a été entraîné sur 175 milliards de paramètres, soit environ 10 fois la taille des modèles précédents. Ce modèle pré-entraîné vraiment massif permet aux utilisateurs d’affiner les tâches NLP avec très peu de données pour accomplir des tâches nouvelles. Bien que les transformers aient généralement réduit la quantité de données nécessaires pour entraîner les modèles, GPT-3 présente un avantage distinct par rapport à BERT, car il nécessite beaucoup moins de données pour entraîner les modèles.

Ainsi, à partir de seulement 10 phrases, le modèle a été entraîné à rédiger un essai sur les raisons pour lesquelles les humains ne devraient pas craindre l’IA. (Il convient toutefois de noter que la qualité variable de ces essais libres montre les limites de la technologie actuelle.)