Qu'est-ce que Llama 2 ?

19 décembre 2023

Auteurs

Dave Bergmann

Senior Writer, AI Models, IBM

Qu'est-ce que Llama 2 ?

Llama 2 est une famille de grands modèles de langage (LLM) pré-entraînés et affinés, publiés par Meta AI en 2023. Mis à disposition gratuitement pour la recherche et l’utilisation commerciale, les modèles d’IA Llama 2 sont capables d’effectuer une variété de tâches de traitement automatique du langage naturel (NLP), de la génération de texte à la programmation de code.

La famille de modèles Llama 2, proposée à la fois sous forme de modèles de fondation de base et de modèles « chat » affinés, succède aux modèles LLaMa 1 originaux, qui ont été mis sur le marché en 2022 dans le cadre d'une licence non commerciale accordant un accès au cas par cas exclusivement aux institutions de recherche. Contrairement à leurs prédécesseurs, les modèles Llama 2 sont disponibles gratuitement pour la recherche et l'utilisation commerciale de l'IA.

Les modèles Llama de Meta visent donc à jouer un rôle important dans la démocratisation de l’écosystème de l’IA générative. Comme indiqué dans le rapport de recherche sur le Llama 2 (lien externe à ibm.com), bien que la méthodologie de pré-entraînement des LLM autorégressifs via l’apprentissage auto-supervisé soit désormais relativement simple et bien maîtrisée, les immenses exigences de calcul que le processus implique ont largement limité le développement des LLM ultramodernes à un petit nombre d’acteurs clés. Étant donné que la plupart des LLM ultramodernes, comme le GPT d’OpenAI, le Claude d’Anthropic et le BARD de Google, sont des modèles propriétaires (et massifs) à code source fermé, l’accès à la recherche publique sur l’IA, qui pourrait aider à comprendre comment et pourquoi ces modèles fonctionnent, et comment mieux adapter leur développement aux intérêts de l’homme, a été nettement restreint.

Outre la mise à disposition gratuite de son code et des pondérations de modèle, le projet Llama s'est concentré sur l'amélioration des performances des petits modèles, plutôt que sur la multiplication des paramètres. Alors que la plupart des grands modèles en source fermée ont des centaines de milliards de paramètres, les modèles Llama 2 sont proposés avec sept milliards (7B), 13 milliards (13B) ou 70 milliards de paramètres (70B).

Cela permet aux petites organisations, comme les startups et les membres de la communauté des chercheurs, de déployer des instances locales de modèles Llama 2, ou des modèles basés sur Llama développés par la communauté de l'IA, sans avoir besoin d'un temps de calcul ou d'investissements d'infrastructure prohibitifs.

Llama 2 vs. LLaMa 1

Le rapport de recherche sur le Llama 2 détaille plusieurs avantages que la nouvelle génération de modèles d’IA offre par rapport aux modèles LLaMa d’origine.

  • Longueur du contexte plus élevée : Les modèles Llama 2 offrent une longueur du contexte de 4 096 jeton, soit le double de celle du LLaMa 1. La longueur du contexte (ou fenêtre de contexte) fait référence au nombre maximum de jetons dont le modèle peut se « souvenir » pendant l'inférence (c'est-à-dire la génération d'un texte ou une conversation en cours). Cela permet une plus grande complexité et un échange plus cohérent et fluide du langage naturel.
  • Meilleure accessibilité : alors que LLaMa 1 a été publié exclusivement pour une utilisation pour la recherche, Llama 2 est disponible pour toute organisation (comptant moins de 700 millions d'utilisateurs actifs).
  • Entraînement plus fiable : Llama 2 a été pré-entraîné sur 40 % de données supplémentaires, ce qui a permis d’accroître sa base de connaissances et sa compréhension du contexte. En outre, contrairement à LLaMa 1, les modèles de chat de Llama 2 ont été affinés à l’aide de l’apprentissage par renforcement basé sur les commentaires humains (RLHF), ce qui a permis de mieux adapter les réponses des modèles aux attentes des utilisateurs.
Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Llama 2 est-il open source ?

Bien que Meta ait mis le code initial et les pondérations des modèles Llama 2 gratuitement à la disposition de la recherche et de l'utilisation commerciale, certaines restrictions dans son contrat de licence ont suscité un débat sur la question de savoir s'il pouvait être qualifié comme « open source ».

Le débat est quelque peu technique et sémantique : bien que le terme « open source » soit souvent utilisé familièrement pour désigner tout logiciel (ou autre outil de programmation) dont le code source est distribué gratuitement, il s'agit en fait d'une désignation officielle gérée par l'Open Source Initiative (OSI). L’OSI ne certifie une licence logicielle donnée comme étant « approuvée par l’Open Source Initiative » que si elle estime que cette licence répond aux dix exigences énumérées dans la définition officielle de l’Open Source (OSD) (lien externe à ibm.com).

Comme l'explique Stefano Maffulli, directeur exécutif de l'OSI, « L'OSI se réjouit de voir que Meta réduit les coûts d'accès à des systèmes d'IA puissants. Malheureusement, le géant de la technologie a donné à penser que LLaMa 2 était "open source", ce qui n'est pas le cas. » 1

La divergence provient de deux points du contrat de licence Llama 2 :

  • Toute organisation comptant plus de 700 millions d'utilisateurs actifs par mois doit demander une licence à Meta (à sa seule discrétion). 2
  • La « politique d'utilisation acceptable » interdit l'utilisation des modèles à des fins de violence, d'activité criminelle et d'usurpation d'identité, entre autres restrictions légales et morales.

Ces restrictions sont en contradiction avec deux points de l'OSD :

  • Point 5 : « La licence ne doit pas être discriminatoire à l'égard d'une personne ou d'un groupe de personnes. » 3
  • Point 6 : « La licence ne doit pas empêcher quiconque d'utiliser le programme dans un secteur d'activité spécifique. » 3

Pour souligner à la fois de l'esprit open source du Llama 2 et son incapacité à répondre à la définition technique de « open source », certains membres de la communauté technologique ont utilisé le terme d'« approche ouverte ». 4

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Comment fonctionne Llama 2 ?

Les modèles de base Llama 2 sont des modèles de fondation pré-entraînés destinés à être affinés pour des cas d'utilisation spécifiques, tandis que les modèles de chat Llama 2 sont déjà optimisés pour le dialogue.

Modèles de base Llama 2

Llama 2 est une famille de modèles linguistiques causaux autorégressifs basés sur des transformeurs. Les modèles linguistiques autorégressifs prennent une séquence de mots en entrée et prédisent récursivement en sortie le(s) mot(s) suivant(s).

Durant la phase de pré-entraînementautosupervisé, les LLM reçoivent le début d’exemples de phrases tirées d’un corpus massif de données non étiquetées et sont chargés de prédire le mot suivant. En entraînant le modèle à minimiser la divergence entre la vérité terrain (le mot suivant réel) et ses propres prédictions, le modèle apprend à reproduire des schémas linguistiques et logiques dans les données d’entraînement. Bien que les rapports d’étude ne donnent pas de détails sur les sources de données spécifiques, ils indiquent que Llama 2 a été entraîné avec 2 milliards de jetons, c’est-à-dire des mots, des parties de mots, des phrases et d’autres fragments sémantiques représentés numériquement que les réseaux neuronaux à base de transformateurs utilisent pour le traitement du langage, à partir de sources accessibles au grand public.

À un niveau fondamental, les modèles de fondation de base ne sont pas pré-entraînés pour répondre à une invite : ils y ajoutent du texte de manière grammaticalement cohérente. Un modèle de fondation prêt à l'emploi pourrait répondre à une invite du type « Apprends-moi à faire des cookies » par « pour une fête de fin d'année ». Un affinage supplémentaire, via des techniques telles que l'apprentissage supervisé et l'apprentissage par renforcement, est nécessaire pour entraîner un modèle de fondation pour une application spécifique telle que le dialogue, le suivi d'instructions ou l'écriture créative.

Les modèles de base Llama 2 sont plutôt destinés à servir de fondation pour développer un modèle spécifique pour un usage bien précis. À ce jour, les modèles Llama 2 (et le LLaMa original) ont servi de base à plusieurs LLM open source de premier plan, notamment :

  • Alpaga : une version de LLaMa 7B affinée pour le suivi des instructions par des chercheurs de l'université de Stanford. Elle a notamment obtenu des résultats compétitifs par rapport à GPT-3.5, bien qu'elle ne coûte que 600 USD en ressources informatiques.5
  • Vicuna : un modèle d’assistant de chat de LMSYS Org, entraîné en affinant Llama 2 13B sur des conversations d’utilisateurs issues de ShareGPT (lien externe à ibm.com). Il a surpassé Alpaca dans plus de 90 % des cas pour un coût d’entraînement de seulement 300 USD.6
  • Orca : une version affinée du Llama 2, entraînée par Microsoft à l'aide d'un schéma « enseignant-étudiant », dans lequel un LLM plus grand et plus puissant est utilisé pour générer des exemples de comportement de raisonnement utile que le modèle plus petit doit suivre.7
  • WizardLM : affiné à l'aide d'Evol-Instruct, une méthode permettant de créer de grandes quantités de données d'instruction synthétiques à l'aide de LLM, WizardLM a offert plus de 90 % des performances de ChatGPT dans 17 des 29 compétences évaluées.8

Modèles de chat Llama 2

Les modèles Llama-2-chat sont affinés pour les cas d'utilisation axés sur le dialogue, à l'instar des versions spécifiques du modèle GPT utilisées dans ChatGPT.

L’affinement supervisé (SFT) a été utilisé pour entraîner le modèle de base Llama 2 pré-entraîné à générer des réponses dans le format attendu par les utilisateurs lors de l’utilisation d’un chatbot ou d’un agent conversationnel. Dans le cadre d’une série de tâches d’apprentissage supervisé, des paires étiquetées d’échanges de type dialogue, annotées (prompt, réponse), sont utilisées pour entraîner le modèle à minimiser la divergence entre sa propre réponse pour un prompt donné et l’exemple de réponse fourni par les données étiquetées. Le modèle apprend ainsi, par exemple, que la réponse appropriée à un prompt du type « apprends-moi à faire des cookies » est de fournir des instructions précises pour faire des cookies, plutôt que de simplement compléter la phrase.

Plutôt que d'utiliser des millions d'exemples étiquetés, l'article indique que les résultats ont été améliorés en utilisant « moins d'exemples, mais de meilleure qualité », précisant que Meta AI avait collecté 27 540 échantillons annotés.

Après le SFT, Meta a utilisé l’apprentissage par renforcement basé sur les commentaires humains (RLHF) pour adapter davantage le comportement des modèles de chat aux préférences et aux instructions humaines. Dans le cadre du RLHF, le commentaire humain direct est utilisé pour entraîner un « modèle de récompense » afin qu’il puisse « apprendre » les types de réponses que les humains préfèrent. En traduisant les prédictions du modèle de récompense (à savoir si une réponse donnée serait privilégiée ou non par les humains) en un signal de récompense scalaire, le modèle de récompense est ensuite utilisé pour entraîner le Llama-2-chat via l’apprentissage par renforcement.

Il existe de nombreuses méthodes et formats différents pour recueillir les commentaires humains. Il existe de nombreuses méthodes et formats différents pour recueillir les commentaires humains. Meta AI a utilisé une méthode simple de comparaison binaire : les annotateurs humains ont été invités à rédiger une invite, puis à choisir entre deux réponses modélisées, basées sur des critères fournis par Meta, générées par deux variantes différentes du Llama 2. Pour aider le modèle de récompense à pondérer correctement ces choix, les annotateurs ont également été invités à évaluer dans quelle mesure ils préféraient la réponse retenue à l'autre : « significativement meilleure » « légèrement meilleure » ou « à peine meilleure/incertain. »

Les préférences humaines ont été utilisées pour entraîner deux modèles de récompense distincts : l’un optimisé pour la serviabilité, l’autre optimisé pour la sécurité (c’est à dire pour éviter les réponses agressives, haineuses ou les réponses qui pourraient être utilisées pour inciter à la violence ou à l’activité criminelle). En plus de l’optimisation de la politique proximale (PPO), l’algorithme généralement utilisé pour mettre à jour les pondérations du modèle LLM du RLHF, Meta a également utilisé l’échantillonnage par rejet (lien externe à ibm.com) pour mettre à jour le Llama-2-chat-70B.

Code Llama

Code Llama, développé sur Llama 2, a été perfectionné pour générer du code (et du langage naturel sur le code) à partir d'invites basées sur le code et sur le langage naturel. Lancé peu après la sortie des modèles de base et de chat Llama 2, il est gratuit à des fins de recherche et d'utilisation commerciale.

Prenant en charge la plupart des langages de programmation courants, notamment Python, C++, Java, PHP et Javascript (entre autres), il est disponible dans des tailles de modèle de 7, 13 et 34B de paramètres, et offre une longueur de contexte allant jusqu'à 100 000 jetons. Deux autres variantes, Code Llama - Python et Code Llama - Instruct, sont respectivement conçues pour Python (et PyTorch) et pour le suivi d'instructions.

Llama 2 vs. modèles à code source fermé

Par rapport à leurs concurrents à source fermée, les modèles Llama 2 excellent dans des domaines tels que la sécurité et l'exactitude des faits. Bien que Llama 2 ne puisse pas rivaliser avec des modèles beaucoup plus grands, sa disponibilité ouverte et sa meilleure efficacité présentent des avantages uniques.

En comparant Llama 2 aux modèles propriétaires phares de concurrents tels que OpenAI, Anthropic et Google, il est important de tenir compte de l'échelle. Bien que les modèles à source fermée ne divulguent pas toujours tous les détails de leur architecture, les informations disponibles suggèrent fortement qu'ils dépassent tous largement les 70 milliards de paramètres des plus grands modèles Llama 2 :

  • GPT-3 a 175 milliards de paramètres.
  • On estime que le GPT-4 a un milliard de paramètres.9
  • Le modèle PaLM 2 de Google aurait 340 milliards de paramètres10. Son prédécesseur, PaLM, avait 540 milliards de paramètres11.
  • Anthropic n’a pas publié le nombre de paramètres des modèles Claude, mais un article récent suggère l’existence d’une version à 175 milliards de paramètres pour Claude 212.

Évaluation humaine

Selon le rapport de recherches sur Llama 2, les évaluateurs humains ont préféré les réponses de Llama-2-chat 70B à celles de GPT-3.5.-turbo-0301, le modèle standard de ChatGPT : les réponses de Llama 2 ont enregistré un taux de réussite de 36 % et un taux d’égalité de 31,5 %. Comparativement à PaLM Bison, le deuxième plus grand modèle PaLM, 70B présentait un taux de réussite de plus de 50 %.

Sécurité

Lors des tests effectués par Meta, les modèles 7B, 13B et 70B du Llama 2 présentaient tous des pourcentages de manquements à la sécurité nettement inférieurs à ceux du PaLM Bison, 3 % et 4 %, contre 27 % pour le PaLM. Ils présentaient également des pourcentages de manquements à la sécurité inférieurs à ceux de ChatGPT, qui s’élevaient à 7 %. Il s’agit d’un atout majeur pour les cas d’utilisation en entreprise, dans lesquels le langage agressif, haineux ou provocateur des chatbots peut avoir des conséquences désastreuses.

Confidentialité et efficacité

L’un des avantages inhérents aux modèles plus petits et ouverts par rapport aux modèles massifs à source fermée est la liberté pour les entreprises d’exécuter des instances de modèles locaux et la rentabilité de le faire sans investissements massifs dans l’infrastructure ou le cloud computing. L’exécution d’un modèle local garantit que le code propriétaire, les modifications d’entraînement et les données propriétaires peuvent être utilisés pour affiner les performances du modèle sans être chargés sur un serveur commercial ou potentiellement utilisés pour l’entraînement futur de modèles à source fermée. En outre, les modèles de plus petite taille, comme les variantes 7B et 13B, permettent des performances plus fluides dans des environnements tels que les applications mobiles, où la puissance de traitement est limitée.

Comment utiliser Llama 2

Llama 2 n'a pas d'API propre, mais il est accessible par l'intermédiaire de plusieurs fournisseurs.

  • Llama-2-13B-chat et Llama-2-70B-chat font partie des nombreux modèles de fondations disponibles dans watsonx, grâce au partenariat d’IBM avec Hugging Face.

  • Les pondérations de modèles et le code initial de Llama 2 peuvent être téléchargés directement sur Github, où Meta fournit également des instructions, démonstrations et « recettes » pour Llama 2 (lien externe à ibm.com). Les modèles peuvent être mis en œuvre dans des cadres de machine learning open source comme PyTorch ou LangChain.

  • Llama 2 est également disponible auprès de fournisseurs de logiciels open source tels que Hugging Face et de fournisseurs d'entreprises tels que Microsoft Azure et Amazon Sagemaker et Bedrock, en plus d'un certain nombre de startups basées sur le cloud.
Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA
Notes de bas de page

Tous les liens sont externes à ibm.com.
1
« Meta’s LLaMa 2 license is not Open Source », Voices of Open Source, 20 juillet 2023
2 « Llama 2 Community License Agreement », Meta, 18 juillet 2023
3 « The Open Source Definition », Open Source Initiative, dernière mise à jour le 22 février 2023
4 « Statement of Support for Meta’s Open Approach to Today’s AI », Meta, 18 juillet 2023
5 « Alpaca: A Strong, Replicable Instruction-Following Model », Stanford CRFM, 13 mars 2023
6 « Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality », LMSYS Org, 30 mars 2023
7 « Orca-2: Teaching Small Language Models How to Reason », Microsoft, novembre 2023
8 « WizardLM: Empowering Large Language Models to Follow Complex Instructions », arXiv, 10 juin 2023
9 « The secret history of Elon Musk, Sam Altman, and OpenAI », Semafor, 24 mars 2023
10
« Google’s newest A.I. model uses nearly five times more text data for training than its predecessor », CNBC, 16 mai 2023
11 « Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance », Google, 4 avril 2023
12 « The Capacity for Moral Self-Correction in Large Language Models », arXiv, 18 février 2023