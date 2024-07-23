Le mardi 23 juillet, Meta a annoncé le lancement de la collection Llama 3.1 de grands modèles de langage multilingues (LLM). Llama 3.1 comprend à la fois des modèles d'IA génératifs open source pré-entraînés et optimisés pour l'entrée/sortie de texte, avec des tailles de 8 Go, 70 Go et, pour la première fois, 405 Go de paramètres.
Le modèle Llama 3.1-405B, conçu pour être le modèle linguistique open source le plus grand et le plus puissant disponible à ce jour et capable de rivaliser avec les meilleurs modèles propriétaires du marché, sera disponible dès aujourd'hui sur IBM watsonx.ai™. où il pourra être déployé sur le cloud IBM, dans un environnement cloud hybride ou sur site.
La sortie de Llama 3.1 fait suite au lancement des modèles Llama 3 le 18 avril. Dans l'annonce de lancement qui l'accompagne, Meta déclare que « [son] objectif dans un avenir proche est de rendre Llama 3 multilingue et multimodal, d'avoir un contexte plus long et de continuer à améliorer les performances globales des capacités LLM telles que le raisonnement et le codage ».
Le lancement aujourd'hui de Llama 3.1 témoigne des progrès significatifs accomplis vers cet objectif, depuis l'augmentation considérable de la longueur du contexte jusqu'à l'élargissement de l'utilisation des outils et des capacités multilingues.
En décembre 2023, Meta et IBM ont lancé l'AI Alliance en collaboration avec plus de 50 membres fondateurs et collaborateurs du monde entier. En réunissant des organisations de premier plan issues de l'industrie, des start-ups, du monde universitaire, de la recherche et des pouvoirs publics, l'AI Alliance aspire à façonner l'évolution de l'IA afin qu'elle reflète au mieux les besoins et la complexité de nos sociétés. Depuis sa création, cette Alliance compte plus de 100 membres.
Plus précisément, elle est dédiée à la promotion d'une communauté ouverte qui permet aux développeurs et aux chercheurs d'accélérer l'innovation tout en garantissant la confiance, la sûreté, la sécurité, la diversité, la rigueur scientifique et la compétitivité économique. À cette fin, l'Alliance soutient des projets qui développent et déploient des références et des normes d'évaluation, contribuent à relever les défis sociétaux, favorisent le renforcement des compétences mondiales en matière d'IA et encouragent le développement autonome de l'IA de manière sûre et bénéfique.
Llama 3.1 poursuit cette mission en fournissant à la communauté mondiale de l'IA une famille de modèles ouverts et à la pointe de la technologie, ainsi qu'un écosystème de développement permettant de créer, d'expérimenter et de mettre en œuvre de manière responsable de nouvelles idées et approches. Outre ses nouveaux modèles puissants, cette version comprend des mesures de sécurité renforcées au niveau du système, de nouvelles mesures d'évaluation de la cybersécurité et des garde-fous actualisés pour le temps d'inférence. Collectivement, ces ressources encouragent la normalisation du développement et de l'utilisation d'outils de confiance et de sécurité pour l'IA générative.
Les prochains modèles Llama avec « plus de 400 milliards de paramètres » ont été présentés lors de l'annonce d'avril concernant Llama 3, y compris une évaluation préliminaire des performances du modèle, mais leur taille exacte et leurs spécificités n'ont été rendues publiques qu'aujourd'hui, lors du lancement. Alors que Llama 3.1 représente des améliorations majeures sur toutes les tailles de modèles, le nouveau modèle open source 405B atteint une parité sans précédent avec les principaux LLM propriétaires à code source fermé.
Les chiffres mis à jour publiés aujourd’hui par Meta dressent un tableau complet de la performance impressionnante du modèle 405B par rapport aux autres offres de pointe. Voici comment il se positionne par rapport aux principaux LLM selon des critères de référence courants.[1]
Lorsqu'on compare le modèle 405B à d'autres modèles de pointe, les critères de performance ne sont pas le seul facteur à prendre en compte. Contrairement à ses homologues à code source fermé, accessibles uniquement via une API dans laquelle le modèle sous-jacent peut être modifié sans préavis, Llama 3.1-405B est une plateforme stable qui peut être développée, modifiée et même exécutée sur site. Ce niveau de contrôle et de prévisibilité est une aubaine pour les chercheurs, les entreprises et autres entités qui accordent de l'importance à la cohérence et à la reproductibilité.
À l'instar de Meta, IBM estime que la disponibilité de modèles ouverts viables favorise la création de produits plus performants et plus sûrs, accélère l'innovation et contribue à un marché de l'IA globalement plus sain. L'ampleur et les capacités d'un modèle open source sophistiqué de 405 milliards de paramètres offrent des opportunités et des cas d’utilisation uniques pour les entreprises de toutes tailles.
Outre l'utilisation directe du modèle pour l'inférence et la génération de texte, qui, compte tenu de sa taille et des exigences informatiques correspondantes, peut nécessiter une quantification ou d'autres méthodes d'optimisation pour fonctionner localement sur la plupart des configurations matérielles, le 405B peut être utilisé pour :
Pour un lancement réussi avec les modèles Llama 3.1, Meta IA « recommande vivement » l’utilisation d’une plateforme qui, comme IBM watsonx, offre des fonctionnalités essentielles pour l’évaluation des modèles, les garde-fous de sécurité et la génération augmentée de récupération (RAG).
Le modèle 405B tant attendu est peut-être l'aspect le plus remarquable de la version 3.1 de Llama, mais il est loin d'être le seul. Si les modèles Llama 3.1 partagent la même architecture de transformateur dense que Llama 3, ils présentent plusieurs améliorations significatives par rapport à leurs homologues Llama 3, et ce pour toutes les tailles de modèles.
Pour tous les modèles Llama 3.1 pré-entraînés et optimisés pour l'enseignement, la longueur du contexte a été considérablement étendue, passant de 8 192 tokens dans Llama 3 à 128 000 tokens dans Llama 3.1, soit une augmentation impressionnante de 1 600 %. La longueur de contexte de Llama 3.1 est ainsi équivalente à celle de la version de GPT-4o proposée aux utilisateurs professionnels, nettement supérieure à celle de GPT-4 (ou de la version de GPT-4o dans ChatGPT Free) et comparable à la fenêtre de 200 000 tokens offerte par Claude 3. Comme Llama 3.1 peut être déployé sur le matériel de l'utilisateur ou le fournisseur de cloud de son choix, sa longueur de contexte n'est pas soumise à des restrictions temporaires pendant les périodes de forte demande. De même, Llama 3.1 n’est généralement pas soumis à de larges limites d’utilisation.
La longueur du contexte d'un modèle, également appelée fenêtre contextuelle, fait référence à la quantité totale de texte (en tokens) qu'un LLM peut prendre en compte ou « mémoriser » à un moment donné. Lorsqu'une conversation, un document ou une base de code dépasse la longueur de contexte maximale d'un modèle, il doit être raccourci ou résumé pour que le modèle puisse continuer. Avec Llama 3.1, dont la fenêtre contextuelle a été élargie, les modèles Llama peuvent désormais entretenir des conversations beaucoup plus longues sans oublier les détails et ingérer des documents ou des échantillons de code beaucoup plus volumineux pendant l'entraînement et l'inférence.
Bien que la conversion du texte en tokens n'implique pas un « taux de change » fixe entre les mots et les tokens, une estimation décente serait d'environ 1,5 tokens par mot. La fenêtre de contexte de 128 000 tokens de Llama 3.1 équivaut donc à environ 85 000 mots. L’espace Tokenizer Playground sur Hugging Face est un moyen facile de voir et d’examiner comment différents modèles tokenisent les entrées textuelles.
Les modèles Llama 3.1 continuent de bénéficier des avantages du nouveau tokenizer déployé pour Llama 3, qui code le langage de manière bien plus efficace que Llama 2.
Conformément à son approche responsable de l'innovation, Meta a fait preuve de prudence et de rigueur dans son approche de l'extension de la longueur du contexte. Il convient de noter que les précédentes initiatives expérimentales open source ont donné naissance à des dérivés de Llama avec 128 000 tokens, ou même 1 million de tokens. Bien que ces projets soient un excellent exemple des avantages de l’engagement de Meta envers les modèles ouverts, ils doivent être abordés avec prudence : des recherches récentes indiquent que de très larges fenêtres contextuelles « offrent une nouvelle surface d'attaque riche pour les LLM » en l'absence de contre-mesures strictes.
Heureusement, la version Llama 3.1 inclut également un nouvel ensemble de barrières d’inférence. Parallèlement aux versions mises à jour de Llama Guard et CyberSec Eval, la version est soutenue par l’introduction de prompt Guard, qui offre un filtrage par injection directe et indirecte de prompt. Meta offre une atténuation supplémentaire des risques avec CodeShield, un outil efficace de filtrage du temps d’inférence conçu pour éviter l’introduction de code non sécurisé généré par les LLM dans les systèmes de production.
Comme pour toute mise en œuvre d'une IA générative, il est toujours judicieux de ne déployer des modèles que sur une plateforme dotée de mesures de sécurité, de confidentialité et de sûreté efficaces.
Les modèles Llama 3.1 pré-entraînés et avec réglage des instructions, toutes tailles confondues, seront désormais multilingues. Outre l'anglais, les modèles Llama 3.1 maîtrisent d'autres langues, notamment l'espagnol, le portugais, l'italien, l'allemand et le thaï. Meta a remarqué que « quelques autres langues » sont encore en phase de validation post-entraînement et pourraient être disponibles prochainement.
Les modèles Llama 3.1 Instruct sont adaptés à l'utilisation d'outils, ce qui signifie que Meta a optimisé leur capacité à s'interfacer avec certains programmes qui complètent ou étendent les capacités du LLM. Cela inclut un entraînement à la génération d'appels d'outils pour des recherches spécifiques, la génération d'images, l'exécution de code et des outils de raisonnement mathématique, ainsi que la prise en charge de l'utilisation d'outils zero-shot, c'est-à-dire la capacité à s'intégrer de manière fluide à des outils jamais utilisés auparavant lors de l'entraînement.
La dernière version de Meta vous offre une occasion sans précédent d’adapter des modèles d’IA générative de pointe à votre cas d’utilisation spécifique.
La prise en charge de Llama 3.1 s'inscrit dans le cadre de l'engagement d'IBM à promouvoir l'innovation open source dans le domaine de l'IA et à fournir à nos clients l'accès aux meilleurs modèles ouverts de watsonx, y compris les modèles tiers et la famille de modèles IBM Granite.
IBM watsonx permet aux clients de personnaliser véritablement la mise en œuvre de modèles open source comme Llama 3.1 de la manière qui correspond le mieux à leurs besoins, de la flexibilité de déployer des modèles sur site ou dans leur environnement cloud préféré à des workflows intuitifs pour le réglage, le prompt engineering et l’intégration avec des applications d’entreprise. Créez facilement des applications d’IA adaptées aux besoins de votre entreprise, gérez toutes vos sources de données et accélérez vos workflows d’IA responsable, le tout sur une seule et même plateforme.
Llama 3.1-405B sera disponible dès aujourd'hui sur IBM watsonx.ai, avec les modèles 8B et 70B qui suivront prochainement.
Commencez dès aujourd'hui à créer des tutoriels RAG avec Llama 3.1-405B et watsonx.ai :
[1] Les évaluations de référence citées pour les modèles propriétaires sont tirées des chiffres déclarés par Anthropic le 20 juin 2024 (pour Claude 3.5 Sonnet et Claude 3 Opus) et le 4 mars 2024 (pour Claude 3 Sonnet et Haiku), OpenAI le 13 mai 2024 (pour les modèles GPT) et Google Deepmind en mai 2024 (pour les modèles Gemini).