Llama 4 Maverick et Llama 4 Scout de Meta sont disponibles dans watsonx.ai

7 avril 2025

Auteur

Maryam Ashoori

Head of Product, watsonx.ai

IBM

IBM est ravi d’annoncer l’ajout de la dernière génération de modèles ouverts de Meta, Llama 4, à watsonx.ai. Llama 4 Scout et Llama 4 Maverick, le premier mélange de modèles d’experts (MoE) publié par Meta, offrent des performances multimodales exceptionnelles, des vitesses élevées, un faible coût et une longueur de contexte de pointe.

Le lancement de Llama 4 marque une nouvelle ère pour les modèles Llama, en introduisant à la fois une évolution passionnante de l’architecture Llama et une approche innovante pour intégrer différents types de modalités de données (texte, image, vidéo) bien plus tôt dans le processus que les modèles entraînés de façon conventionnelle. Les deux nouveaux modèles prennent en charge une grande variété de cas d’utilisation de texte entrant et sortant, ainsi que d’entrée et de sortie d’images.

Avec l’introduction de ces dernières offres de Meta, IBM prend désormais en charge un total de 13 modèles Meta dans la vaste bibliothèque de  modèles de fondation disponible dans watsonx.ai. Conformément à la stratégie ouverte et multi-modèle d’IBM pour l’IA générative, nous continuons à fournir aux utilisateurs de notre plateforme les modèles ouverts les plus performants disponibles actuellement sur le marché.

Architecture efficace

L’architecture de mélange d’experts (MoE) vise à équilibrer la capacité de connaissance des plus grands modèles avec l’efficacité d’inférence des plus petits modèles en subdivisant les couches du réseau neuronal du modèle en plusieurs « experts ». Plutôt que d’activer chaque paramètre de modèle pour chaque token, les modèles MoE utilisent une fonction de contrôle qui active uniquement les experts les mieux adaptés au traitement de ce token.

Llama 4 Scout, le plus petit des deux nouveaux modèles avec 109 milliards de paramètres au total, est divisé en 16 experts. Au moment de l’inférence, il présente seulement 17 milliards de paramètres actifs, ce qui lui permet de servir plus d’utilisateurs en parallèle. Entraîné sur 40 000 milliards de tokens de données, Llama 4 Scout offre des performances qui rivalisent ou dépassent celles des modèles avec un nombre de paramètres actifs beaucoup plus important, tout en réduisant les coûts et la latence. Malgré ces exigences en matière de calcul, Llama 4 Scout surpasse les modèles comparables en matière de codage, de raisonnement, de longue fenêtre de contexte et de benchmark de compréhension des images.

Le modèle Llama 4 Maverick est divisé en 128 experts puisant dans la connaissance de ses 400 milliards de paramètres, tout en maintenant 17 milliards de paramètres actifs, à l’image de Llama 4 Scout. Selon l’annonce officielle de Meta AI, Llama 4 Maverick surpasse GPT-4o d’OpenAI et Gemini 2.0 Flash de Google, « dans l’ensemble », sur un large éventail de références multimodales, et rivalise avec les performances de raisonnement et de codage de DeepSeek-V3, un outil beaucoup plus performant en matière de tâches de raisonnement et de codage.

Longueur de contexte de pointe

En outre, Llama 4 Scout offre une fenêtre contextuelle de 10 millions de tokens, tout en conservant une excellente précision sur les tests de performance de longues fenêtres tels que Needle-in-a-haystack (NIAH). Cette avancée sans précédent ouvre des opportunités passionnantes pour la synthèse de plusieurs documents, le raisonnement sur de vastes bases de code et la personnalisation grâce à une grande mémoire de l’activité utilisateur.

Comme l’explique l’annonce de Meta, cette augmentation massive de la longueur contextuelle provient principalement de deux innovations : l’utilisation de couches d’attention entrelacées sans plongements positionnels et l’échelle de température en fonction de l’inférence du mécanisme d’attention des modèles. Cette nouvelle architecture, que Meta appelle « iRope », représente une étape importante vers l’objectif à long terme de Meta de prendre en charge une longueur contextuelle « infinie ».

Multimodalité native

Alors que les grands modèles de langage (LLM) sont traditionnellement pré-entraînés exclusivement sur des données textuelles, puis adaptés à d’autres modalités de données (telles que les données d’image) lors du post-entraînement, les modèles Llama 4 sont conçus avec une « multimodalité native ». Cela a permis à Meta de pré-entraîner conjointement les modèles avec de grandes quantités de données texte, image et vidéo non étiquetées en même temps, enrichissant ainsi efficacement les modèles grâce à des connaissances intégrées provenant de diverses sources.

L’entraînement des modèles Llama 4 a intégré la « fusion » de différents types de données dès le début du processus de traitement, en intégrant parfaitement du texte et des tokens de vision pour leur permettre de s’entraîner en tant que système unifié unique. Par conséquent, Llama 4 Maverick et Llama 4 Scout offrent d’excellentes performances dans de nombreuses tâches de compréhension des images. Ils peuvent à la fois répondre à des prompts textuels relatifs à plusieurs images à la fois ou ancrer les réponses du modèle à des régions spécifiques avec une seule image.

Modèles Llama 4 sur IBM watsonx

Les développeurs et les entreprises peuvent sélectionner leur modèle Llama 4 préféré depuis le vaste catalogue de modèles de fondation sur IBM watsonx.ai puis l’affiner, le distiller et le déployer dans les environnements cloud, sur site ou edge de leur choix. IBM renforce cette flexibilité grâce à son infrastructure d’IA avancée, à son intégration transparente avec les cadres d’exigences des agents et à sa compatibilité avec les bases de données vectorielles.

IBM watsonx rationalise le développement avec une suite d’outils code, low-code et no-code dans un studio dédié aux entreprises qui prend en charge l’ensemble du cycle de vie d’IA tout en favorisant la collaboration entre les équipes. IBM watsonx fournit également une gouvernance d’IA robuste et complète, garantissant des workflows responsables et accélérés. S’appuyant sur son expertise approfondie en matière de transformation technologique, le partenariat d’IBM avec Meta fournit des stratégies sur mesure pour répondre efficacement aux besoins spécifiques des entreprises.

Découvrez comment concevoir un entraîneur personnel d’IA avec Llama 4 de Meta sur watsonx.ai.

Commencez à utiliser les modèles Llama 4 sur watsonx.ai dès aujourd’hui.