L’architecture de mélange d’experts (MoE) vise à équilibrer la capacité de connaissance des plus grands modèles avec l’efficacité d’inférence des plus petits modèles en subdivisant les couches du réseau neuronal du modèle en plusieurs « experts ». Plutôt que d’activer chaque paramètre de modèle pour chaque token, les modèles MoE utilisent une fonction de contrôle qui active uniquement les experts les mieux adaptés au traitement de ce token.

Llama 4 Scout, le plus petit des deux nouveaux modèles avec 109 milliards de paramètres au total, est divisé en 16 experts. Au moment de l’inférence, il présente seulement 17 milliards de paramètres actifs, ce qui lui permet de servir plus d’utilisateurs en parallèle. Entraîné sur 40 000 milliards de tokens de données, Llama 4 Scout offre des performances qui rivalisent ou dépassent celles des modèles avec un nombre de paramètres actifs beaucoup plus important, tout en réduisant les coûts et la latence. Malgré ces exigences en matière de calcul, Llama 4 Scout surpasse les modèles comparables en matière de codage, de raisonnement, de longue fenêtre de contexte et de benchmark de compréhension des images.

Le modèle Llama 4 Maverick est divisé en 128 experts puisant dans la connaissance de ses 400 milliards de paramètres, tout en maintenant 17 milliards de paramètres actifs, à l’image de Llama 4 Scout. Selon l’annonce officielle de Meta AI, Llama 4 Maverick surpasse GPT-4o d’OpenAI et Gemini 2.0 Flash de Google, « dans l’ensemble », sur un large éventail de références multimodales, et rivalise avec les performances de raisonnement et de codage de DeepSeek-V3, un outil beaucoup plus performant en matière de tâches de raisonnement et de codage.