Die Architektur der Mixture of Experts (MoE, Mischung aus Experten) zielt darauf ab, die Wissenskapazität größerer Modelle mit der Inferenzeffizienz kleinerer Modelle in Einklang zu bringen, indem die Schichten des neuronalen Netzwerks des Modells in mehrere „Experten“ unterteilt werden. Anstatt jeden Modellparameter für jeden Token zu aktivieren, modelliert MoE mit einer Gating-Funktion, die nur die „Experten“ aktiviert, die am besten für die Verarbeitung dieses Tokens geeignet sind.

Llama 4 Scout, das kleinere der beiden neuen Modelle mit einer Gesamtparameterzahl von 109B, ist in 16 Experten unterteilt. Bei der Inferenz verfügt es über eine aktive Parameteranzahl von nur 17B, sodass mehr Benutzer parallel bedient werden können. Llama 4 Scout wurde mit 40 Billionen Token trainiert und bietet eine Leistung, die mit der von Modellen mit deutlich größeren aktiven Parametern mithalten kann oder diese übertrifft, während die Kosten und die Latenz niedrig bleiben. Trotz dieser schlanken Rechenanforderungen übertrifft Llama 4 Scout vergleichbare Modelle in Bezug auf Codierung, Argumentation, langen Kontext und Bildverständnis-Benchmarks.

Llama 4 Maverick ist in 128 Experten unterteilt, die auf das Wissen seiner 400B-Gesamtparameter zurückgreifen, während die gleiche Anzahl von 17B aktiven Parametern wie beim Llama 4 Scout beibehalten wird. Laut Meta AIs offizieller Ankündigung, schlägt Llama 4 Maverick OpenAIs GPT-4o und Googles Gemini 2.0 Flash „auf ganzer Linie“ auf einer breiten Palette von multimodalen Benchmarks und rivalisiert mit der Argumentations- und Codierungsleistung des viel größeren DeepSeek-V3 bei Argumentations- und Codierungsaufgaben.