IBM freut sich, die Aufnahme von Metas neuester Generation offener Modelle, Llama 4, in watsonx.ai bekanntzugeben. Llama 4 Scout und Llama 4 Maverick, die ersten von Meta veröffentlichten Mixture-of-Experts-Modelle (MoE), bieten bahnbrechende multimodale Leistung, hohe Geschwindigkeiten, niedrige Kosten und branchenführende Kontextlänge.
Die Veröffentlichung von Llama 4 läutet eine neue Ära für die Llama-Reihe ein. Es handelt sich um eine aufregende Weiterentwicklung der Llama-Architektur und einen innovativen Ansatz zur Integration verschiedener Datenmodalitäten, einschließlich Text, Bild und Video, zu einem viel früheren Zeitpunkt im Prozess als bei herkömmlich trainierten Modellen. Beide neuen Modelle unterstützen eine Vielzahl von Text-in-, Text-out- und Bild-in- und Text-out-Anwendungsfällen.
Mit der Einführung dieser neuesten Angebote von Meta unterstützt IBM nun insgesamt 13 Meta-Modelle in der umfangreichen Bibliothek der Foundation Models, die in watsonx.ai verfügbar sind. Im Einklang mit der offenen Multi-Modell-Strategie von IBM für generative KI bieten wir unseren Plattform-Kunden weiterhin die leistungsfähigsten offenen Modelle auf dem Markt.
Die Architektur der Mixture of Experts (MoE, Mischung aus Experten) zielt darauf ab, die Wissenskapazität größerer Modelle mit der Inferenzeffizienz kleinerer Modelle in Einklang zu bringen, indem die Schichten des neuronalen Netzwerks des Modells in mehrere „Experten“ unterteilt werden. Anstatt jeden Modellparameter für jeden Token zu aktivieren, modelliert MoE mit einer Gating-Funktion, die nur die „Experten“ aktiviert, die am besten für die Verarbeitung dieses Tokens geeignet sind.
Llama 4 Scout, das kleinere der beiden neuen Modelle mit einer Gesamtparameterzahl von 109B, ist in 16 Experten unterteilt. Bei der Inferenz verfügt es über eine aktive Parameteranzahl von nur 17B, sodass mehr Benutzer parallel bedient werden können. Llama 4 Scout wurde mit 40 Billionen Token trainiert und bietet eine Leistung, die mit der von Modellen mit deutlich größeren aktiven Parametern mithalten kann oder diese übertrifft, während die Kosten und die Latenz niedrig bleiben. Trotz dieser schlanken Rechenanforderungen übertrifft Llama 4 Scout vergleichbare Modelle in Bezug auf Codierung, Argumentation, langen Kontext und Bildverständnis-Benchmarks.
Llama 4 Maverick ist in 128 Experten unterteilt, die auf das Wissen seiner 400B-Gesamtparameter zurückgreifen, während die gleiche Anzahl von 17B aktiven Parametern wie beim Llama 4 Scout beibehalten wird. Laut Meta AIs offizieller Ankündigung, schlägt Llama 4 Maverick OpenAIs GPT-4o und Googles Gemini 2.0 Flash „auf ganzer Linie“ auf einer breiten Palette von multimodalen Benchmarks und rivalisiert mit der Argumentations- und Codierungsleistung des viel größeren DeepSeek-V3 bei Argumentations- und Codierungsaufgaben.
Darüber hinaus bietet Llama 4 Scout ein branchenweit bestes Kontextfenster von 10 Millionen Token und behält gleichzeitig eine hervorragende Genauigkeit bei Long-Context-Benchmarks wie Needle-in-a-haystack (NiH) bei. Dieser beispiellose Sprung nach vorn eröffnet aufregende Möglichkeiten für die Zusammenfassung mehrerer Dokumente, das Nachdenken über umfangreiche Codebasen und die Personalisierung durch ein umfangreiches Gedächtnis der Benutzeraktivitäten.
Wie Meta in der Ankündigung erklärt, ist diese massive Erweiterung der Kontextlänge in erster Linie auf zwei Innovationen zurückzuführen: die Verwendung von verschachtelten Aufmerksamkeitsschichten ohne Einbetten und die Inferenz-Zeit-Temperaturskalierung des Aufmerksamkeitsmechanismus der Modelle. Diese neuartige Architektur, die Meta „iRope“ nennt, stellt einen wichtigen Schritt auf dem Weg zu Metas langfristigem Ziel dar, „unendliche“ Kontextlängen zu unterstützen.
Während große Sprachmodelle (LLMs) herkömmlicherweise ausschließlich auf Textdaten vortrainiert und anschließend nach dem Training an andere Datenmodalitäten (z. B. Bilddaten) angepasst werden, sind Llama-4-Modelle mit „nativer Multimodalität“ konzipiert. Auf diese Weise konnte Meta die Modelle gemeinsam mit großen Mengen an unbeschrifteten Text-, Bild- und Videodaten auf einmal trainieren und die Modelle effizient mit integriertem Wissen aus verschiedenen Quellen anreichern.
Das Training der Llama-4-Modelle umfasste die „Fusion“ verschiedener Datentypen in einem frühen Stadium der Verarbeitungspipeline und integrierte Text- und Vision-Tokens nahtlos, damit sie als ein einziges, einheitliches System trainieren können. Folglich bieten Llama 4 Maverick und Llama 4 Scout eine hervorragende Leistung bei einer Reihe von Bildverständnisaufgaben. Sie sind sowohl in der Lage, Text-Prompts, die sich auf mehrere Bilder beziehen, gleichzeitig anzusprechen als auch Modell-Responses auf bestimmte Regionen mit einem einzigen Bild zu verankern.
Entwickler und Unternehmen können ihr bevorzugtes Llama 4-Modell aus dem umfangreichen Katalog der Foundation Models auf IBM watsonx.ai auswählen und dann die Feinabstimmung vornehmen, destillieren und es in Cloud-, On-Premises- oder Edge-Umgebungen ihrer Wahl bereitstellen. IBM verbessert diese Flexibilität durch seine fortschrittliche KI-Infrastruktur, die nahtlose Verknüpfung mit Agent-Frameworks und die Kompatibilität mit Vektordatenbanken.
IBM watsonx rationalisiert die Entwicklung mit einer Suite aus Code-, Low-Code- und No-code-Tools in einem auf Unternehmen abgestimmten Studio, das den gesamten KI-Lebenszyklus unterstützt und gleichzeitig die teamübergreifende Zusammenarbeit fördert. IBM watsonx bietet außerdem eine robuste End-to-End-KI-Governance, die für verantwortungsvolle und beschleunigte Workflows sorgt. Durch die Nutzung seines umfassenden Know-hows im Bereich der technologischen Transformation liefert IBM in seiner Partnerschaft mit Meta maßgeschneiderte Strategien, um spezifische Unternehmensanforderungen effizient und effektiv zu erfüllen und die spezifischen Anforderungen der Unternehmen zu adressieren.
Erfahren Sie, wie Sie mit Meta Llama 4 auf watsonx.ai einen KI-Personaltrainer erstellen.
Nutzen Sie jetzt Llama-4-Modelle auf watsonx.ai.