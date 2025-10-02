Der Start von Granite 4.0 leitet eine neue Ära für IBMs Familie unternehmensreifer großer Sprachmodelle ein, die innovative architektonische Fortschritte nutzt, um kleine, effiziente Sprachmodelle zu fördern, die wettbewerbsfähige Leistung bei geringeren Kosten und geringerer Latenz bieten. Die Granite-4.0-Modelle wurden mit besonderem Fokus auf wesentliche Aufgaben für agentische Workflows entwickelt: sowohl für eigenständige Bereitstellungen als auch als kosteneffiziente Bausteine in komplexen Systemen neben größeren Denkmodellen.

Die Granite-4.0-Sammlung umfasst mehrere Modellgrößen und Architekturstile, um eine optimale Leistung über eine Vielzahl von Hardwarebeschränkungen hinweg zu ermöglichen, darunter:

Granite-4.0-H-Small, ein hybrides Mixture-of-Experts-Modell (MoE) mit insgesamt 32 Mrd. Parametern (9 Mrd. aktiv)

ein hybrides Mixture-of-Experts-Modell (MoE) mit insgesamt 32 Mrd. Parametern (9 Mrd. aktiv) Granite-4.0-H-Tiny, ein hybrides MoE mit insgesamt 7 Mrd. Parametern (1 Mrd. aktiv)

ein hybrides MoE mit insgesamt 7 Mrd. Parametern (1 Mrd. aktiv) Granite-4.0-H-Micro, ein dichtes Hybridmodell mit 3 Mrd. Parametern.

ein dichtes Hybridmodell mit 3 Mrd. Parametern. Diese Version enthält außerdem Granite-4.0-Micro, ein dichtes 3B-Modell mit einer konventionellen aufmerksamkeitsgesteuerten Transformer-Architektur, um Plattformen und Communitys zu berücksichtigen, die noch keine hybriden Architekturen unterstützen.

Granite 4.0-H Small ist ein vielseitiges Modell für starke, kostengünstige Leistung bei Unternehmensworkflows wie Multitool-Agenten und der Automatisierung des Kundensupports. Die Modelle Tiny und Micro sind für Anwendungen mit geringer Latenz, Edge und lokale Anwendungen konzipiert und können auch als Baustein innerhalb größerer agentischer Workflows dienen, um wichtige Aufgaben wie Funktionsaufrufe schnell auszuführen.

Die Benchmark-Leistung von Granite 4.0 zeigt erhebliche Verbesserungen im Vergleich zu früheren Generationen – selbst die kleinsten Granite-4.0-Modelle übertreffen das Granite 3.3 8B deutlich, obwohl sie weniger als halb so groß sind – doch ihre bemerkenswerteste Stärke ist eine erhebliche Steigerung der Inferenzeffizienz. Im Vergleich zu herkömmlichen LLMs benötigen unsere hybriden Granite-4.0-Modelle deutlich weniger RAM, insbesondere bei Aufgaben mit langen Kontextlängen (wie dem Aufnehmen einer großen Codebasis oder umfangreicher Dokumentation) und mehreren Sitzungen gleichzeitig (wie ein Kundenservicemitarbeiter, der viele detaillierte Benutzeranfragen gleichzeitig bearbeitet).

Vor allem aber führt die drastische Reduzierung des Speicherbedarfs von Granite 4.0 zu einer ebenso drastischen Senkung der Kosten für die Hardware, die für die Ausführung umfangreicher Workloads mit hoher Inferenzgeschwindigkeit benötigt wird. Unser Ziel ist es, die Eintrittsbarrieren zu senken, indem wir Unternehmen und Open-Source-Entwicklern gleichermaßen einen kostengünstigen Zugang zu äußerst wettbewerbsfähigen LLMs bieten.