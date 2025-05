Glücklicherweise schließen sich die jeweiligen Stärken von Transformern und Mamba nicht gegenseitig aus. Im ursprünglichen Mamba-2-Paper selbst schlagen die Autoren Dao und Gu vor, dass ein hybrides Modell die Leistung eines reinen Transformers oder SSM übertreffen könnte – eine Annahme, die durch eine NVIDIA-Studie aus dem letzten Jahr (PDF) bestätigt wird. Um dies weiter zu untersuchen, arbeitete IBM Research mit Dao und Gu selbst sowie mit Minjia Zhang von der University of Illinois in Urbana-Champaign (UIUC) an Bamba und Bamba V2 zusammen. Bamba wiederum hat viele der architektonischen Elemente von Granite 4.0 beeinflusst.

Die Granite 4.0 MoE-Architektur verwendet 9 Mamba-Blöcke für jeden Transformator-Block. Im Wesentlichen erfassen die Selektivitätsmechanismen der Mamba-Blöcke den globalen Kontext effizient, der dann an Transformer-Blöcke weitergegeben wird, die eine nuanciertere Analyse des lokalen Kontexts ermöglichen. Das Ergebnis ist eine drastische Reduzierung der Speichernutzung und Latenz ohne erkennbare Einbußen bei der Leistung.

Granite 4.0 Tiny verdoppelt diese Effizienzgewinne, indem es sie in ein kompaktes, differenziertes Mixture of Experts (MoE) Framework implementiert, das 7 Milliarden Gesamtparameter und 64 Experten umfasst und 1 Milliarde aktive Parameter zum Zeitpunkt der Inferenz ergibt. Weitere Informationen finden Sie in der Hugging Face-Modellkarte von Granite 4.0 Tiny Preview.