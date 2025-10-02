Hier die wichtigsten Informationen auf einen Blick:
Der Start von Granite 4.0 leitet eine neue Ära für IBMs Familie unternehmensreifer großer Sprachmodelle ein, die innovative architektonische Fortschritte nutzt, um kleine, effiziente Sprachmodelle zu fördern, die wettbewerbsfähige Leistung bei geringeren Kosten und geringerer Latenz bieten. Die Granite-4.0-Modelle wurden mit besonderem Fokus auf wesentliche Aufgaben für agentische Workflows entwickelt: sowohl für eigenständige Bereitstellungen als auch als kosteneffiziente Bausteine in komplexen Systemen neben größeren Denkmodellen.
Die Granite-4.0-Sammlung umfasst mehrere Modellgrößen und Architekturstile, um eine optimale Leistung über eine Vielzahl von Hardwarebeschränkungen hinweg zu ermöglichen, darunter:
Granite 4.0-H Small ist ein vielseitiges Modell für starke, kostengünstige Leistung bei Unternehmensworkflows wie Multitool-Agenten und der Automatisierung des Kundensupports. Die Modelle Tiny und Micro sind für Anwendungen mit geringer Latenz, Edge und lokale Anwendungen konzipiert und können auch als Baustein innerhalb größerer agentischer Workflows dienen, um wichtige Aufgaben wie Funktionsaufrufe schnell auszuführen.
Die Benchmark-Leistung von Granite 4.0 zeigt erhebliche Verbesserungen im Vergleich zu früheren Generationen – selbst die kleinsten Granite-4.0-Modelle übertreffen das Granite 3.3 8B deutlich, obwohl sie weniger als halb so groß sind – doch ihre bemerkenswerteste Stärke ist eine erhebliche Steigerung der Inferenzeffizienz. Im Vergleich zu herkömmlichen LLMs benötigen unsere hybriden Granite-4.0-Modelle deutlich weniger RAM, insbesondere bei Aufgaben mit langen Kontextlängen (wie dem Aufnehmen einer großen Codebasis oder umfangreicher Dokumentation) und mehreren Sitzungen gleichzeitig (wie ein Kundenservicemitarbeiter, der viele detaillierte Benutzeranfragen gleichzeitig bearbeitet).
Vor allem aber führt die drastische Reduzierung des Speicherbedarfs von Granite 4.0 zu einer ebenso drastischen Senkung der Kosten für die Hardware, die für die Ausführung umfangreicher Workloads mit hoher Inferenzgeschwindigkeit benötigt wird. Unser Ziel ist es, die Eintrittsbarrieren zu senken, indem wir Unternehmen und Open-Source-Entwicklern gleichermaßen einen kostengünstigen Zugang zu äußerst wettbewerbsfähigen LLMs bieten.
Die Priorisierung von IBM der praktischen Inferenzeffizienz auf jeder Hardware geht einher mit unserem Fokus auf die Sicherheit und Transparenz unseres Modell-Ökosystems. Nach einer umfangreichen, monatelangen externen Prüfung des KI-Entwicklungsprozesses hat IBM Granite kürzlich als einzige offene Sprachmodellfamilie die ISO-42001-Zertifizierung erhalten und damit den weltweit ersten internationalen Standard für Verantwortlichkeit, Erklärbarkeit, Datenschutz und Zuverlässigkeit in KI-Managementsystemen (AIMS) erfüllt. Diese grundlegende Vertrauenswürdigkeit wird durch unsere jüngste Partnerschaft mit HackerOne bei einem Bug-Bounty-Programm für Granite sowie durch unsere neue Praxis der kryptografischen Signatur aller auf Hugging Face verfügbaren 4.0-Modell-Checkpoints weiter gestärkt (so können Entwickler und Unternehmen die Herkunft und Authentizität der Modelle sicherstellen).
Ausgewählte Unternehmenspartner, darunter EY und Lockheed Martin, erhielten frühzeitig Zugriff, um die Funktionen von Granite 4.0 bei wichtigen Anwendungsfällen im großen Maßstab zu testen. Das Feedback dieser Early-Release-Partner sowie das der Open-Source-Community wird genutzt, um die Modelle für zukünftige Updates zu verbessern und zu optimieren.
Die heutige Version enthält sowohl Base - als auch die Instruct-Varianten von Micro, Tiny und Small. Weitere Modellgrößen (sowohl größer als auch kleiner) sowie Varianten mit expliziter Unterstützung der Schlussfolgerungen sind bis Ende 2025 geplant.
Die hybriden Granite-4.0-Modelle sind deutlich schneller und speichereffizienter als vergleichbare Modelle, die mit Standard-Transformer-Architekturen aufgebaut sind. Die Granite-4-Hybrid-Architektur kombiniert eine kleine Anzahl standardmäßiger Transformator-ähnlicher Aufmerksamkeitsschichten mit einer Mehrheit von Mamba-Schichten – genauer gesagt Mamba-2. Mamba verarbeitet die Nuancen der Sprache auf eine Weise, die sich völlig von der herkömmlichen Sprachmodelle unterscheidet und deutlich effizienter ist.
Die GPU-Speicheranforderungen von LLMs werden oft anhand der Menge an RAM angegeben, die nur zum Laden der Modellgewichte benötigt wird. Viele Anwendungsfälle in Unternehmen – insbesondere solche, die eine groß angelegte Bereitstellung, agentische KI in komplexen Umgebungen oder RAG-Systeme betreffen – erfordern jedoch lange Kontexte, Batch-Inferenz mehrerer gleichzeitiger Modellinstanzen oder beides. Im Einklang mit IBMs Fokus auf Praxistauglichkeit im Unternehmensumfeld haben wir Granite 4 mit Blick auf lange Kontexte und parallele Sitzungen evaluiert und optimiert.
Im Vergleich zu herkömmlichen transformatorbasierten Modellen kann Granite 4.0-H den RAM-Bedarf um über 70 % reduzieren, der für die Verarbeitung langer Eingaben und mehrerer gleichzeitiger Batches erforderlich ist.
Die hybriden Granite 4.0-Modelle sind mit AMD Instinct™ MI-300X-GPUs kompatibel, was ihren Speicherbedarf weiter reduziert.
Herkömmliche LLMs haben Schwierigkeiten, den Durchsatz aufrechtzuerhalten, wenn die Kontextlänge oder die Batch-Größe zunimmt. Unsere Hybridmodelle beschleunigen ihre Ausgabe weiter – selbst bei Workloads, bei denen die meisten Modelle nur noch schleppend arbeiten oder die Hardwarekapazität überschreiten. Je mehr man ihnen abverlangt, desto deutlicher zeigen sich ihre Vorteile.
IBM hat mit Qualcomm Technologies, Inc. und Nexa AI zusammengearbeitet, um die Kompatibilität der Granite-4.0-Modelle mit Hexagon™-NPUs1 sicherzustellen, um die Inferenzgeschwindigkeit für die On-Device-Bereitstellungen auf Smartphones und PCs weiter zu optimieren.
Der tatsächliche Nutzen dieser Effizienzvorteile beruht natürlich darauf, dass die Qualität der Ausgaben der Granite-4.0-Modelle mit der von Modellen in oder über ihren jeweiligen Gewichtungsklassen konkurrieren kann – insbesondere bei Benchmarks, die die Leistung bei zentralen Aufgaben der agentischen KI bewerten, etwa bei der Befolgung von Anweisungen und bei Funktionsaufrufen.
Alle Granite-4.0-Modelle bieten im Vergleich zur vorherigen Generation der Granite-Modelle durchgängige erhebliche Leistungsverbesserungen. Während die neue Granite-Hybridarchitektur zur Effizienz und Wirksamkeit des Modelltrainings beiträgt, beruhen die meisten Verbesserungen der Modellgenauigkeit auf Fortschritten in unseren Trainings- und Nachtrainingsmethoden sowie auf der kontinuierlichen Erweiterung und Verfeinerung des Granite-Trainingsdatenkorpus. Aus diesem Grund übertrifft selbst der Granite 4.0-Micro, der auf einer konventionellen Transformer-Architektur basiert, die den früheren Granite-Modellen ähnelt, das Granite 3.3 8B deutlich.
Er zeichnet sich insbesondere bei Aufgaben aus, für die Unternehmensanwendungen und agentische Workflows wichtig sind. Wie von Stanford HELM bewertet, übertrifft Granite-4.0-H-Small alle offenen Modelle mit Gewichten (mit Ausnahme der Llama 4 Maverick, einem Modell mit 402 Mrd. Parametern, das mehr als 12-mal so groß ist) im IFEval-Benchmark, einem weit verbreiteten Test zur Bewertung der Fähigkeit eines Modells, expliziten Anweisungen zu folgen.
In vielen agentischen Workflows ist es entscheidend, dass Anweisungen nicht nur zuverlässig befolgt, sondern auch präzise in effektive Tool-Aufrufe umgesetzt werden. Zu diesem Zweck kann Granite-4.0-H-Small mit deutlich größeren Modellen, sowohl offenen als auch geschlossenen, beim Berkeley Function Calling Leaderboard v3 (BFCLv3) Schritt halten. Und das zu einem Preis, der in dieser Leistungsklasse unübertroffen ist.
Granite 4.0 überzeugt außerdem im MTRAG-Benchmark, der Leistung und Zuverlässigkeit bei komplexen Retrieval-Augmented-Generation-(RAG)-Aufgaben misst, die mehrere Runden, unbeantwortbare oder abhängige Fragen sowie Informationen aus mehreren Domänen umfassen.
Zusätzliche Bewertungsmetriken sind auf den Hugging-Face-Modellkarte von Granite 4.0 verfügbar.
Bei allen Granite-Modellen stehen Sicherheit, Schutz und verantwortungsvolle Governance im Mittelpunkt.
Anfang dieses Monats wurde IBM Granite als erste offene Sprachmodellfamilie nach ISO/IEC 42001:2023 akkreditiert – ein Nachweis, dass Granite mit internationalen Best Practices für sichere und verantwortungsvolle KI entspricht und dass das KI-Managementsystem (AIMS) von IBM den höchsten Prüfkriterien genügt. Unternehmen können daher auch in stark regulierten Branchen und geschäftskritischen Umgebungen zuverlässig auf Granite-4.0-Modellen setzen.
Wie alle Granite-Modelle wurden auch die Granite-4.0-Modelle vollständig auf sorgfältig kuratierten, ethisch beschafften und Unternehmens-freigegebenen Daten trainiert. In Anerkennung unseres vollständigen Vertrauens in die Vertrauenswürdigkeit unserer Modelle bietet IBM eine unbegrenzte Haftungsfreistellung für IP-Ansprüche Dritter in Bezug auf Inhalte, die von Granite-Modellen auf IBM watsonx.ai generiert werden.
Neben unseren umfangreichen internen Tests und Red-Teaming hat IBM kürzlich auch eine Partnerschaft mit HackerOne geschlossen, um ein Bug-Bounty-Programm für Granite zu starten, das bis zu 100.000 US-Dollar für die Identifizierung unvorhergesehener Fehler, Fehlermodi oder Schwachstellen im Hinblick auf Jailbreaking und andere gegnerische Angriffe bietet. Alle derartigen wertvollen Informationen, die von Forschern im Rahmen des Bug-Bounty-Programms aufgedeckt werden, fließen in laufende Verbesserungen und Aktualisierungen der Sicherheit unserer Modelle ein – insbesondere durch die Generierung synthetischer Daten zur Verbesserung der Modellausrichtung.
IBM legt besonderen Wert auf die Sicherheit und den Schutz nicht nur unserer Modelle selbst, sondern auch der Modellvertriebskette. Zu diesem Zweck hat IBM die neuartige Praxis eingeführt, alle Granite-4-Modelle vor der Veröffentlichung kryptografisch zu signieren: Alle Granite-Modell-Checkpoints werden nun mit einer model.sig-Datei ausgeliefert, um eine einfache, öffentliche Überprüfung der Herkunft der Granite-Modelle zu ermöglichen und ihre Integrität sowie Authentizität sicherzustellen.
Trotz ihrer vielen Vorteile habenTransformer-Modelle einen kritischen Nachteil: Ihr Rechenaufwand skaliert quadratisch mit der Sequenzlänge. Wenn sich die Kontextlänge verdoppelt, vervierfacht sich die Anzahl der Berechnungen, die ein Transformer-Modell durchführen (und speichern) muss. Dieser „quadratische Engpass“ verringert unweigerlich die Geschwindigkeit und erhöht die Kosten, wenn die Kontextlänge zunimmt. Bei langen Kontexten kann die RAM-Kapazität selbst von High-End-Consumer-GPUs schnell erschöpft sein.
Während Transformer auf Selbstaufmerksamkeit angewiesen sind, verwendet Mamba einen völlig anderen Selektivitätsmechanismus, der von Natur aus effizienter ist. Der Rechenaufwand von Mamba skaliert linear mit der Sequenzlänge: Wenn sich der Kontext verdoppelt, führt Mamba nur die doppelte - nicht die vierfache - Anzahl der Berechnungen durch. Noch besser: Die Speicheranforderungen von Mamba bleiben unabhängig von der Sequenzlänge konstant. Je mehr Arbeit in ein Mamba-Modell gesteckt wird, desto größer sind seine Vorteile gegenüber Transformern.
Nichtsdestotrotz haben Transformer und Selbstaufmerksamkeit weiterhin Vorteile gegenüber Mamba und Mamba-2, insbesondere bei Aufgaben. die kontextbasiertes Lernen erfordern (wie z. B.Few-Shot-Prompting). Glücklicherweise bietet die Kombination beider Lösungen in einem Hybridmodell das Beste aus beiden Welten. Weitere Einblicke finden Sie in unserer Vorschau von Granite-4.0-Tiny-Preview.
Die Architektur hinter Granite 4.0-H-Micro, Granite 4.0-H-Tiny und Granite 4.0-H-Small kombiniert Mamba-2-Schichten und konventionelle Transformatorblöcke nacheinander im Verhältnis 9:1. Im Wesentlichen verarbeiten die Mamba-2-Blöcke den globalen Kontext effizient und leiten diese Kontextinformationen periodisch durch einen Transformer-Block, der den lokalen Kontext durch Selbstaufmerksamkeit nuanciert analysiert, bevor er an die nächste Gruppe von Mamba-2-Schichten weitergegeben wird.
Es ist erwähnenswert, dass der größte Teil der weltweiten LLM-Infrastruktur in der Vergangenheit auf reine Transformer-Modelle zugeschnitten war. Nach dem experimentellen Start von Granite 4.0-Tiny-Preview Anfang dieses Jahres haben wir intensiv mit Ökosystempartnern zusammengearbeitet, um Unterstützung für die Granite 4 Hybrid-Architektur in Inferenz-Frameworks wie vLLM, llama.cpp, NexaML und MLX für die heutige Veröffentlichung sicherzustellen.
Granite-4.0-H-Tiny und Granite-4.0-H-Small leiten die Ausgabe jedes Mamba-2- und Transformer-Blocks an einen feingranularen Mixture-of-Experts-Block (MoE) weiter (dessen Spezifikationen sich seit Granite-4.0-Tiny-Preview leicht geändert haben). Während feinkörnige MoEs seit der Veröffentlichung von Granite 3.0 im Jahr 2024 ein aktives Forschungsfeld bei IBM sind, sind Tiny und Small die ersten MoEs mit gemeinsam genutzten Experten , die immer aktiviert sind. Sie verbessern die Parametereffizienz und ermöglichen den anderen „Experten“, spezialisiertes Wissen zu entwickeln.
Granite 4.0-H-Micro verwendet konventionelle dichte Feedforward-Schichten anstelle von MoE-Blöcken, spiegelt aber ansonsten die Architektur von Tiny und Small wider.
Ein besonders spannender Aspekt von State-Space-Model (SSM)-basierten Sprachmodellen wie Mamba ist ihr theoretisches Potenzial, unendlich lange Sequenzen zu verarbeiten. Alle Granite 4.0-Modelle wurden auf Datenproben mit einer Kontextlänge von bis zu 512.000 Token trainiert. Die Leistung wurde für Aufgaben mit einer Kontextlänge von bis zu 128.000 Token validiert, theoretisch kann die Kontextlänge jedoch noch größer.
In Standard-Transformermodellen ist das maximale Kontextfenster durch die Grenzen der Positionskodierung eingeschränkt. Da ein Transformer alle Tokens gleichzeitig verarbeitet, werden Reihenfolgeinformationen nicht direkt gespeichert. Positionskodierung (PE) fügt diese Informationen wieder hinzu. Einige Studienergebnisse zeigen, dass Modelle mit gängigen PE-Techniken wie rotary positional encoding (RoPE) bei Sequenzen, die länger sind als die im Training gesehenen, Schwierigkeiten haben.2
Die Granite 4.0-Architektur verwendet keine Positionskodierung (NoPE). Wir haben festgestellt, dass sie sie nicht benötigen: Mamba bewahrt die Reihenfolge der Tokens von Natur aus, da sie diese nacheinander „liest“.
Alle Granite 4.0-Modelle werden anhand von Beispielen aus demselben sorgfältig zusammengestellten 22T-Token-Korpus unternehmensorientierter Trainingsdaten trainiert, unter Nutzung derselben verbesserten Pre-Training-Methoden des identischen Post-Training-Regimes und derselben Chat-Vorlagen.
Granite 4.0 wurde auf einer breiten Auswahl kuratierter Daten aus DataComp-LM (DCLM), GneissWeb, TxT360-Subsets, Wikipedia und anderen unternehmensrelevanten Quellen trainiert. Anschließend wurden die Modelle nachtrainiert, um Unternehmensaufgaben besonders gut zu bewältigen, unter Verwendung synthetischer und offener Datensätze in Bereichen wie Sprache, Code, Mathematik und Argumentation, Mehrsprachigkeit, Sicherheit, Tool-Aufrufe, RAG und Cybersicherheit. Alle Trainings-Datensätze wurden mit dem Open-Source-Framework Data Prep Kit vorbereitet.
Eine bemerkenswerte Abkehr von früheren Granite-Modellen ist die Entscheidung, unsere nachtrainierten Granite-4.0-Modelle in separate anweisungsoptimierte (heute veröffentlichte) und argumentationsbasierte (im Herbst dieses Jahres veröffentlichte) Variante aufzuteilen. in Übereinstimmung mit aktuellen Branchenbefunden zeigte unser Training, dass die Aufteilung in Instruct-Modelle und Thinking-Modelle zu besserer Leistung bei Anweisungsbefolgung bzw. komplexer Argumentation führt. Dies vereinfacht außerdem die Chat-Vorlagen für beide Varianten.
Später in diesem Herbst werden die „Thinking“-Gegenstücke zu den Base- und Instruct-Varianten von Granite 4.0 veröffentlicht, deren Post-Training für komplexe logikbasierte Aufgaben noch läuft.
Bis Ende des Jahres planen wir die Veröffentlichung zusätzlicher Modellgrößen, darunter nicht nur Granite 4.0 Medium, sondern auch Granite 4.0 Nano, eine Reihe deutlich kleinerer Modelle, die (unter anderem) für die Inferenz auf Edge-Geräten entwickelt wurden.
Granite 4.0 Modelle stehen jetzt über ein breites Spektrum von Plattformanbietern und Inferenz-Frameworks zur Verfügung – sowohl als schnelle und effiziente eigenständige Arbeitsmodelle als auch als wichtige Bausteine von Ensemble-Workflows neben führenden großen Modellen. Sie können sie auch auf dem Granite Playground ausprobieren.
Die neue Granite-Hybrid-Architektur bietet vollständige, optimierte Unterstützung in vLLM 0.10.2 und Hugging Face Transformers. Die Granite Hybrid-Architektur wird auch in llama.cpp und MLX unterstützt, obwohl die Arbeit an der vollständigen Optimierung des Durchsatzes in diesen Laufzeiten noch andauert. Wir danken unseren Ökosystempartnern für ihre Zusammenarbeit und hoffen, dass unsere Arbeit weitere Experimente mit Hybridmodellen erleichtert.
Granite 4.0 Instruct-Modelle sind jetzt in IBM watsonx.ai verfügbar, dem integrierten KI-Entwicklungsstudio von IBM, das die KI-Bereitstellung einfach und skalierbar macht. Granite 4.0 Instruct-Modelle sind auch über Plattformpartner erhältlich, darunter–alphabetisch –Dell Enterprise (auf Dell Pro AI Studio und Dell Enterprise Hub), Docker Hub, Hugging Face, Kaggle, LM Studio NVIDIA NIM, Ollama, OPAQUE und Replicate. Granite 4.0 Base-Modelle sind über Hugging Face erhältlich.
Granite 4.0 Modelle werden auch in Unsloth für eine schnelle, speichereffiziente Feinabstimmung unterstützt und können in Continue genutzt werden, um angepasste KI-Coding-Assistenten zu unterstützen.
Anleitungen und Rezepte in Granite Docs helfen beim Einstieg, inklusive hilfreicher Tutorials wie:
Greifen Sie auf umfassende Granite-Tutorials, Erkenntnisse und Ressourcen an einem Ort zu.
Starten Sie mit watsonx.ai und entdecken Sie die praktischen Tutorials und Experteneinblicke von IBM Developer.
Entdecken Sie die Lernveranstaltung für Entwickler und Technologen auf Mission.
Sehen Sie sich unsere umfassende Sammlung an Inhalten zu KI-Agenten an, beispielsweise lehrreiche Erläuterungen, praktische Tutorials, Podcast-Episoden und vieles mehr.
Erfahren Sie, warum IBM im Gartner Magic Quadrant™ for Data Science and Machine Learning Platforms 2025 als führend eingestuft wurde.
Erkunden Sie leicht nutzbare Rezepte (Python-Notebooks), die die Funktionen der Granite-Modelle präsentieren.
Kleine Open-Source-Sprachmodelle, die Leistung und Transparenz auf Unternehmensniveau zu einem wettbewerbsfähigen Preis bieten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
Lernen Sie Granite kennen, unsere Familie von KI-Modellen, die speziell für Unternehmen entwickelt wurden und von Grund auf so konzipiert sind, dass sie Vertrauen und Skalierbarkeit in KI-gestützten Anwendungen gewährleisten.
1. Produkte der Marke Qualcomm sind Produkte von Qualcomm Technologie, Inc. und/oder deren Tochtergesellschaften. Qualcomm Hexagon ist eine Marke oder eingetragene Marke von Qualcomm Incorporated.
3. „ The Impact of Positional Encoding on Length Generalization in Transformers “, arXiv, 6. November 2023