Hier die wichtigsten Informationen auf einen Blick:
Die heutige Einführung stellt eine weitere Erweiterung des multimodalen Speicherbedarfs von IBM Granite dar. Mit Granite Speech 8B, unserem ersten offiziellen Speech-to-Text-Modell, markiert Granite 3.3 den Beginn unserer Erkundung von Funktionen. Neben der jüngsten Hinzufügung von Visions- und Argumentationsfunktionen fährt IBM die Vielseitigkeit der Granite-Serie in den Anwendungsfällen in Unternehmen fort, die Kunden und die Open-Source-Community am meisten benötigen.
Zu Granite Speech 3.3 8B gesellen sich Granite 3.3 8B Instruct, das Large Language Model (LLM), das als Grundlage dient, und sein kleineres (2B) Gegenstück. Die verbesserte Raffinesse des Argumentationsprozesses der Textmodelle im Vergleich zu ihren Vorgängern und die neuen Fill-in-the-Middle-Funktionen (FIM) ermöglichen ein breiteres Spektrum an anwendbaren Anwendungsfällen, insbesondere im Bereich der Codierung.
Außerdem veröffentlichen wir eine aktualisierte und erweiterte Reihe von leistungssteigernden (und hauptsächlich auf RAG ausgerichteten) LoRA-Adaptern für das zuvor veröffentlichte Granite 3.2 8B Instruct-Modell im Rahmen von Granite Experiments, einem IBM Research-Playground zum Testen von Open-Source-Ideen. Weitere LoRA-Innovationen, darunter eine Suite von Adaptern für Granite 3.3 Instruct, werden in den kommenden Wochen auf den Markt kommen.
Granite Speech 3.3 8B ist ein kompaktes und kostengünstiges Audio- und Texteingabe-Modell für Textausgabe, das für den Einsatz in Unternehmensanwendungen vorgesehen ist, die Spracheingaben verarbeiten, und optimiert für automatische Spracherkennung (ASR) und automatische Sprachübersetzung (AST).
Bei Transkriptionsaufgaben liefert Granite Speech 3.3 durchweg eine höhere Genauigkeit als führende offene und geschlossene Modellkonkurrenten bei Tests mit mehreren bekannten öffentlichen Datensätzen.
Das Modell bietet auch eine automatisierte Übersetzung aus dem Englischen in eine Vielzahl von Sprachen, darunter Französisch, Spanisch, Italienisch, Deutsch, Portugiesisch, Japanisch und Mandarin. Bei IBM Tests der AST-Leistung konnte Granite Speech 3.3 8B mit führenden proprietären Modellen wie OpenAIs GPT-4o und Googles Gemini 2.0 Flash on Granite unterstützten Sprachen im CoVost-Datensatz Schritt halten. Weitere Informationen zur Übersetzungsleistung finden Sie in der Hugging Face-Modellkarte des Modells.
Architektonisch gesehen besteht Granite Speech 3.3 aus:
Im Gegensatz zu direkt integrierten Modellen, die Sprache und Text in einem einzigen Durchgang kombinieren, verwendet Granite Speech 3.3 ein Design mit zwei Durchgängen. Um dem Modell beispielsweise Fragen zu einer Audiodatei zu stellen, ist ein erster Aufruf erforderlich, um die Audiodatei zu transkribieren, und eine zweite Aufforderung, um das Modell nach diesem transkribierten Text zu befragen. Wenn eine Aufforderung „
Dieser zweistufige Ansatz stellt sicher, dass die Leistung von Granite Speech 3.3 8B bei Textabfragen die des zugrunde liegenden LLM (Granite 3.3 8B Instruct) widerspiegelt, wodurch die Verschlechterung der textbasierten Leistung vermieden wird, die für viele multimodale Modelle typisch ist. Durch den Zugriff auf eine Inferenzplattform, die so konfiguriert ist, dass sie sowohl Text- als auch Sprachmodelle ordnungsgemäß bedient, können Entwickler Granite Speech 3.3 8B im Wesentlichen als eine Version von Granite 3.3 8B Instruct mit zusätzlichen Audio-In-Funktionen verstehen.
Im Gegensatz zu herkömmlichen Whistler-basierten ASR-Modellen kann Granite Speech 3.3 Eingaben beliebiger Länge akzeptieren. Im Test konnte das Modell problemlos eine 20-minütige Audiodatei auf einer H100 80GB GPU verarbeiten – anstatt auf ein 30-Sekunden-Fenster beschränkt zu sein. Bei flottenbasierten Modellen müssen Audiodateien, die dieses Maximum überschreiten, in 30-Sekunden-Abschnitte geschnitten werden, was an den Schnittstellen häufig zu Ungenauigkeiten führt. Allgemein gilt: Je weniger künstliche Schnitte Sie machen müssen, desto weniger Ungenauigkeiten entstehen.
Granite Speech 3.3 kann zwar angeblich ziemlich lange Audioeingaben aufnehmen, aber es ist erwähnenswert, dass das Modell noch nicht auf lange Audioeingaben abgestimmt wurde. Um eine gleichbleibende Genauigkeit zu gewährleisten, empfehlen wir ein Limit von 1 Minute für jede einzelne Einheit der Audioeingabe.
Granite Speech 3.3 ist nur der erste Schritt bei der Erkundung von Audio-Funktionen durch IBM für die Granite-Serie. Die laufenden Forschungsarbeiten zur Verbesserung von Granite Speech für zukünftige Versionen – insbesondere in Granite 4 – umfassen:
Die neuesten Versionen unserer auf Textbefehle abgestimmten Modelle, Granite 3.3 8B Instruct und Granite 3.3 2B Instruct, fügen Fill-in-the-Middle-(FIM-)Funktionen hinzu und verfeinern die in Granite 3.2 eingeführten Denkfähigkeiten weiter.
Wir veröffentlichen auch die Basismodell-Gegenstücke –Granite 3.3 8B Base und Granite 3.3 2B Base, die nun die Vorgänger von Granite 3.1 ersetzen –, um Entwicklern Zugriff auf unsere Modelle mit FIM-Fähigkeit für ihre eigenen Feinabstimmungsarbeiten zu ermöglichen.
Autoregressive LLMs – die LLMs, die üblicherweise für die Textgenerierung verwendet werden – sind grundsätzlich so konzipiert, dass sie sich von links nach rechts verschieben. Sie werden durch selbstüberwachtes Lernen darauf trainiert, anhand der Informationen der vorangegangenen Token iterativ den nächsten Token in einer Sequenz vorherzusagen, bis die Sequenz als abgeschlossen angesehen wird. Während sich dieses Design für eine beeindruckende Vielfalt an generativen Aufgaben eignet, ist es bei einer anderen Art von Aufgabe zwangsläufig zu kurz: die Vorhersage der richtigen Token auf der Grundlage der davor und danach kommenden Token. Mit anderen Worten: Herkömmliche autoregressive LLMs können nicht „die Mitte ausfüllen“.
Die Anpassung autoregressiver Modelle an das Ausfüllen erfordert eine Neugestaltung der Trainingsaufgaben, um das LLM im Wesentlichen dazu zu „täuschen“, Token in der Mitte vorherzusagen, indem es seine intrinsische Fähigkeit zur Vorhersage von links nach rechts nutzt. Dies erfordert im Allgemeinen die Aufteilung einer Beispielpassage in Präfix (die vorangegangenen Token), Suffix (die Token, die danach kommen) und Mitte (die Token, die durch das Ausfüllen vorhergesagt werden sollen) und anschließend eine Neuanordnung der Passagierung, sodass dem Modell sowohl das Präfix als auch das Suffix zur Verfügung stehen, bevor es gebeten wird, mittlere Token vorherzusagen. Granite 3.3 verwendet spezielle Token, damit das Modell Inhalte generieren kann, die sowohl vom Präfix als auch vom Suffix abhängig sind.
Obwohl FIM eine Vielzahl von Anwendungsfällen hat, eignet es sich besonders für Codierungsaufgaben, von der Codereparatur und der Fehlerverbindung über das Refactoring bis hin zur schnellen Erstellung von Standardcode und dem Einfügen von Funktionsargumenten oder Docstrings.
Unser Fokus bei Granite 3.2 lag darauf, die Argumentationsfähigkeiten der Instruct-Modelle durch Thought Preference Optimization (TPO) zu verbessern, um ihre Fähigkeit zu verbessern, komplexen Anweisungen zu folgen, ohne die allgemeine Leistung zu beeinträchtigen. Für Granite 3.3 Instruct haben wir uns darauf konzentriert, diese Fortschritte beizubehalten und gleichzeitig die Leistung der Modelle bei komplexen mathematischen Funktionen zu verbessern.
Basierend auf einem aktualisierten Granite 3.3-Basismodell und fein abgestimmt durch mehrstufiges Reinforcement Learning mit TPO und Group Relative Policy Optimization (GRPO), zeigten beide Granite 3.3 Instruct-Modelle eine signifikante Verbesserung bei den Benchmarks, die üblicherweise mit „Reasoning“-Funktionen verbunden sind.
Mit der Leistung von Granite 3.3 8B im MATH500-Benchmark liegt es deutlich vor Claude 3.5 Haiku von Anthropic (64,2 %) und Metas Llama 3.1 8B Instruct (44,4 %), ungefähr auf dem Niveau des Mistral Small 3 mit 24 B-Parametern (70,6 %) und knapp hinter Claude 3.5 Sonnet (72,4 %) und GPT-4O Mini von OpenAI (72,6 %).1
Wie bei den Granite 3.2 Instruct-Modellen kann „Denken“ einfach ein- und ausgeschaltet werden, sodass Entwickler bei Bedarf dem Denken mit verbesserter Gedankenkette (CoT) Priorität einräumen können, wenn sie es benötigen, und Kosteneffizienz und geringe Latenz priorisieren, wenn sie dies nicht tun.
Um bestehende Granite-basierte Anwendungen zu verbessern und die Entwicklung der nächsten Generation von leistungssteigernden LoRA-Adaptern zu unterstützen, veröffentlicht IBM außerdem eine Sammlung von 5 (meist) RAG-spezifischen LoRA-Adaptern für Granite 3.2 8B Instruct über Granite Experiments, eine IBM Research Plattform zum Testen von Open-Source-Ideen. Jeder dieser LoRA-Adapter nutzt das intrinsische Wissen des Modells, um eine bestimmte Aufgabe zu ermöglichen, z. B. das Umschreiben von Suchanfragen oder das Erkennen von Halluzinationen.
IBM Research hat diese „konventionellen“ LoRA-Adapter zusammen mit Gegenstücken entwickelt, die jeweils eine neue Art von Low-Rank-Adaption verwenden, die wir aktivierte LoRAs (aLoRAs) nennen. Der Wechsel zwischen Standard-LoRA-Adaptern verlangsamt häufig die Leistung, da das Modell den Kontext der laufenden Konversation unter Verwendung des neuen Adapters neu berechnen muss. Aber im Gegensatz zu Standard-LORAs verwenden ALORAs von IBM einfach den vorhandenen Schlüsselwert-Cache (KV) wieder, sodass der Kontext nicht erneut berechnet (oder „vorgefüllt“) werden muss. Aktivierte LoRAs entsprechen der Generierungsqualität von Standard-LoRAs und bieten gleichzeitig erhebliche Laufzeit- und Rechenvorteile. Der Quellcode zum Ausführen der aLoRAs ist hier verfügbar.
RAG-Halluzinationserkennung
Selbst mit RAG kann ein LLM manchmal halluzinieren. Wenn das Modell mit der RAG Halluzination Detection LoRA ausgestattet ist, liefert es einen „Treuewert“ zwischen 0 und 1 (in Schritten von 0,1), der angibt, wie genau seine Ausgabe die in den abgerufenen Dokumenten enthaltenen Informationen widerspiegelt. Ein niedrigerer Treuewert weist auf ein höheres Halluzinationsrisiko hin. Das Modell gibt „unbeantwortbar“ aus, wenn die Frage nicht mit Informationen aus verfügbaren Quellen beantwortet werden kann.
RAG-Abfrageumschreibung
Abfragemaschinen liefern bei eigenständigen Abfragen, die alle relevanten Informationen enthalten, deutlich bessere Ergebnisse als bei Abfragen, die für die Umsetzung von Aktionen den Kontext aus einem früheren Gespräch benötigen. Mit der Funktion „Query Rewrite LoRA“ schreibt das Modell jede nicht eigenständige Benutzerabfrage automatisch in eine vollständig in sich geschlossene Abfrage um. Betrachten Sie beispielsweise diesen Austausch:
Benutzer: „Wer ist der CEO von Apple?“ Modell: „Tim Cook ist der Chief Executive Officer von Apple Inc.“ Benutzer: „Was ist mit Microsoft?“
Das Modell übergibt die erste Abfrage des Benutzers unverändert, schreibt die zweite Abfrage jedoch wie folgt um: „Wer ist der CEO von Microsoft?“. Bei Tests erhöhte dieses Umschreiben die Relevanz der Modellantworten um bis zu 21 Prozentpunkte.
Obwohl es für RAG entwickelt wurde,erfordert Query Rewrite keine RAG-Dokumente: Es kann auch verwendet werden, um Benutzerabfragen für andere Anwendungsfälle umzuschreiben, z. B. für Toolaufrufe.
RAG Citation Generation
Wenn das Modell mit dem RAG Citation Generaton LoRA ausgestattet ist, generiert es für jeden Satz seiner Ausgabe ein Zitat (wenn dieser Satz durch externe Quellen informiert wurde). Jedes Zitat auf Satzebene vermerkt nicht nur jegliche Quelle (n), auf die verwiesen wird, sondern enthält auch eine Reihe von Sätzen aus den zitierten Quellen, die den entsprechenden Ausgabesatz des Modells unterstützen.
RAG Answerability Prediction
Ausgestattet mit der RAG Answerability Prediction LoRA ermittelt das Modell, ob die Abfrage des Benutzers mithilfe der in den verknüpften Dokumenten verfügbaren Informationen beantwortet werden kann oder nicht. Diese binäre Klassifizierung – „beantwortbar“ oder „nicht beantwortbar“ – kann unter anderem verwendet werden, um unbeantwortbare Fragen herauszufiltern (wodurch Halluzinationen reduziert werden) oder um das Modell zu veranlassen, den Abfragenden auf eine andere Art und Weise erneut zu befragen.
Unsicherheitsvorhersage
Für jede Modellausgabe ermöglicht die Uncertainty LoRA, die aus der Forschung des MIT-IBM Watson AI Lab zur KI-Modellkalibrierung hervorgegangen ist, dem Modell, einen quantisierten „Sicherheitswert“ im Bereich von 0 bis 9 zu erzeugen (was einer Sicherheit von 5 % bis 95 % entspricht). Die Bewertung spiegelt im Wesentlichen das Ausmaß wider, in dem die Antwort des Modells durch die in den Trainingsdaten enthaltenen Informationen unterstützt wird.
Während die traditionelle RAG eine einzige Inferenz beinhaltet – einen einfachen, kontextbezogenen Prompt –, die zu einer einzigen Ausgabe führt, schlagen wir die Verwendung dieser LoRAs in Workflows vor, die mehrere LoRA-Adapter für mehrere Schlussfolgerungen auf dem Weg zu einer endgültigen Modellantwort nutzen.
Sie können z. B. zunächst Query Rewrite implementieren, um (bei Bedarf) erste Prompts schnell neu zu schreiben und so eine optimale Abrufgenauigkeit zu erzielen. Sobald die durch Retrieval erweiterte Antwort des Modells mithilfe des umgeschriebenen Prompts generiert wurde, können Sie anschließend die RAG-Halluzinationserkennung implementieren, um ein angemessenes Maß an Übereinstimmung mit den Informationen in den abgerufenen Dokumenten zu überprüfen. Wenn der Treuewert unter einen akzeptablen Schwellenwert fällt, könnte Ihr Workflow das Modell anweisen, die Antwort so lange erneut abzufragen, bis der Treuewert diesen Schwellenwert überschreitet. Sobald keine Halluzinationen mehr erkannt werden, können Sie RAG Citations für die endgültige Antwort an den Benutzer verwenden.
Dies wäre im Wesentlichen das RAG-Äquivalent zur Skalierung von Testzeitberechnungen, wobei mehrere Inferenzen zur Verbesserung und Bereicherung der endgültigen Ausgabe des Modells eingesetzt werden. Wir sind gespannt, wie die Open-Source-Community diese neuen LoRA-Adapter implementieren und damit experimentieren wird. Weitere Informationen über die RAG LoRAs und ihre Auswirkungen auf die Modellleistung finden Sie in dem begleitenden technischen Dokument.
IBM Research trainiert aktiv Granite 4.0, eine neue Generation von Modellen, die eine wichtige Weiterentwicklung der Granite-Architektur darstellen und vielversprechende Verbesserungen in Bezug auf Geschwindigkeit, Kontextlänge und Kapazität aufweisen. Obwohl genaue Details erst im Laufe des zweiten Quartals bekannt gegeben werden, können sich Kunden, Partner und Entwickler darauf verlassen, dass IBM sein Engagement für kleine, praktische Modelle beibehält, die mit geringen Kosten und Latenzzeiten ausgeführt werden können.
Die neuen Granite 3.3 Instruct-Modelle sind live auf IBM watsonx.ai, unserem integrierten End-to-End-Studio für die KI-Entwicklung in Unternehmen. Sie können Granite 3.3 Instruct 8B ausprobieren und ganz einfach mit dem Ein- und Ausschalten des „Denkens“ experimentieren – auf dem Granite Playground.
Granite Speech 3.3 8B ist zusammen mit allen neuen Granite-Modellen und LoRA-Adaptern auf Hugging Face verfügbar. Ausgewählte Instruct-Modelle sind auch über Plattformpartner verfügbar, darunter (in alphabetischer Reihenfolge) LMStudio, Ollama und Replicate. Weitere werden in naher Zukunft folgen.
Eine Reihe von Anleitungen und Rezepten für die Arbeit mit Granite-Modellen finden Sie in den Granite-Dokumenten und im Granite Snack Cookbook auf GitHub. Entwickler können mit Granite-Modellen erste Schritte machen, indem sie unsere Vielzahl an nützlichen Demos, Rezepte und Tutorials erkunden, wie zum Beispiel:
1„MATH 500 Benchmark“, Vals AI, letzte Aktualisierung am 24. März 2025
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.