IBM Granite 3.1: leistungsstarke Performance, längerer Kontext, neue Einbettungsmodelle und mehr

18. Dezember 2024

 

 

Autor

Kate Soule

Director, Technical Product Management, Granite, IBM

Dave Bergmann

Senior Writer, AI Models, IBM

Hier die wichtigsten Informationen auf einen Blick:
 

  •  
  • Granite 3.1 8B Instruct bietet erhebliche Leistungsverbesserungen gegenüber Granite 3.0 8B Instruct. Seine durchschnittliche Punktzahl in den Hugging Face OpenLLM Leaderboard-Benchmarks gehört jetzt zu den höchsten aller offenen Modelle in seiner Gewichtsklasse.
  • Wir haben die Kontextfenster der gesamten Granite-3-Sprachmodellfamilie erweitert. Unsere neuesten dichten Modelle (Granite 3.1 8B, Granite 3.1 2B), MoE-Modelle (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) und Leitplanken-Modelle (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) verfügen alle über eine Kontextlänge von 128K Token.
  • Wir veröffentlichen eine Reihe völlig neuer Einbettungsmodelle. Die neuen Granite-Einbettungsmodelle mit optimierter Abrufgeschwindigkeit werden in vier Größen angeboten, die von 30 Millionen bis 278 Millionen Parametern reichen. Wie ihre generativen Pendants bieten sie mehrsprachige Unterstützung in 12 verschiedenen Sprachen: Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch.
  •  
  • Granite Guardian 3.1 8B und 2B verfügen über eine neue Funktion zur Erkennung von Halluzinationen, die eine bessere Kontrolle und Observability für Agenten ermöglicht, die Werkzeuge anfordern.
  • Alle Granite 3.1-, Granite Guardian 3.1- und Granite Embedding-Modelle sind Open Source unter der Apache 2.0-Lizenz.
  • Diese neuesten Einträge in der Granite-Reihe folgen auf die kürzlich erfolgte Einführung von Docling (einem Open-Source-Framework zur Vorbereitung von Dokumenten für RAG und andere generative KI-Anwendungen) und Bee (einem modellunabhängigen Open-Source-Framework für agentenbasierte KI) durch IBM.
  • Granite TTM (TinyTimeMixers), die Serie kompakter, aber hochleistungsfähiger Zeitreihenmodelle von IBM, ist jetzt über die Beta-Version watsonx.ai Timeseries Forecasting API und SDK in watsonx.ai verfügbar.
  • Granite 3.1-Modelle sind jetzt in IBM watsonx.ai sowie über Plattformpartner, darunter (in alphabetischer Reihenfolge) Docker, Hugging Face, LM Studio, Ollama und Replicate.
  • Granite 3.1 wird auch intern von Unternehmenspartnern genutzt: Samsung integriert ausgewählte Granite-Modelle in seine SDS-Plattform; Lockheed Martin integriert Granite 3.1-Modelle in seine AI Factory-Tools, die von über 10.000 Entwicklern und Ingenieuren genutzt werden.
 


Heute wird IBM Granite 3.1 veröffentlicht, das neueste Update unserer Granite-Serie offener, leistungsstarker und für Unternehmen optimierter Sprachmodelle. Diese Suite von Verbesserungen, Ergänzungen und neuen Funktionen konzentriert sich in erster Linie auf die Steigerung von Leistung, Genauigkeit und Verantwortlichkeit in wichtigen Unternehmensanwendungsfällen wie Toolnutzung, Retrieval Augmented Generation (RAG) und skalierbare agentenbasierte KI-Workflows.

Granite 3.1 baut auf der Dynamik der kürzlich veröffentlichten Granite 3.0-Kollektion auf. IBM wird in den kommenden Monaten weiterhin aktualisierte Modelle und Funktionen für die Granite 3-Serie veröffentlichen, wobei neue multimodale Funktionen für das erste Quartal 2025 geplant sind.

Diese neuen Granite-Modelle sind nicht die einzigen bemerkenswerten Beiträge von IBM zum Open-Source-LLM-Ökosystem in jüngster Zeit. Die heutige Veröffentlichung bildet den Abschluss einer Reihe innovativer Open-Source-Einführungen in jüngster Zeit, von einem flexiblen Rahmen für die Entwicklung von KI-Agenten bis hin zu einem intuitiven Toolkit zur Erschließung wichtiger Informationen, die in PDFs, Foliensätzen und anderen Dateiformaten gespeichert sind, die für Modelle schwer zu verarbeiten sind. Die Verwendung dieser Tools und Frameworks in Kombination mit den Modellen von Granite 3.1 bietet Entwicklern erweiterte Funktionen für RAG, KI-Agenten und andere LLM-basierte Workflows.

Wie immer zeigt sich IBMs historisches Engagement für Open Source in der freizügigen und standardmäßigen Open-Source-Lizenzierung für jedes Angebot, das in diesem Artikel behandelt wird.

Granite 3.1 8B Instruct: Die Messlatte für schlanke Unternehmensmodelle höher legen

Die Bemühungen von IBM bei der fortlaufenden Optimierung der Granite-Serie zeigen sich am deutlichsten im Wachstum seines Flaggschiff-Modells mit einer Dichte von 8B. IBM Granite 3.1 8B Instruct übertrifft nun die meisten offenen Modelle in seiner Gewichtsklasse in den Durchschnittswerten der akademischen Benchmark-Bewertungen, die in Hugging Face OpenLLM Leaderboard inkludiert sind.

Bei der Weiterentwicklung der Granite-Modellreihe wurde weiterhin Wert auf Exzellenz und Effizienz in Unternehmensanwendungsfällen gelegt, einschließlich agentenbasierter KI. Dieser Fortschritt zeigt sich am deutlichsten in der erheblich verbesserten Leistung des neuesten 8B-Modells bei IFEval, einem Datensatz mit Aufgaben, die die Fähigkeit eines Modells testen, detaillierten Anweisungen zu folgen, und bei Multi-Step Soft Reasoning (MuSR), bei dem die Fähigkeit zum logischen Denken und zum Verständnis langer Texte gemessen wird.

Erweiterte Kontextlänge

Der Leistungssprung von Granite 3.0 zu Granite 3.1 wird durch die Erweiterung der Kontextfenster aller Modelle unterstützt. Die 128K-Token-Kontextlänge von Granite 3.1 entspricht der anderer führender Open-Model-Serien, einschließlich Llama 3.1–3.3 und Qwen2.5.

Das Kontextfenster (oder die Kontextlänge) eines Large Language Models (LLM) ist die Textmenge in Token, die ein LLM gleichzeitig verarbeiten kann. Ein größeres Kontextfenster ermöglicht es einem Modell, größere Eingaben zu verarbeiten, einen längeren kontinuierlichen Austausch durchzuführen und mehr Informationen in jede Ausgabe einfließen zu lassen. Die Tokenisierung beinhaltet keinen festen Token-zu-Wort-„Wechselkurs“, wobei 1,5 Token pro Wort jedoch eine nützliche Schätzung ist. 128K Token entsprechen dann in etwa einem 300-seitigen Buch.

Oberhalb einer Schwelle von etwa 100.000 Token ergeben sich beeindruckende neue Möglichkeiten, darunter die Beantwortung von Fragen zu mehreren Dokumenten, das Verständnis von Code auf Repository-Ebene, Selbstreflexion und LLM-gestützte autonome Agenten. Die erweiterte Kontextlänge von Granite 3.1 eignet sich daher für eine viel größere Bandbreite von Anwendungsfällen in Unternehmen, von der Verarbeitung von Codebasen und umfangreichen Rechtsdokumenten in ihrer Gesamtheit bis hin zur gleichzeitigen Überprüfung Tausender von Finanztransaktionen.

Granite Guardian 3.1: Erkennung von Halluzinationen in agentenbasierten Workflows
 

Granite Guardian 3.1 8B und Granite Guardian 3.1 2B können nun Halluzinationen erkennen, die in einem agentenbasierten Workflow auftreten können, und bieten so die gleiche Verantwortlichkeit und das gleiche Vertrauen in Funktionsaufrufe, die wir bereits für RAG bereitstellen.

Zwischen der ersten Anfrage an einen KI-Agenten und der Ausgabe, die der Agent schließlich an den Benutzer zurückgibt, finden viele Schritte und Teilprozesse statt. Um eine durchgängige Überwachung zu gewährleisten, überwachen Granite Guardian 3.1-Modelle jeden Funktionsaufruf auf syntaktische und semantische Halluzinationen.

Wenn beispielsweise ein KI-Agent angeblich eine externe Informationsquelle abfragt, überwacht Granite Guardian 3.1 den Fluss gefälschter Informationen. Wenn ein agentenbasierter Workflow Zwischenberechnungen mit Zahlen aus einem Bankdatensatz umfasst, überprüft Granite Guardian 3.1, ob der Agent den richtigen Funktionsaufruf zusammen mit den entsprechenden Zahlen aufgerufen hat.

Die heutige Veröffentlichung ist ein weiterer Schritt in Richtung Verantwortlichkeit und Vertrauen für jede Komponente eines LLM-basierten Unternehmens-Workflows. Die neuen Granite-Guardian-3.1-Modelle sind auf Hugging Face verfügbar. Sie werden später in diesem Monat auch über Ollama und im Januar 2025 über IBM watsonx.ai verfügbar sein.

Granite Einbetten von Modellen

Einbettungen sind ein integraler Bestandteil des LLM-Ökosystems. Eine genaue und effiziente Darstellung von Wörtern, Abfragen und Dokumenten in numerischer Form ist für eine Reihe von Unternehmensaufgaben unerlässlich, darunter semantische Suche, Vektorsuche und RAG, sowie die Pflege effektiver Vektordatenbanken. Ein effektives Einbettungsmodell kann das Verständnis eines Systems für die Absicht des Benutzers erheblich verbessern und die Relevanz von Informationen und Quellen als Antwort auf eine Abfrage erhöhen.

Während in den letzten zwei Jahren immer mehr wettbewerbsfähige Open-Source-Autoregressive-LLMs für Aufgaben wie die Erstellung und Zusammenfassung von Texten entwickelt wurden, gibt es nur relativ wenige Open-Source-Einbettungsmodell-Veröffentlichungen von großen Anbietern.

Die neuen Granite-Einbettungsmodelle sind eine Weiterentwicklung der Slate-Familie von Sprachmodellen auf RoBERTA-Basis, die ausschließlich auf Encoder ausgelegt sind. Granite Embedding wurde mit der gleichen Sorgfalt und Rücksichtnahme auf Filterung von Verzerrung, Hass, Missbrauch und Obszönitäten („HAP“) wie der Rest der Granite-Reihe trainiert und wird in vier Modellgrößen angeboten, von denen zwei die mehrsprachige Einbettung in 12 natürliche Sprachen unterstützen:

  •  
  • Granite-Embedding-30M-English
  • Granite-Embedding-125M-English
  • Granite-Embedding-107M-Multilingual
  • Granite-Embedding-278M-Multilingual
 

Während die überwiegende Mehrheit der offenen Einbettungsmodelle auf der Hugging Face MTEB-Bestenliste auf Trainingsdatensätzen basiert, die nur für Forschungszwecke lizenziert sind, wie z. B. MS-MARCO, hat IBM die kommerzielle Eignung aller Datenquellen überprüft, die für das Training von Granite Embedding verwendet werden. Um die Sorgfalt zu unterstreichen, mit der die Nutzung in Unternehmen gefördert wird, unterstützt IBM Granite Embedding mit der gleichen unbegrenzten Entschädigung für Ansprüche Dritter auf geistiges Eigentum, die für die Nutzung anderer von IBM entwickelter Modelle vorgesehen ist.

Dank der Sorgfalt von IBM bei der Kuratierung und Filterung von Trainingsdaten konnten die englischen Granite-Embedding-Modelle bei internen Leistungsbewertungen, die unter Verwendung des BEIR-Bewertungsrahmens durchgeführt wurden, mit prominenten Open-Source-Einbettungsmodellen ähnlicher Größe mithalten.

Die Tests von IBM haben außerdem gezeigt, dass zwei der neuen Einbettungsmodelle, Granite-Embedding-30M-English und Granite-Embedding-107M-Mulilingual, die Konkurrenzangebote in Bezug auf die Inferenzgeschwindigkeit deutlich übertreffen.

Mit dieser Einführung beginnt die ehrgeizige Roadmap von IBM Research für kontinuierliche Innovation mit der Open-Source-Modellfamilie Granite Embedding. Zu den für 2025 geplanten Updates und Upgrades gehören eine Kontext-Erweiterung, eine Optimierung für RAG und multimodale Abruffunktionen.

Dokumentenentschlüsselung und KI mit agentenbasiertem Ansatz

Neben der fortlaufenden Weiterentwicklung der Granite-Serie setzt IBM sein starkes Engagement für Open-Source-KI durch die jüngste Entwicklung und Open-Source-Veröffentlichung innovativer neuer Tools und Frameworks für die Erstellung mit LLMs fort. Diese von IBM entwickelten Ressourcen sind für Granite-Modelle optimiert, aber von Natur aus offen und modellunabhängig und helfen Entwicklern, das volle Potenzial von LLMs auszuschöpfen, von der Erleichterung der Feinabstimmung von Pipelines über die Regularisierung von RAG-Quellen bis hin zur Zusammenstellung autonomer KI-Agenten.

Docling: Vorbereitungsdokumente für RAG, Vorbereitung und Feinabstimmung
 

Von kreativem Schreiben bis hin zu RAG ist generative KI letztlich auf Daten angewiesen. Das wahre Potenzial großer Sprachmodelle kann nicht ausgeschöpft werden, wenn einige dieser Daten in Formaten gespeichert sind, die von den Modellen nicht erkannt werden können. LLMs sind relativ neu, das Problem jedoch nicht. So titelte eine zehn Jahre alte Schlagzeile der Washington Post: „Die Lösungen für all unsere Probleme könnten in PDFs verborgen sein, die niemand liest.“

Aus diesem Grund habt IBM Deep Search Docling entwickelt, ein leistungsstarkes Tool zum Parsen von Dokumenten in gängigen Formaten wie PDF, DOCX, Bildern, PPTX, XLSX, HTML und AsciiDoc und zum Konvertieren dieser Dokumente in modellfreundliche Formate wie Markdown oder JSON. Dadurch können diese Dokumente und die darin enthaltenen Informationen von Modellen wie Granite für die Zwecke von RAG und anderen Workflows leicht abgerufen werden. Docling ermöglicht eine einfache Integration mit Agentic Frameworks wie LlamaIndex, LangChain und Bee, sodass Entwickler die Unterstützung von Docling in das Ökosystem ihrer Wahl integrieren können.

Docling ist eine ausgeklügelte Lösung, die unter der freizügigen MIT-Lizenz als Open Source verfügbar ist und über einfache optische Zeichenerkennung (OCR) und Textextraktion hinausgeht. Wie William Caban von Red Hat erklärt, integriert Docling eine Reihe kontextbezogener und elementbasierter Vorverarbeitungstechniken: Wenn eine Tabelle mehrere Seiten umfasst, weiß Docling, dass sie als eine einzige Tabelle extrahiert werden muss; wenn eine bestimmte Seite Fließtext, Bilder und Tabellen enthält, muss jede davon entsprechend ihrem ursprünglichen Kontext separat extrahiert werden.

Das Team hinter Docling arbeitet aktiv an zusätzlichen Funktionen, darunter die Extraktion von Gleichungen und Codes sowie die Extraktion von Metadaten. Um Docling in Aktion zu erleben, sollten Sie sich dieses Tutorial zur Erstellung eines Systems zur Beantwortung von Fragen zu Dokumenten mit Docling und Granite ansehen.

Bee: agentenbasiertes KI-Framework für offene Modelle

Das Bee Agent Framework ist ein Open-Source-Framework für die Erstellung leistungsstarker agentenbasierter KI-Workflows mit Open-Source-LLMs, die für die Verwendung mit Granite- und Llama-Modellen optimiert sind (weitere modellspezifische Optimierungen sind bereits in der Entwicklung). Es umfasst eine Reihe von Modulen, mit denen Entwickler fast jede Komponente des KI-Agenten anpassen können, von der Speicherverwaltung über die Werkzeugnutzung bis hin zur Fehlerbehandlung, sowie mehrere Observability-Funktionen, die für den Einsatz in der Produktion erforderlichen Einblicke und Verantwortlichkeiten bieten.

Das Framework lässt sich nahtlos in mehrere Modelle und eine Suite robuster, gebrauchsfertiger Tools wie Wetterdienste und Internetsuche (oder benutzerdefinierte Tools, die in Javascript oder Python erstellt wurden) integrieren. Die flexible Funktionalität von Bee ermöglicht Workflows, die auf Ihre spezifischen Umstände zugeschnitten sind, wie in diesem Rezept unter Verwendung von Granite und Wikipedia gezeigt wird, das integrierte Tools nutzt, um ein begrenztes Kontextfenster effektiver zu nutzen.

Granite Bee Agenten können lokal mit Ollama ausgeführt werden oder gehostete Rückschlüsse mit watsonx.ai nutzen.

Zeitreihen-Forecasting in IBM watsonx.ai

Die Anfang des Jahres veröffentlichten Timeseries-Modelle von Granite, die TinyTimeMixer (TTM), sind eine Familie vortrainierter, leichtgewichtiger Modelle, die auf einer neuartigen Architektur basieren. Granite Timeseries-Modelle bewältigen Zero-Shot- und Few-Shot-Forecasts für alles von IoT-Sensordaten bis hin zu Börsenkursen und Energiebedarf und übertreffen viele Modelle, die bis zu zehnmal so umfangreich sind, darunter TimesFM, Moirai und Chronos.2 Seit dem 30. Mai wurden die TTM-Modelle der Granite Timeseries allein auf Hugging Face über 3,25 Millionen Mal heruntergeladen.

Im November kündigte IBM den Beta-Start der watsonx.ai Timeseries Forecasting API und SDK an, der die Timeseries-Modelle von Granite auf der integrierten KI-Plattform von IBM für die Entwicklung von End-to-End-KI-Anwendungen verfügbar macht.

Weitere Informationen zu den ersten Schritten mit Granite-TTM finden Sie in den Rezepten im IBM Granite Timeseries Cookbook, z. B. in diesem Notebook für die Verwendung von watsonx SDK zum Ausführen von Prognoserückschlüssen.

Erste Schritte mit Granite 3.1

Granite 3.1-Modelle sind jetzt auf IBM watsonx.ai verfügbar. Sie können auch über Plattformpartner abgerufen werden, darunter (in alphabetischer Reihenfolge) Docker (über seinen DockerHub GenAI-Katalog), Hugging Face, LM Studio, Ollama und Replicate. Ausgewählte Granite 3.1-Modelle werden ab Januar 2025 auch über NVIDIA (als NIM Microservices) verfügbar sein.

Eine Reihe von Anleitungen und Rezepten für die Arbeit mit Granite-Modellen finden Sie im Granite Snack Cookbook auf GitHub, von der Orchestrierung von Workflows mithilfe von Granite-Sprachmodellen in Langchain bis hin zur Implementierung von Granite Guardian Modellen.

Entwickler können auch mit Granite-Modellen auf dem Granite Model Playground beginnen oder die zahlreichen nützlichen Demos und Tutorials in den IBM-Dokumenten, wie z. B.:

 


Erkunden Sie die Granite 3.1 Modelle →

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo