26. Februar 2025
Granite 3.2, die neueste Version unserer dritten Generation von IBM Granite-Modellen, ist ein wichtiger Schritt in der Weiterentwicklung der Granite-Serie über einfache Sprachmodelle hinaus. Angeführt von experimentellen Reasoning-Funktionen und unserem ersten offiziellen Vision Language Model (VLM), führt Granite 3.2 mehrere wichtige neue Funktionen in die Granite-Familie ein.
Die Version enthält auch eine Reihe von Verbesserungen der Effizienz, Effektivität und Vielseitigkeit unserer bestehenden Angebote. IBM legt den Schwerpunkt auf praktische, unternehmenstaugliche Modelle und setzt damit das Streben nach modernster Leistung mit immer weniger Parametern fort.
Wie immer stehen die neuesten Granite-Modelle unter der Apache-2.0-Lizenz als Open Source zur Verfügung. Alle Granite-Modelle sind jetzt auf Hugging Face verfügbar. Ausgewählte Modelle sind auch über weitere Plattformen erhältlich, darunter IBM watsonx.ai. Tutorials, Rezepte und andere Ressourcen finden Sie im Abschnitt „Erste Schritte“ am Ende dieses Artikels.
Die neuesten Versionen von IBMs Flaggschiff, Granite 3.2 Instruct 8B und Granite 3.2 Instruct 2B, wurden so trainiert, dass sie im Vergleich zu ihren 3.1-Pendants verbesserte Reasoning-Funktionen bieten. Unsere Implementierung des Reasonings steht im Gegensatz zu einigen Branchentrends und entspricht dem praktischen Ansatz von IBM zur Verbesserung der Modellleistung.
Diese experimentellen Eigenschaften der neuen Modelle von Granite 3.2 Instruct sind nur eine von mehreren laufenden Untersuchungen von IBM Research zur logikgesteuerten Modellentwicklung. Weitere Arbeiten zu Techniken der Inferenzskalierung zeigen, dass Granite 3.2 8B Instruct so kalibriert werden kann, dass es die mathematische Reasoning-Leistung viel größerer Modelle, einschließlich GPT-4o-0513 von OpenAI und Claude-3.5-Sonnet-1022 von Anthropic, erreicht oder sogar übertrifft.
Die Intuition, die hinter den jüngsten Fortschritten bei der Erstellung von Sprachmodellen steht, geht auf Forschungsarbeiten aus dem Jahr 2022 zurück, die gezeigt haben, dass das einfache Hinzufügen des Satzes „Denken Sie Schritt für Schritt“, eine Prompt-Engineering-Technik, die gemeinhin als Chain-of-Though-Prompting (CoT) bezeichnet wird, die Modellergebnisse bei Reasoning-Aufgaben erheblich verbessert.1
Nachfolgende Forschungsarbeiten aus dem Jahr 2024 vertraten die Ansicht, dass die Skalierung der Rechenleistung während der Inferenzzeit – d. h. der Ressourcen, die für die Generierung der einzelnen Ausgaben während der Inferenz verwendet werden – die Leistung des Modells ebenso verbessern könnte wie die Skalierung der Größe des Modells oder der für das Training verwendeten Ressourcen. Bei den jüngsten Ansätzen wurde eine solche Skalierung der Inferenz meist durch die Einbeziehung verschiedener Frameworks für das verstärkte Lernen (Reinforcement Learning, RL) angestrebt, die Anreize für längere, komplexere „Denkprozesse“ bieten. Spannenderweise wurde empirisch nachgewiesen, dass die Skalierung von Schlussfolgerungen sogar kleinere LLMs in die Lage versetzt, die Schlussfolgerungsfähigkeiten von viel größeren Modellen zu übertreffen.
Trotz ihrer Stärken haben Reasoning-Modelle auch ihre Schattenseiten. IBM ist sich dessen bewusst und hat deshalb bewusst Maßnahmen ergriffen, um diese Nachteile bei der spezifischen Implementierung der Reasoning-Funktionen für Granite 3.2 abzumildern.
„Reasoning-Modelle“ sind in der Regel langsamer und teurer als allgemeine LLMs, da Sie alle vom Modell verwendeten Token generieren (und bezahlen) müssen, um über die endgültige Antwort „nachzudenken“, bevor Sie dem Benutzer tatsächlich eine Ausgabe liefern. IBM Research hat festgestellt, dass DeepSeek-R1, ein bekanntes Reasoning-Modell, 50,9 Sekunden für die Beantwortung der Frage „Wo liegt Rom?“ benötigt.
Es gibt Szenarien, in denen dieser zusätzliche Zeit- und Rechenaufwand leicht zu rechtfertigen ist, aber es gibt auch viele Szenarien, in denen dies eine Verschwendung von Ressourcen darstellt. Anstatt von den Entwicklern zu verlangen, dass sie jedes Mal, wenn sie ein Modell für eine bestimmte Anwendung oder einen bestimmten Arbeitsablauf auswählen, mit diesen Kompromissen jonglieren müssen, ermöglichen die IBM Granite 3.2 Instruct-Modelle, dass ihr erweiterter Denkprozess ein- oder ausgeschaltet werden kann, indem einfach der Parameter
Sie können den Denkprozess von Granite 3.2 nutzen, wenn es nötig ist, oder der Effizienz den Vorrang geben, wenn es nicht nötig ist.
In der relativ kurzen Geschichte der Reasoning-Modelle haben sich viele prominente Ansätze auf Leistungssteigerungen in einer eng begrenzten Anzahl von logikgesteuerten Bereichen wie Mathematik oder Codierung konzentriert. Während die laufende Arbeit von IBM mit Techniken der Inferenzskalierung zu besonders beeindruckenden Leistungsverbesserungen bei technischen Benchmarks geführt hat, die üblicherweise mit „Reasoning“ assoziiert werden (wie z.B. AIME und MATH-500), lag unser Schwerpunkt bei Granite 3.2 Instruct auf der Anreicherung der Denkprozesse unserer Modelle, um ihre Fähigkeit, komplexen Anweisungen zu folgen, auf breiterer Basis zu verbessern.
Ein enger Fokus auf technische Aufgaben, auf die sich die Modellentwickler explizit konzentrieren, kann manchmal auf Kosten anderer Bereiche gehen (einschließlich allgemeiner Leistung und Sicherheit). Deren Wissen kann vom Modell „vergessen“ werden, wenn sie in den Datensätzen, die zur Verbesserung der Argumentationsleistung verwendet werden, nicht angemessen abgedeckt sind. Um dies zu vermeiden, hat IBM Granite 3.2 Instruct entwickelt, indem ein auf Thought Preference Optimization (TPO) basierendes Reinforcement Learning Framework direkt auf Granite 3.1 Instruct angewendet wurde.
Im Gegensatz zu vielen anderen Ansätzen für Reasoning-Fähigkeiten verlässt sich TPO weniger auf logische Operatoren oder Funktionen, um Modellausgaben zu bewerten und zu belohnen, und lässt sich daher leichter auf allgemeine Aufgaben übertragen. Auf diese Weise konnte Granite 3.2 Instruct seine Leistung bei Aufgaben, die komplexes Reasoning erfordern, steigern, ohne die Leistung in anderen Bereichen zu beeinträchtigen.
Die Vorteile dieses Ansatzes zeigen sich am deutlichsten bei Vergleichen mit den DeepSeek-R1-Distill-Modellen, bei denen es sich (trotz ihrer Namen) eigentlich um Versionen von Llama- und Qwen-Modellen handelt, die fein abgestimmt wurden, um den Reasoning-Prozess von DeepSeek-R1 zu emulieren. Es ist erwähnenswert, dass die IBM Granite 3.2 Instruct-Modelle im Gegensatz zu den R1-Distill-Modellen nicht mit von DeepSeek generierten Daten trainiert wurden, was ihre regulatorischen Implikationen stark vereinfacht.
Betrachten Sie die Leistung von Llama-, Qwen- und Granite-Modellen ähnlicher Größe vor und nach dem Reasoning bei ArenaHard und Alpaca-Eval-2, beliebten Benchmarks, die die Fähigkeit eines Modells messen, sich durch schwierige Anweisungen durchzudenken. Während die Technik von DeepSeek die Leistung bei diesen nicht zielgerichteten Aufgaben verringert, haben die CoT-Techniken, die bei der Weiterentwicklung von Granite 3.1 Instruct zu Granite 3.2 Instruct eingesetzt wurden, das Befolgen von Anweisungen deutlich verbessert.
Ebenso vermeidet Granite 3.2 die Einbußen bei der allgemeinen Leistung, die normalerweise mit der Einführung von Reasoning-Funktionen einhergehen.
IBM stellt unternehmenswichtige Belange, einschließlich der Sicherheit, in den Mittelpunkt aller Designentscheidungen. Während die von DeepSeek destillierten Modelle einen deutlichen Rückgang der Sicherheitsleistung aufweisen (gemessen an der Leistung im AttaQ-Benchmark), bewahrte der Ansatz von IBM die Robustheit von Granite 3.2 Instruct gegenüber feindlichen Angriffen.
Wie bereits erwähnt, steht die Veröffentlichung von Granite 3.2 erst am Anfang der Erkundungen von IBM im Bereich der Reasoning-Funktionen für Unternehmensmodelle. Ein Großteil unserer laufenden Forschung zielt darauf ab, die Vorteile des inhärent längeren, robusteren Denkprozesses von Granite 3.2 für die weitere Modelloptimierung zu nutzen.
Eine dieser Forschungsmöglichkeiten besteht darin, Granite 3.2 mit komplexeren Techniken für die Inferenzskalierung, einschließlich Partikelfilterung und Mehrheitsabstimmung (auch Selbstkonsistenz genannt), zu unterstützen. Erste Experimente haben gezeigt, dass Granite 3.2 in Verbindung mit diesen Techniken für die Inferenzskalierung in der Lage ist, die Leistung von viel größeren Grenzmodellen zu erreichen oder zu übertreffen.
Granite Vision 3.2 2B ist ein leichtgewichtiges, umfangreiches Sprachmodell mit Computer-Vision-Fähigkeiten, das auf alltägliche Anwendungsfälle in Unternehmen ausgerichtet ist und mit besonderem Fokus auf visuellem Dokumentenverständnis trainiert wurde. Granite Vision 3.2 verarbeitet sowohl Bild- als auch Texteingaben. Seine Leistung bei wichtigen Unternehmens-Benchmarks wie DocVQA und ChartQA kann sich mit der von wesentlich größeren offenen Modellen messen.
Granite Vision 3.2 2B ist zwar nicht explizit als Ersatz für ähnlich große reine Textmodelle von Granite für Sprachaufgaben gedacht, kann aber dennoch Text-in- und Text-out-Szenarien bewältigen.
Granite Vision 3.2 2B kann eine Vielzahl von Aufgaben zum visuellen Verstehen bewältigen, ist aber auf Aufgaben spezialisiert, die für das Verstehen von Dokumenten und die multimodale Retrieval-Augmented-Generation (RAG) am wichtigsten sind.
Die meisten VLMs, auch multimodale große Sprachmodelle (MLLMs) genannt, werden für Sehaufgaben vorwiegend auf natürlichen Bildern trainiert. Dies führt nicht notwendigerweise zu einer optimalen Leistung bei Bildern von Dokumenten, deren einzigartige visuelle Merkmale (Layouts, Schriftarten, Diagramme, Infografiken) sich erheblich von denen natürlicher Bilder unterscheiden. Im Vergleich zu den meisten allgemeinen Anwendungsfällen, bei denen es um die Eingabe von Bildern und die Ausgabe von Text geht, erfordert das Verstehen von Dokumenten ein spezifischeres und feinkörnigeres Verständnis des visuellen Kontexts.
Die beiden größten Herausforderungen bei der effektiven Verarbeitung von Dokumenten und zugehörigem Bildmaterial durch MLLMs sind die adäquate Kodierung von hochauflösenden Bildern und die genaue Interpretation von visuell platziertem Text in diesen Dokumenten. Spezialisierte Ansätze stützen sich in der Regel entweder auf externe OCR-Systeme (Optical Character Recognition), um den Text in den Bildern nach dem Prinzip „Erkennen und Verstehen“ zu verarbeiten, oder auf maßgeschneiderte Modellarchitekturen, die ausschließlich für das Verstehen von Dokumenten entwickelt wurden.
Beide Ansätze haben Nachteile. Die Abhängigkeit von externem OCR-gesteuertem Dokumentverständnis kann zu einer Anhäufung von Fehlern führen, bevor wesentliche Informationen die Sprache erreichen. Gleichzeitig haben viele dedizierte „OCR-freie“ Methoden Schwierigkeiten bei der Verarbeitung hochauflösender Eingaben oder leiden unter einem Mangel an Gesamtkenntnissen im Vergleich zu denen eines konkurrierenden LLM.2
In jüngster Zeit wurde eine starke Leistung beim Verständnis von Dokumenten erreicht, indem verallgemeinerte Bildverarbeitungssprachmodelle auf dokumentenorientierte Datensätze per Anweisungsoptimierung abgestimmt wurden. Leider sind die Fortschritte bei diesem Ansatz durch einen Mangel an geeigneten Open-Source-Datensätzen in gewisser Weise eingeschränkt worden. Um weitere Fortschritte bei diesem Ansatz zu erzielen, hat IBM bei der Entwicklung von Granite Vision 3.2 intensiv an einem umfassenden instruktionsbasierten Datensatz für visuelles Dokumentenverständnis gearbeitet.
Der DocFM-Datensatz ist ein umfangreicher und anweisungsoptimierter Datensatz für das Training von Bildverarbeitungsaufgaben, der auf einem Kern von sorgfältig kuratierten Unternehmensdaten aufbaut. Ausführliche Details zu den Datenquellen, die bei der Sammlung von Datensätzen zum Dokumentenverständnis verwendet wurden, zu den Filter- und Bereinigungsmethoden, die bei der Verarbeitung dieser ursprünglichen Sammlung zum Einsatz kamen, und zu den Methoden, die zur synthetischen Generierung von Trainingsaufgaben für Granite Vision verwendet wurden, finden Sie im begleitenden technischen Dokument.
Die Daten zum Dokumentenverständnis, die zum Trainieren von Granite Vision verwendet wurden, umfassen eine Vielzahl von Dokumentenklassen mit den breiteren Kategorien von allgemeinen Dokumentenbildern, Diagrammen, Flussdiagrammen und Diagrammen. Der aus diesen Datenquellen abgeleitete anweisungsoptimierte Datensatz umfasst eine Vielzahl von Aufgaben, darunter die Beantwortung von Fragen zu einem Dokument, das Verstehen von Szenentexten, die Extraktion von Schlüsselwerten, das Erden von Text, das Parsen von Layouts, das Verstehen von Untertiteln, das Verstehen von Benutzeroberflächen und das Verstehen von Code.
DocFM ist ein sehr großer Datensatz, den IBM in Zukunft für eine Vielzahl von nachgelagerten visuellen Lernprojekten nutzen möchte. Für das Training von Granite Vision wurde eine Teilmenge von DocFM verwendet, um eine Reihe von synthetischen visuellen Frage-Antwort-Datensätzen zu erstellen. Einen umfassenden Überblick über die für Granite Vision verwendeten Datensätze zum Dokumentenverständnis finden Sie in Tabelle 5 im Anhang der technischen Dokumentation.
Bei der Entwicklung und dem Training von Granite 3.2 Vision hat IBM auch eine neuartige Technik für die Testzeit eingeführt, die sich zur Überwachung schädlicher Aktivitäten nicht auf ein externes Leitplankenmodell verlässt, sondern einen speziellen Sicherheitsansatz direkt in das Modell selbst integriert.
Unsere wichtigste Erkenntnis ist, dass es innerhalb der vielen Aufmerksamkeitsbereiche und Transformationsebenen von Granite Vision eine dünnbesetzte Teilmenge von Bildmerkmalen gibt, die für die Identifizierung von Sicherheitsbedenken nützlich sein könnten, wenn Sicherheitsüberwachungsaufgaben als Klassifizierungsprobleme formalisiert werden.
In einem Prozess, der in dem technischen Dokument von Granite Vision näher beschrieben wird, hat IBM Research ein Verfahren entwickelt, mit dem die vom Aufmerksamkeitsmechanismus von Granite Vision erzeugten Aufmerksamkeitsvektoren isoliert und untersucht werden können, um zu ermitteln, welche im Durchschnitt zuverlässig mit bestimmten Klassen von schädlichen Eingaben korrelieren. Sobald diese identifiziert sind, können die für die Erzeugung dieser „Sicherheitsvektoren“ verantwortlichen Aufmerksamkeitsbereiche verwendet werden, um festzustellen, ob eine bestimmte Eingabe sicher ist.
IBM wird die möglichen Anwendungen von dünnbesetzten Aufmerksamkeitsvektoren weiter untersuchen. Ein möglicher Weg der Erforschung ist ihre Verwendung bei der Anpassung zukünftiger Versionen von Granite Guardian für eine vollständig multimodale Sicherheitsüberwachung.
Granite Guardian 3.2, die neueste Generation von IBM Leitplankenmodellen zur Erkennung von Risiken in Prompts und Antworten, bietet eine Leistung auf dem Niveau der Guardian 3.1 Äquivalente bei höherer Geschwindigkeit und geringeren Kosten für Inferenzen und Speicherverbrauch.
IBM Granite Guardian 3.2 führt verbalisiertes Vertrauen ein, eine neue Funktion, die eine nuanciertere Bewertung der erkannten Risiken ermöglicht, um die Mehrdeutigkeit bestimmter Sicherheitsüberwachungsszenarien zu berücksichtigen.
Anstatt nur ein binäres „Ja“ oder „Nein“ bei der Überwachung von Inputs und Outputs auf Risiken auszugeben, geben die Modelle von Granite Guardian 3.2 auch den relativen Grad der Sicherheit an. Wenn potenzielle Risiken erkannt werden, zeigen die Guardian 3.2-Modelle entweder „hohes“ oder „niedriges“ Vertrauen an, wie im folgenden Beispiel gezeigt wird:
Granite Guardian 3.2 führt zwei neue Modellgrößen ein:
Granite Guardian 3.2 5B wurde von Guardian Guardian 3.1 8B abgeleitet (das seinerseits durch Feinabstimmung des Basissprachmodells für die Sicherheitsklassifizierung entstand). Inspiriert von Forschungsergebnissen, die zeigen, dass die tieferen Schichten eines neuronalen Netzwerks oft entweder redundant sind, durch das Vortraining nicht vollständig genutzt werden oder einfach weniger kritisch sind als die flacheren Ebenen des Netzwerks, verfolgte IBM eine iterative Optimierungsstrategie, um das 8B-Modell „auszudünnen“. Dieser Prozess führte zu einer Verringerung der Parameter des 8B-Modells um etwa 30 %, wobei die Leistung nahe der des ursprünglichen Modells blieb.
Granite Guardian 3.2 3B-A800M wurde durch eine Feinabstimmung unseres Basismodells Mixture of Experts (MoE) entwickelt, das zum Zeitpunkt der Inferenz nur 800M seiner insgesamt 3B Parameter aktiviert. Die Einführung dieses Modells erweitert die Produktpalette von Granite Guardian um eine besonders effiziente und kostengünstige Option.
Die beliebte Open-Source-Familie der kompakten Granite Time-Series-Modelle von IBM, die so genannten Tiny Time Mixers (TTMs), wurden bereits über 8 Millionen Mal auf Hugging Face heruntergeladen. Während frühere TTM-Varianten der Serien TTM-R1 und TTM-R2 Zero-Shot- und Few-Shot-Forecasts für minütliche bis stündliche Auflösungen unterstützten, unterstützt die jüngste Ergänzung der Granite Time-Series-Produktreihe, TTM-R2.1, tägliche und wöchentliche Forecasting-Horizonte.
Eine aufgeschlüsselte Liste aller Datenquellen, die zum Trainieren von TTM-R2 und TTM-R2.1 verwendet wurden, finden Sie am unteren Rand der TTM-R2/R2.1 Hugging Face Modellkarte. Eine vollständige Liste der Varianten finden Sie auf der Registerkarte „Dateien und Versionen“.
Eine Reihe von Rezepten für den Einstieg in Tiny Time Mixers finden Sie im Granite Time Series Cookbook.
Auf dem GIFT-Eval Time Series Forecasting Leaderboard von Salesforce , einem umfassenden Benchmark, der die Leistung von Zeitreihenmodellen bei multivariaten Eingaben in 24 Datensätzen bewertet, die 7 Bereiche, 10 Frequenzen und Vorhersagelängen von kurz- bis langfristigen Prognosen umfassen, liegen die TTM-R2 Modelle (einschließlich der neuen TTM-R2. 1-Varianten) bei der punktuellen Vorhersagegenauigkeit, gemessen am mittleren absoluten skalierten Fehler (MASE), ander Spitze aller Modelle.3 Auch bei der probabilistischen Vorhersage, gemessen am Continuous Ranked Probability Score (CRPS), rangiert TTM-R2 unter den Top 5.
Es ist erwähnenswert, dass TTM-Modelle diese Rangfolge erreichen, indem sie Modelle übertreffen, die um ein Vielfaches größer sind. Bei „winzigen“ Größen von 1–5 Millionen Parametern sind TTM-Modelle hunderte Male kleiner als die Modelle auf dem2. und3. Platz von MASE – Googles TimesFM-2.0 (500 Millionen Parameter) und Amazons Chronos-Bolt-Base (205 Millionen Parameter).
Die Version TTM-R2.1 enthält eine Reihe von Modellen mit unterschiedlichen Kontextlängen und Prognosehorizonten. Während die bisherigen TTM-R2 Modelle eine Kontextlänge von 1536, 1024 oder 512 bieten, enthält TTM-R2.1 Modelle mit kürzeren Kontextlängen von 512 bis 52, die sich gut für tägliche und wöchentliche Prognosen eignen.
Die TTM-R2.1 Modelle ersetzen nicht unbedingt ihre TTM-R2 Vorgänger. Die „beste“ Version von TTM hängt von der Art Ihrer Daten und Ihrem Anwendungsfall ab. Beispielsweise hat
Das get_model-Modul vereinfacht die Aufgabe, die richtige Modellvariante aus dem umfangreichen Angebot auszuwählen.
Die Bezeichnung „
Wenn diese Funktion aktiviert ist, wird ein zusätzlicher Einbettungsvektor, der die Häufigkeit Ihrer Daten angibt, als „Präfix“ zur Eingabe des Modells hinzugefügt, zusammen mit Informationen aus dem Kontextfenster. Wie im technischen Dokument von TTM beschrieben, hat das Modellteam herausgefunden, dass die Frequenzabstimmung die Leistung beim Vortraining auf großen Datensätzen mit unterschiedlichen Auflösungen verbessert. Während der Inferenz ermöglicht dieses Präfix-Token dem Modell, sich schnell an die Frequenz der Eingabedaten anzupassen, was besonders bei sehr kurzen Kontextlängen nützlich ist.
Während alle früheren Granite-Embedding-Modelle (und darüber hinaus fast alle Embedding-Modelle in der modernen Deep-Learning-Ära) dichte Einbettungen lernen, verfügt das neueste Granite-Embedding-Modell – Granite-Embedding-Sparse-30M-English – über eine leicht veränderte Architektur, die es ihm ermöglicht, dünnbesetzte Einbettungen zu lernen.
Granite-Embedding-30M-Sparse ist für exakte Treffer, die Suche nach Stichwörtern und das Ranking in englischer Sprache optimiert und bietet ein ausgewogenes Verhältnis zwischen Effizienz und Skalierbarkeit bei unterschiedlichen Ressourcen- und Latenzbudgets. Es wird über Granite Experiments veröffentlicht, ein Playground von IBM Research zum Testen von Open-Source-Ideen, um den Entwicklungszyklus zu beschleunigen.
Ein typisches, dichtes Einbettungsmodell nimmt eine Texteingabe (z.B. ein Dokument, einen Satz oder eine Anfrage) und gibt eine Vektoreinbettung fester Größe aus. Die Größe dieses Vektors – d. h. wie viele Zahlen (oder Dimensionen) er enthält - ist eine Designentscheidung. Modelle, die kleinere Einbettungen lernen, sind schneller, aber weniger präzise. Modelle, die größere Einbettungen lernen, sind langsamer, aber präziser. Man nennt sie „dichte“ Vektoreinbettungen, weil jede Dimension einen bestimmten Wert speichert.
Die einzelnen Dimensionen einer dichten Vektoreinbettung entsprechen nicht direkt den Attributen der semantischen Bedeutung der ursprünglichen Eingabe in irgendeiner wörtlichen Weise. Dichte Vektoreinbettungen sind im Grunde eine Blackbox: Modelle können sie nutzen, um nützliche Operationen durchzuführen, aber wir Menschen können sie nicht sinnvoll interpretieren.
Dünnbesetzte Einbettungen sind intuitiver. Die Größe der Einbettung entspricht der Größe des Vokabulars, d. h. jede Dimension der Vektoreinbettung entspricht einem der „Wörter“ – oder genauer gesagt, einem der Token –, die das Modell gelernt hat. Der spezifische Wert, der in jeder Dimension eines dünnbesetzten Einbettungsvektors enthalten ist, spiegelt die Relevanz des Wortes (Token) wider, das diese Dimension für die Eingabe darstellt, für die das Modell eine Einbettung erzeugt. Dünnbesetzte Einbettungen sind also durchaus interpretierbar.
Bei kürzeren Textpassagen, wie z. B. Tweets, Kommentaren oder kurzen Produktrezensionen, können dünnbesetzte Einbettungen deutlich schneller sein und gleichzeitig eine bessere (oder zumindest gleichwertige) Leistung als dichte Einbettungen bieten. Sie bieten in der Regel eine starke und direkt nutzbare Leistung, ohne dass eine Feinabstimmung erforderlich ist.
Allerdings sind sie auch nicht ohne Nachteile. Es gibt nur begrenzte Möglichkeiten, die Leistung eines Modell der dünnbesetzten Einbettung durch Feinabstimmung über seine ursprüngliche Basis hinaus zu verbessern. Bei längeren Textpassagen beginnen die Effizienzvorteile zu schwinden oder kehren sich sogar ins Gegenteil um, wenn immer mehr Dimensionen verwendet werden, um die Relevanz einer zunehmenden Anzahl von Token aus dem Vokabular des Modells zu berücksichtigen.
Das dünnbesetzte 30M Granite Einbettungsmodell bietet bei Information Retrieval Benchmarks (BEIR) eine Leistung, die in etwa der seines dichtbesetzten 30M Gegenstücks entspricht, während es einen leichten Vorteil gegenüber SPLADE-v3 bietet.
Alle Modelle von Granite 3.2 sind unter der offenen Apache 2.0 Lizenz auf Hugging Face verfügbar. Ausgewählte Modelle sind auch auf IBM watsonx.ai sowie über Plattformpartner wie (in alphabetischer Reihenfolge) LM Studio, Ollama und Replicate verfügbar. Dieser Artikel wird in Zukunft aktualisiert werden, um die erweiterte Plattformverfügbarkeit der Granite 3.2-Modelle zu berücksichtigen.
Eine Reihe von Anleitungen und Rezepten für die Arbeit mit Granite-Modellen finden Sie in den Granite-Dokumenten und dem Granite Snack Cookbook auf GitHub. Entwickler können auch mit Granite-Modellen auf dem Granite Model Playground beginnen oder unsere zahlreichen nützlichen Demos und Tutorials durchsehen, wie z. B.:
1. „Large Language Models Are Zero-Shot Reasoners“, arXiv, 24. Mai 2022
2. „DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding“, arXiv, 20. November 2023
3. Zum Zeitpunkt der Veröffentlichung dieses Artikels
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.