Was sind kleine Sprachmodelle?

Autoren

Rina Diane Caballar

Staff Writer

IBM Think

Was sind kleine Sprachmodelle?

Kleine Sprachmodelle (Small Language Modells, SLMs) sind KI-Modelle, die in der Lage sind, Inhalte in natürlicher Sprache zu verarbeiten, zu verstehen und zu erzeugen. Wie ihr Name schon sagt, sind SLMs in Umfang und Reichweite kleiner als große Sprachmodelle (LLMs).

Was die Größe betrifft, so reichen die SLM-Parameter von einigen Millionen bis zu einigen Milliarden, im Gegensatz zu LLMs mit Hunderten von Milliarden oder sogar Billionen von Parametern. Parameter sind interne Variablen, wie z. B. Gewichtungen und Verzerrungen, die ein Modell während des Trainings erlernt. Diese Parameter beeinflussen das Verhalten und die Leistung eines maschinellen Lernmodells.

Kleine Sprachmodelle sind kompakter und effizienter als ihre großen Gegenstücke. Daher benötigen SLMs weniger Arbeitsspeicher und Rechenleistung, was sie ideal für Umgebungen mit begrenzten Ressourcen wie Edge-Geräte und mobile Apps oder sogar für Szenarien macht, in denen KI-Inferenz– wenn ein Modell eine Antwort auf die Abfrage eines Benutzers generiert – offline ohne Datennetzwerk erfolgen muss.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Wie kleine Sprachmodelle funktionieren

LLMs dienen als Basis für SLMs. Wie große Sprachmodelle verwenden auch kleine Sprachmodelle eine auf einem Neural Networks-basierende Architektur, die als Transformer-Modell bezeichnet wird. Transformer sind in der Verarbeitung natürlicher Sprache (NLP) zu einer grundlegenden Komponente geworden und fungieren als Bausteine von Modellen wie dem Generative Pre-Trained Transformer (GPT).

Hier ist ein kurzer Überblick über die Transformer-Architektur:

  • Encoder transformieren Eingabesequenzen in numerische Darstellungen, sogenannte Einbettungen, die die Semantik und Position von Token in der Eingabesequenz erfassen.

  • Ein Selbstaufmerksamkeitsmechanismus ermöglicht es Transformern, ihre Aufmerksamkeit auf die wichtigsten Token in der Eingabesequenz zu richten, unabhängig von ihrer Position.

  • Decoder nutzen diesen Selbstaufmerksamkeitsmechanismus und die Einbettungen der Encoder, um die statistisch wahrscheinlichste Ausgabesequenz zu generieren.

Modellkomprimierung

Modellkomprimierungstechniken werden angewandt, um aus einem größeren Modell ein schlankeres Modell zu erstellen. Bei der Komprimierung eines Modells geht es darum, seine Größe zu reduzieren und dabei so viel wie möglich von seiner Genauigkeit zu bewahren. Hier sind einige gängige Methoden zur Modellkomprimierung:

  • Bereinigung

  • Quantisierung

  • Low-Rank-Faktorisierung

  • Wissensdestillation

Bereinigung

Beim Pruning werden weniger wichtige, redundante oder unnötige Parameter aus einem Neural Networks entfernt. Zu den Parametern, die normalerweise bereinigt werden, gehören die numerischen Gewichtungen, die den Verbindungen zwischen Neuronen entsprechen (in diesem Fall werden die Gewichtungen auf 0 gesetzt), die Neuronen selbst oder die Schichten in einem neuronalen Netz.

Bereinigte Modelle müssen nach der Bereinigung oft noch eine Feinabstimmung durchlaufen, um den Genauigkeitsverlust auszugleichen. Und es ist wichtig zu wissen, wann genug Parameter bereinigt wurden, denn eine übermäßige Bereinigung kann die Leistung eines Modells beeinträchtigen.

Quantisierung

Bei der Quantisierung werden hochpräzise Daten in Daten mit niedrigerer Genauigkeit umgewandelt. Zum Beispiel können Modellgewichte und Aktivierungswerte (eine Zahl zwischen 0 und 1, die den Neuronen in einem neuronalen Netzwerk zugewiesen wird) als 8-Bit-Ganzzahlen statt als 32-Bit-Gleitkommazahlen dargestellt werden. Durch Quantisierung kann die Rechenlast verringert und Inferenzen beschleunigt werden.

Die Quantisierung kann in das Modelltraining integriert werden (bekannt als quantisierungsbewusstes Training (Quantization-Aware Training, QAT) oder nach dem Training durchgeführt werden (als Post-Training-Quantisierung oder PTQ bezeichnet). PTQ benötigt nicht so viel Rechenleistung und Trainingsdaten wie QAT, kann aber ein genaueres Modell liefern.

Low-Rank-Faktorisierung

Die Low-Rank-Faktorisierung zerlegt eine große Matrix von Gewichtungen in eine kleinere Matrix mit niedrigerem Rang. Diese kompaktere Annäherung kann zu weniger Parametern führen, die Anzahl der Berechnungen verringern und komplexe Matrixoperationen vereinfachen.

Die Low-Rank-Faktorisierung kann jedoch rechenintensiv und schwieriger zu implementieren sein. Wie die Bereinigung erfordert auch das faktorisierte Netz eine Feinabstimmung, um den Genauigkeitsverlust auszugleichen.

Wissensdestillation

Bei der Wissensdestillation geht es darum, die Erkenntnisse aus einem vortrainierten „Lehrermodell“ auf ein „Schülermodell“ zu übertragen. Das Schülermodell wird so trainiert, dass es nicht nur mit den Vorhersagen des Lehrermodells übereinstimmt, sondern auch dessen zugrundeliegenden Denkprozess nachahmt. So wird das Wissen eines größeren Modells im Wesentlichen in ein kleineres Modell „destilliert“.

Wissensdestillation ist ein beliebter Ansatz für viele SLMs. Normalerweise wird das Offline-Destillationsschema verwendet, bei dem die Gewichte des Lehrermodells eingefroren sind und während des Destillationsprozesses nicht geändert werden können.

AI Academy

Wählen Sie das richtige KI-Modell für Ihren Anwendungsfall

Größer ist nicht immer besser, wenn es um KI-Modelle geht. Erfahren Sie, wie Sie die richtige Lösung für Ihre Geschäftsanforderungen finden. Holen Sie sich anschließend den Leitfaden, der Ihnen hilft, aktiv zu werden.

Beispiele für kleine Sprachmodelle

Während größere Modelle für viele Unternehmen die bevorzugte Technologie bleiben, gewinnen kleinere Modelle schnell an Bedeutung. Hier sind einige Beispiele für beliebte SLMs:

  • DistilBERT

  • Gemma

  • GPT-4o mini

  • Granite

  • Llama

  • Ministral

  • Phi

DistilBERT

DistilBERT ist eine leichtere Version des bahnbrechenden Foundation Models BERT von Google. Es nutzt die Wissensdestillation, um es 40 % kleiner und 60 % schneller als seinen Vorgänger zu machen, während 97 % der Funktionen von BERT zum Natural Language Understanding erhalten bleiben.1

Andere verkleinerte Versionen von BERT sind „tiny“ mit 4,4 Millionen Parametern, „mini“ mit 11,3 Millionen Parametern, „small“ mit 29,1 Millionen Parametern und „medium“ mit 41,7 Millionen Parametern.2 Mittlerweile ist MobileBERT auf mobile Geräte zugeschnitten.3

Gemma

Gemma basiert auf der gleichen Technologie wie Gemini LLM von Google und ist in Parametergrößen von 2, 7 und 9 Milliarden verfügbar.4 Gemma ist über Google KI Studio und die Plattformen Kaggle und Hugging Face verfügbar.

Gemini verfügt ebenfalls über leichtere Varianten in Form von Gemini 1.5 Flash-8B und Gemini 1.0 Nano, die für den Betrieb auf mobilen Geräten konzipiert sind.5

GPT-4o mini

GPT-4o Mini ist Teil der GPT-4 Familie von KI-Modellen von OpenAI , die den generativen intelligenten Chatbot ChatGPT unterstützt. GPT-4o Mini ist eine kleinere, kostengünstige Variante von GPT-4o. Es verfügt über multimodale Funktionen, akzeptiert sowohl Text- als auch Bild-Eingaben und erzeugt Textausgaben.

Benutzer von ChatGPT Free, Plus, Team und Enterprise können auf GPT-4o mini zugreifen, das GPT-3.5 ersetzt. Entwickler können über verschiedene Programmierschnittstellen (APIs) auf GPT-4o mini zugreifen.

Granite

GraniteTM ist die IBM®-Flaggschiffserie von LLM Foundation Models. Granite 3.0 umfasst grundlegende vortrainierte und anweisungsoptimierte Modelle mit 2 und 8 Milliarden Parametern. Granite 3.0 bietet auch eine Mischung aus Experten (MoE)-SLMs für minimale Latenz und eine optimierte Variante zur Beschleunigung der Modellinferenzgeschwindigkeit.

Diese Open Source-Modelle tun sich nicht nur bei sprachspezifischen Aufgaben hervor, sondern auch in Unternehmensbereichen wie der Cybersicherheit, als KI-Agenten, die Tool- oder Funktionsaufrufe zur autonomen Ausführung von Aufgaben nutzen, und bei Retrieval-Augmented-Generation (RAG)-Aufgaben, bei denen Fakten aus einer externen Wissensdatenbank abgerufen werden müssen, um Modelle auf die genauesten und aktuellsten Informationen zu stützen.

Granite 3.0-Modelle sind für die kommerzielle Nutzung auf Produkten im IBM watsonx™-Portfolio und über Google Vertex AI, Hugging Face, NVIDIA (als NIM-Microservices), Ollama und Replicate verfügbar.

Llama

Llama ist die Reihe der Open Source-Sprachmodelle von Meta. Llama 3.2 ist in 1 bzw. 3 Milliarden Parametergrößen erhältlich und6 damit sogar kleiner als die frühere Version von Llama 2 mit 7 Milliarden Parametern.7

Die quantisierten Versionen dieser mehrsprachigen reinen Textmodelle wurden auf mehr als die Hälfte ihrer Größe reduziert und sind 2 bis 3 Mal schneller.6 Auf diese SLMs kann über Meta, Hugging Face und Kaggle zugegriffen werden.

Ministral

Les Ministraux ist eine Gruppe von SLMs von Mistral AI. Ministral 3B ist mit 3 Milliarden Parametern das kleinste Modell des Unternehmens, während Ministral 8B mit 8 Milliarden Parametern der Nachfolger von Mistral 7B ist, einem der ersten KI-Modelle, die Mistral AI veröffentlicht hat. Der Zugriff auf beide Modelle erfolgt über Mistral.8

Ministral 8B übertrifft Mistral 7B in Benchmarks, die Wissen, gesunden Menschenverstand, Mathematik und Mehrsprachigkeit bewerten. Für eine schnelle Inferenz verwendet Ministral 8B die Sliding-Window-Attention, einen dynamischen Mechanismus zur Fokussierung auf bestimmte „Fenster“ von Eingabesequenzen fester Größe, die es den Modellen ermöglichen, sich jeweils nur auf einige wenige Wörter zu konzentrieren.8

Phi

Phi ist eine Suite kleiner Sprachmodelle von Microsoft. Phi-2 hat 2,7 Milliarden Parameter, während Phi-3-mini 3,8 Milliarden Parameter hat.9

Phi-3-mini kann aufgrund seines langen Kontextfensters, das die maximale Textmenge darstellt, die ein Modell berücksichtigen kann, große Textinhalte analysieren und Schlussfolgerungen ziehen. Nach Angaben von Microsoft wird Phi-3- Small, sein SLM mit 7 Milliarden Parametern, in Zukunft verfügbar sein. Phi-3-mini kann auf Microsoft Azure KI Studio, Hugging Face und Ollama zugegriffen werden.9

Kombination von LLMs und SLMs

Fortschritte in der KI-Entwicklung haben zu Optimierungsansätzen geführt, die das gemeinsame Potenzial von LLMs und SLMs maximieren:

Hybrides KI-Muster: Bei einem hybriden KI-Modell können kleinere Modelle on-Premises ausgeführt werden und auf LLMs in der Public Cloud zugreifen, wenn ein größerer Datenkorpus erforderlich ist, um auf ein Prompt zu antworten.

Intelligentes Routing: Intelligentes Routing kann zur effizienteren Verteilung von KI-Workloads eingesetzt werden. Es kann ein Routing-Modul erstellt werden, um Abfragen zu akzeptieren, sie auszuwerten und das am besten geeignete Modell auszuwählen, an das Abfragen weitergeleitet werden sollen. Kleine Sprachmodelle können einfache Anfragen bearbeiten, während große Sprachmodelle kompliziertere Anfragen bearbeiten können.

Vorteile kleiner Sprachmodelle

Größer ist nicht immer besser, und was SLMs an Größe fehlt, machen sie durch die folgenden Vorteile wett:

Zugänglichkeit: Forscher, KI-Entwickler und andere Personen können Sprachmodelle erkunden und mit ihnen experimentieren, ohne in mehrere GPUs (Grafikprozessoren) oder anderes spezialisiertes Equipment investieren zu müssen.

Effizienz: Durch ihre Schlankheit verbrauchen SLMs weniger Ressourcen, was schnelles Training und Bereitstellung ermöglicht.

Effektive Leistung: Diese Effizienz geht nicht auf Kosten der Leistung. Kleine Modelle können eine vergleichbare oder sogar bessere Leistung aufweisen als ihre großen Pendants. Zum Beispiel übertrifft GPT-4o mini GPT-3.5 Turbo in den LLM-Benchmarks für die Bereiche Sprachverständnis, Fragenbeantwortung, logisches Denken, mathematisches Denken und Codegenerierung.10 Die Leistung von GPT-4o mini kommt auch der seines größeren Bruders GPT-4o nahe.10

Besserer Datenschutz und mehr Sicherheitskontrolle: Aufgrund ihrer geringeren Größe können SLMs in Private Cloud-Umgebungen oder On-Premise bereitgestellt werden, was einen verbesserten Datenschutz sowie eine bessere Verwaltung und Eindämmung von Cybersicherheitsbedrohungen ermöglicht. Dies kann besonders wertvoll für Sektoren wie das Finanzwesen oder das Gesundheitswesen sein, in denen sowohl Datenschutz als auch Sicherheit an erster Stelle stehen.

Geringere Latenz: Weniger Parameter führen zu kürzeren Verarbeitungszeiten, sodass SLMs schnell reagieren können. Granite 3.0 1B-A400M und Granite 3.0 3B-A800M beispielsweise haben eine Gesamtparameteranzahl von 1 Milliarde bzw. 3 Milliarden, während ihre aktiven Parameteranzahlen zum Zeitpunkt der Inferenz 400 Millionen für das 1B-Modell und 800 Millionen für das 3B-Modell betragen. Dadurch können beide SLMs die Latenz minimieren und gleichzeitig eine hohe Leistung erzielen.

Ökologisch nachhaltiger: Da sie weniger Rechenressourcen benötigen, verbrauchen kleine Sprachmodelle weniger Energie und verringern dadurch ihre CO2-Bilanz.

Geringere Kosten: Unternehmen können Entwicklungs-, Infrastruktur- und Betriebskosten einsparen, die sonst für die Ausführung umfangreicher Modelle erforderlich wären, z. B. für die Beschaffung großer Mengen hochwertiger Trainingsdaten und die Verwendung fortschrittlicher Hardware.

Einschränkungen kleiner Sprachmodelle

Wie LLMs müssen sich auch SLMs immer noch mit den Risiken von KI auseinandersetzen. Dies ist ein Aspekt, den Unternehmen bei der Integration kleiner Sprachmodelle in ihre internen Workflows oder bei der kommerziellen Implementierung für spezifische Anwendungen berücksichtigen sollten.

Verzerrung: Kleinere Modelle können aus der Verzerrung ihrer größeren Gegenstücke lernen, und dieser Dominoeffekt kann sich in ihren Ausgaben manifestieren.

Geringere Leistung bei komplexen Aufgaben: Da SLMs in der Regel auf bestimmte Aufgaben spezialisiert sind, können sie bei komplexen Aufgaben, die Kenntnisse über ein umfassendes Spektrum von Themen erfordern, weniger gut abschneiden. Microsoft stellt zum Beispiel fest, dass seine „Phi-3-Modelle nicht so gut auf den Benchmark für Faktenwissen abschneiden, da die kleinere Modellgröße zu einer geringeren Kapazität führt, Fakten zu speichern“.9

Eingeschränkte Verallgemeinerung: Kleinen Sprachmodellen fehlt die breite Wissensbasis ihrer umfassenden Äquivalente, sodass sie möglicherweise besser für gezielte Sprachaufgaben geeignet sind.

Halluzinationen: Die Validierung der Ergebnisse von SLMs ist von entscheidender Bedeutung, um sicherzustellen, dass das, was sie produzieren, sachlich korrekt ist.

Anwendungsfälle für kleine Sprachmodelle

Unternehmen können SLMs durch Feinabstimmung anhand von domänenspezifischen Datensätzen an ihre spezifischen Bedürfnisse anpassen. Dank dieser Anpassungsfähigkeit können kleine Sprachmodelle für eine Vielzahl von realen Anwendungen eingesetzt werden:

Chatbots: Aufgrund ihrer geringen Latenz und ihrer dialogorientierten KI-Funktionen können SLMs Chatbots für den Kundenservice unterstützen, die schnell und in Echtzeit auf Anfragen reagieren. Sie können auch als Rückgrat für agentische KI-Chatbots dienen, die über die Bereitstellung von Antworten auf die Erledigung von Aufgaben im Namen eines Benutzers hinausgehen.

Zusammenfassung von Inhalten: Die Llama 3.2 1B- und 3B-Modelle können beispielsweise verwendet werden, um Diskussionen auf einem Smartphone zusammenzufassen und Aktionselemente wie Kalenderereignisse zu erstellen.6 In ähnlicher Weise kann Gemini Nano Audioaufnahmen und Transkripte von Gesprächen zusammenfassen.11

Generative KI: Für die Vervollständigung und Generierung von Text- und Softwarecode können kompakte Modelle implementiert werden. Zum Beispiel können die Modelle Granite-3b-code-instruct und Granite-8b-code-instruct verwendet werden, um Code aus einem Prompt in natürlicher Sprache zu generieren, zu erklären und zu übersetzen.

Sprachübersetzung: Viele kleine Sprachmodelle sind mehrsprachig und wurden in anderen Sprachen als Englisch trainiert, sodass sie schnell zwischen Sprachen übersetzen können. Aufgrund ihrer Fähigkeit, den Kontext zu verstehen, können sie nahezu genaue Übersetzungen anfertigen, die die Nuancen und die Bedeutung des Originaltextes beibehalten.

Vorausschauende Wartung: Lean-Modelle sind klein genug, um direkt auf lokalen Edge-Geräten wie Sensoren oder Internet der Dinge (IoT)-Geräten bereitgestellt zu werden. Das bedeutet, dass Hersteller SLMs als Tools verwenden können, die Daten von Sensoren sammeln, die in Maschinen und Equipment installiert sind, und diese Daten in Echtzeit analysieren, um den Wartungsbedarf vorherzusagen.

Stimmungsanalyse: Neben der Verarbeitung und dem Verständnis von Sprache sind SLMs auch in der Lage, große Textmengen objektiv zu sortieren und zu klassifizieren. Dadurch eignen sie sich, um Texte zu analysieren und die Stimmung dahinter einzuschätzen, und helfen dabei, Kundenfeedback zu verstehen.

Unterstützung bei der Fahrzeugnavigation: Ein so schnelles und kompaktes Modell wie ein SLM kann auf den Bordcomputern eines Fahrzeugs laufen. Aufgrund ihrer multimodalen Funktionen können kleine Sprachmodelle Sprachbefehle mit Bildklassifizierung kombinieren, um z. B. Hindernisse in der Nähe eines Fahrzeugs zu erkennen. Sie können sogar ihre RAG-Funktionen nutzen und Details von Straßenvorschriften oder Straßenregeln abrufen, um Treibern zu helfen, sicherere und fundiertere Fahrentscheidungen zu treffen.

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai Erkunden Sie die KI-Modelle von IBM Granite
Fußnoten

Alle Links befinden sich außerhalb von ibm.com

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 1. März 2020

2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models, arXiv, 25. September 2019

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 14. April 2020

4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15. August 2024

5 Gemini Models, Google DeepMind, Abgerufen am 17. Oktober 2024

6 Introducing Llama 3.2, Meta, abgerufen am 17. Oktober 2024

7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 18. Juli 2023

8 Un Ministral, des Ministraux, Mistral AI, 16. Oktober 2024

9 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23. April 2024

10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 18. Juli 2024

11 Gemini Nano, Google DeepMind, Abgerufen am 21. Oktober 2024