GGUF versus GGML

Luftaufnahme des beleuchteten San Francisco.

GPT-generiertes einheitliches Format (GPT-Generated Unified Format, GGUF) ist ein Dateiformat, das die Verwendung und Bereitstellung großer Sprachmodelle (LLMs) optimiert. GGUF wurde speziell für die Speicherung von Inferenzmodellen und eine gute Leistung auf Computerhardware für Privatanwender entwickelt.

Dies wird erreicht, indem die Modellparameter (Gewichtungen und Verzerrungen) für eine effiziente Ausführung mit zusätzlichen Metadaten kombiniert werden. GGUF ist klar, erweiterbar, vielseitig und in der Lage, neue Informationen zu integrieren, ohne die Kompatibilität mit älteren Modellen zu beeinträchtigen. GGUF ist eine neuere Entwicklung, die auf den Grundlagen des Vorgängerdateiformats GGML aufbaut.

GGUF ist ein Binärformat, das explizit für das schnelle Laden und Speichern von Modellen konzipiert ist. Da es mit verschiedenen Programmiersprachen wie Python und R kompatibel ist, hat GGUF zur Beliebtheit des Formats beigetragen. Es unterstützt auch die Feinabstimmung, so dass Benutzer LLMs an spezielle Anwendungen anpassen können, und es speichert Prompt-Vorlagen für die anwendungsübergreifende Bereitstellung von Modellen. Während GGML weiterhin verwendet wird, erfreut sich GGUF mittlerweile umfassenderer Unterstützung.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Was ist der Unterschied zwischen GGUF und GGML?

GGML war das Dateiformat, das GGUF direkt vorausging und vom Entwickler Georgi Gerganov geschaffen wurde. Der Name ist eine Kombination aus Gerganovs Initialen (GG) und ML für maschinelles Lernen. GGML war eine Tensor-Bibliothek, die für hohe Leistung auf verschiedenen Hardware-Plattformen entwickelt wurde. Es war auch ein früher Versuch, ein Dateiformat für OpenAIs GPT-Modelle für künstliche Intelligenz zu erstellen, um den einfachen Austausch und die Ausführung von Modellen zu erleichtern. GGML wurde entwickelt, um eindeutig zu sein und alle notwendigen Informationen zum Laden eines Modells zu enthalten.

GGML war ein früher Versuch, große Sprachmodelle auf Standardhardware zugänglich zu machen. Allerdings war diese Lösung in Bezug auf Flexibilität und Erweiterbarkeit begrenzt. Das bedeutet, dass GGML manuell angepasst werden musste und Kompatibilitätsprobleme auftraten, wenn Benutzer neue Funktionen hinzufügten, um seine Einschränkungen zu beseitigen.

GGUF behebt die Einschränkungen von GGML und ermöglicht das Hinzufügen neuer Funktionen unter Beibehaltung der Kompatibilität mit älteren Modellen. Da GGUF Breaking Changes eliminiert, erleichtert es den Übergang zu neueren Versionen und unterstützt eine breite Palette von Modellen, was es zu einer umfassenden Lösung macht. Die Konvertierung bestehender Modelle in GGUF kann zeitaufwändig sein, und wie bei allen neuen Formaten müssen sich Benutzer und Entwickler an die Besonderheiten gewöhnen.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Konvertierung in GGUF

Huggingface ist ein Unternehmen und eine von der Community getragene Plattform, die Tools und Modelle für die Verarbeitung natürlicher Sprache ( Natural Language Processing, NLP) bereitstellt. Sie bieten eine Transformers-Bibliothek an, die viele vortrainierte Modelle enthält, die in das GGUF-Dateiformat konvertiert werden können. Huggingface unterstützt darüber hinaus Feinabstimmung und Bereitstellung und ist damit ein integraler Bestandteil des Ökosystems rund um GGUF.

Transformer sind eine Art Modellarchitektur, die zum Rückgrat der modernen NLP geworden ist. GGUF unterstützt die Speicherung und Bereitstellung transformatorbasierter Modelle für Anwendungen, die auf diesen fortschrittlichen Architekturen basieren.

Warum GGUF wichtig ist

GGUF bietet ein robustes, flexibles und effizientes Format für Sprachmodelle. Es beseitigt die Beschränkungen früherer Formate und gewährleistet die Kompatibilität mit sich entwickelnden Technologien und Techniken. Seine erhöhte Flexibilität, verbesserte Leistung und die Unterstützung für fortschrittliche Quantisierungs- und Bereitstellungs-Frameworks machen es zu einem entscheidenden Werkzeug für die Zukunft von KI und maschinellem Lernen.

Modellgewichte sind die Parameter, die von einem maschinellen Lernmodell während des Trainings gelernt werden. GGUF speichert diese Gewichte effizient, was schnelles Laden und Inferenz ermöglicht. Quantisierungsmethoden, die auf Modellgewichte angewendet werden, können die Leistung weiter verbessern und den Ressourcenverbrauch reduzieren.

Die Quantisierung, der Prozess der Umwandlung kontinuierlicher Signale in digitale Formate mit weniger möglichen Werten, spielt bei GGUF eine entscheidende Rolle. Die Quantisierung verbessert die Effizienz und Leistung, insbesondere bei Hardware mit begrenzten Ressourcen. Durch die Reduzierung der Modellgröße und die Verbesserung der Inferenzgeschwindigkeit benötigen quantisierte Modelle weniger Rechenleistung, was zu einem geringeren Energieverbrauch führt. Dadurch eignet sich GGUF hervorragend für die Bereitstellung auf Edge-Geräten und mobilen Plattformen, bei denen die Energieressourcen beschränkt sind.

Eine spezielle Quantisierungstechnik, die verwendet wird, ist zum Beispiel GPTQ (Accurate Post-Training Quantization for Generative Pre-trained Transformers). GPTQ reduziert die Größe und den Rechenaufwand eines LLM, indem es seine komplexen Daten in einfachere Formate konvertiert. Dies ermöglicht die Bereitstellung von LLMs auf Geräten mit weniger Speicher und Rechenleistung.

GGUF ist zudem so konzipiert, dass neue Funktionen integriert werden, ohne die Kompatibilität mit einer früheren Version zu beeinträchtigen. Diese Funktionalität ermöglicht das Hinzufügen neuer Datentypen und Metadaten, was GGUF zukunftssicher macht. Während sich maschinelle Lernmodelle weiterentwickeln, kann GGUF diese Änderungen berücksichtigen und so die langfristige Relevanz und Anpassungsfähigkeit sicherstellen.

Das Binärformat von GGUF verbessert die Geschwindigkeit des Ladens und Speicherns von Modellen erheblich, was besonders für Anwendungen von entscheidender Bedeutung ist, die eine schnelle Bereitstellung und Inferenz erfordern. Echtzeit-Sprachkonvertierungsdienste und interaktive KI-Systeme profitieren beispielsweise von der effizienten Handhabung von Modelldateien durch GGUF. Je schneller ein Modell geladen und verwendet werden kann, desto besser ist die Benutzererfahrung in diesen zeitkritischen Anwendungen.

GGUF zeichnet sich durch seine Kompatibilität mit fortschrittlichen Modellabstimmungs-Techniken wie Low-Rank Adaptation (LoRA), Quantized Low-Rank-Adaptation (QLoRA) und Adaptive Weight Quantization (AWQ) aus. Diese Techniken optimieren die Modellleistung und die Ressourcennutzung weiter.

Darüber hinaus unterstützt GGUF verschiedene Quant-Ebenen und bietet Flexibilität beim Ausgleich zwischen Modellgenauigkeit und Effizienz. Zu den gängigen Quantisierungsschemata, die von GGUF unterstützt werden, gehören:

  • 2-Bit-Quantisierung: Bietet die höchste Komprimierung, wodurch die Modellgröße und die Inferenzgeschwindigkeit erheblich reduziert werden, was sich jedoch möglicherweise auf die Genauigkeit auswirkt.
  • 4-Bit-Quantisierung: Schafft ein Gleichgewicht zwischen Kompression und Genauigkeit und eignet sich daher für viele praktische Anwendungen.
  • 8-Bit-Quantisierung: Bietet eine gute Genauigkeit bei mäßiger Kompression; in diversen Anwendungen weit verbreitet.

Quants beziehen sich auf die verschiedenen Quantisierungsstufen, die auf Modellgewichtungen angewendet werden, z. B. 2-Bit-, 4-Bit- oder 8-Bit-Quantisierung.

GGUF-Modelle verwenden auch Compute Unified Device Architecture (CUDA), eine Plattform für parallele Datenverarbeitung und Anwendungsprogrammierschnittstelle, die es Modellen ermöglicht, GPUs für beschleunigte Rechenaufgaben zu verwenden. Diese Fähigkeit verbessert die Rechenleistung und Geschwindigkeit von Sprachmodellen. Schließlich erleichtert die Integration von GGUF mit Langchain, einem Framework für die Entwicklung und Bereitstellung von Sprachmodellen, auch die Bereitstellung von GGUF-Modellen, so dass sie effektiv in Entwicklungsumgebungen und Anwendungen genutzt werden können.

GGUF-Modelle und Anwendungsfälle

Großsprachmodell Meta KI (LLaMA)
 

Meta verwendet GGUF für seine LLaMA-Modelle (Llama-2 und Llama-3), die für NLP-Aufgaben konzipiert sind, einschließlich Textgenerierung, Zusammenfassung und Fragenbeantwortung. GGUF in LLaMA ermöglicht die Bereitstellung in verschiedenen Hardwarekonfigurationen, von leistungsstarken GPUs bis hin zu den gängigeren Verbraucher-CPUs. Llama-3 ist das aktuelle Modell.

Textgenerierungs-WebUI

 

Diese Webschnittstelle generiert Text mit LLMs und verwendet GGUF für die Modellspeicherung und Inferenz. Die Flexibilität von GGUF ermöglicht es Benutzern, große Modelle schnell zu laden, um Textgenerierungsaufgaben mit minimaler Latenz durchzuführen.

KoboldCpp

 

KoboldCpp ist ein beliebter Client für die lokale Ausführung von LLMs und hat GGUF eingeführt, um seine Leistung für Endbenutzer zu verbessern. Dies ist besonders vorteilhaft für Hobbyisten und Forscher, die robuste und benutzerfreundliche Lösungen für das Experimentieren mit LLMs auf PCs benötigen.

Unterstützung der Community und des Ökosystems

Die Entwicklung von GGUF wird von einer kollaborativen Gemeinschaft unterstützt. Zur Unterstützung von GGUF wurden zahlreiche Bibliotheken und Tools entwickelt, die eine breite Akzeptanz und Integration in verschiedene KI-Workflows gewährleisten. Zu den wichtigsten Akteuren in diesem Ökosystem gehören:

  • llama.cpp: Eine Kernbibliothek, die Tools für die Arbeit mit GGUF bereitstellt, einschließlich Konvertierungsdienstprogramme und Unterstützung für die Ausführung von Modellen.
  • ctransformers: Diese Bibliothek unterstützt die Integration von GGUF-Modellen in verschiedene Programmierumgebungen, was es Entwicklern erleichtert, diese Modelle in ihren Anwendungen zu verwenden.
  • LoLLMS Web UI: Eine webbasierte Schnittstelle, die GGUF unterstützt und Benutzern die Interaktion mit Modellen über eine benutzerfreundliche Oberfläche ermöglicht.

Zukunftssicherheit und allgemeinere Wirkung

Die Einführung von GGUF markiert einen Wandel hin zu nachhaltigeren und anpassungsfähigeren generativen Modellformaten. Seine Fähigkeit, eine breite Palette von Modellen und Konfigurationen zu unterstützen, bedeutet, dass es nicht auf bestimmte Anwendungsfälle oder Hardware beschränkt ist. Diese Vielseitigkeit stellt sicher, dass GGUF die Bedürfnisse der KI-Community auch weiterhin erfüllen kann, wenn sich neue Fortschritte abzeichnen.

Darüber hinaus minimiert der Schwerpunkt von GGUF auf die Kompatibilität mit einer früheren Version die Unterbrechung während Upgrades und erleichtert Unternehmen den Übergang zu neueren Versionen ohne nennenswerte Ausfallzeiten oder Neukonfigurationen.

Da GGUF ein offenes Format ist, profitiert es von den Beiträgen der Open-Source-Community, die zu seiner Entwicklung, Verbesserung und allgemeinen Verbreitung beiträgt. Die Einführung in hochkarätigen Projekten wie LLaMA und verschiedenen KI-Tools unterstreicht seine Bedeutung für die laufende Entwicklung von großen Sprachmodellen. Durch die Ermöglichung einer schnelleren, flexibleren und zukunftssichereren Bereitstellung von Modellen spielt GGUF eine entscheidende Rolle bei der Weiterentwicklung der Funktionen von KI-Systemen.

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden Erkunden Sie KI-Lösungen