Was ist Google Gemma?

Edelsteine, die untersucht werden

Autoren

Rina Diane Caballar

Staff Writer

IBM Think

Was ist Google Gemma?

Gemma ist ein kostenloses und offenes kleines Sprachmodell (SLMs) aus der Google-Familie. Sie basieren auf der gleichen Technologie wie die Gemini-Familie der großen Sprachmodelle (LLMs) und gelten als „leichtgewichtige“ Versionen von Gemini.

Weil sie schlanker sind als Gemini-Modelle, können Gemma-Modelle auf Laptops und Mobilgeräten bereitgestellt werden, aber sie sind auch für NVIDIA-Grafikprozessoren (GPUs) und Google Cloud-Tensorprozessoren (TPUs) optimiert. Doch im Gegensatz zu Gemini ist Gemma weder mehrsprachig noch multimodal.

Diese Text-to-Text-Modelle für künstliche Intelligenz (KI) leiten ihren Namen von demselben lateinischen Wort ab, was „Edelstein“ bedeutet. Gemma ist eine Gruppe offener Modelle, wobei Google kostenlosen Zugriff auf die Modellgewichtungen bietet und die Modelle für die individuelle und kommerzielle Nutzung und Weiterverteilung frei verfügbar sind.1

Die Modelle der ersten Generation von Gemma wurden im Februar 2024 eingeführt,1 während die Modelle der zweiten Generation im Juni 2024 angekündigt wurden.2

Die Gemma-Modellfamilie

Gemmas Sammlung von KI-Modellen umfasst Gemma und Gemma 2 als Kernstück sowie einige weitere spezialisierte Modelle, die für bestimmte Aufgaben optimiert wurden und auf einer anderen Architektur basieren. Die Modelle der Gemma-Linie umfassen im Kern Gemma und Gemma 2 sowie einige spezialisiertere Modelle, die für bestimmte Aufgaben optimiert wurden.

Gemma

Gemma ist die erste Generation der Gemma-Modelle. Gemma 2B ist mit 2 Milliarden Parametern die kleinste, während Gemma 7B 7 Milliarden Parameter hat. Diese Modelle wurden mit Code und mathematischen Datensätzen und hauptsächlich englischsprachigen Inhalten aus Webdokumenten trainiert.3

Gemma 2

Gemma 2 ist die zweite Generation der Gemma-Familie. Laut Google hat Gemma 2 im Vergleich zu seinem Vorgänger eine bessere Leistung und ist effizienter bei der KI-Inferenz (wenn ein Modell eine Antwort auf die Anfrage eines Nutzers generiert).2

Das Modell ist in den Größen 2, 9 und 27 Milliarden Parameter erhältlich. Ihre Trainings-Datensätze umfassen englischsprachige Webdokumente, Code und wissenschaftliche Artikel.4

CodeGemma

Dieses Text-to-Code-Modell ist speziell auf Codierungsaufgaben abgestimmt. Es unterstützt mehrere Programmiersprachen, darunter C++, C#, Go, Java, JavaScript, Kotlin, Python und Rust.5

CodeGemma hat eine vortrainierte 7B-Variante für die Codevervollständigung und Codegenerierung, eine anweisungsoptimierte 7B-Variante für Code-Chat in natürlicher Sprache und Befolgung von Anweisungen und eine vortrainierte 2B-Variante für die schnelle Code-Vervollständigung.5

DataGemma

DatenGemma besteht aus fein abgestimmten Gemma- und Gemma-2-Modellen, die ihre Antworten mit Daten aus Google Data Commons ergänzen, einem Repository für öffentliche statistische Daten. DataGemma RIG-Modelle wenden die Retrieval-Interleaved Generation an, um Abfragen in natürlicher Sprache zum Abrufen von Daten aus Data Commons zu erstellen. DataGemma RAG-Modelle verwenden unterdessen Retrieval-Augmented Generation für das Abrufen von Daten aus Data Commons, die die Prompts der Modelle erweitern kann.6

PaliGemma

Dieses Vision-Language-Modell akzeptiert sowohl Bilder als auch Text als Eingabe und erzeugt Text als Ausgabe. Daher ist es ideal, um Fragen zu Bildern zu beantworten, Objekte in Bildern zu erkennen, Bildunterschriften zu generieren und in Bildern eingebetteten Text zu lesen. Seine zugrunde liegende Architektur besteht aus einem Vision-Transformer-Bild-Encoder und einem Transformer-Text-Decoder, der von Gemma 2B initialisiert wurde.7

PaliGemma verfügt über einen allgemeinen Satz von vortrainierten Modellen und einen forschungsorientierten Satz von Modellen, die auf bestimmte Forschungsdatensätze abgestimmt sind. Google stellt fest, dass die meisten PaliGemma-Modelle eine Feinabstimmung erfordern und die Ausgaben vor der Bereitstellung für Nutzer getestet werden müssen.8

RecurrentGemma

RecurrentGemma verwendet eine Architektur mit wiederkehrenden neuronalen Netzen, die von Google-Forschern entwickelt wurde. Dadurch ist es schneller bei der Inferenz – insbesondere beim Generieren langer Sequenzen – und benötigt weniger Speicher als Gemma. Es ist in vortrainierten und anweisungsoptimierten Modellen mit 2 bzw. 9 Mrd. Parametern erhältlich.9

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Anwendungsfälle für Gemma

CodeGemma und PaliGemma haben ihre eigenen spezifischen Anwendungsfälle. Aber im Allgemeinen können Menschen Gemma für Aufgaben der Verarbeitung natürlicher Sprache (NLP) und des Verstehens natürlicher Sprache verwenden, darunter:

  • Erstellung von dialogorientierter KI-Assistenten und Chatbots
  • Lektorat und Korrekturlesen
  • Beantwortung von Fragen und Recherche
  • Textgenerierung, wie z. B. E-Mails, Werbetexte und andere Inhalte
  • Textzusammenfassung, insbesondere bei langen Dokumenten und großen Mengen an Berichten oder Forschungsarbeiten

Wie funktioniert Google Gemma?

Gemma basiert auf einem Transformer-Modell, einer neuronalen Netz-Architektur, die 2017 von Google entwickelt wurde.10

Hier ist eine kurze Übersicht über die Funktionsweise von Transformer-Modellen:

  • Encoder transformieren Eingabesequenzen in numerische Darstellungen, sogenannte Einbettungen, die die Semantik und Position von Token in der Eingabesequenz erfassen.

  • Ein Selbstaufmerksamkeitsmechanismus ermöglicht es Transformern, ihre „Aufmerksamkeit“ auf die wichtigsten Token in der Eingabesequenz zu richten, unabhängig von ihrer Position.

  • Decoder nutzen diesen Selbstaufmerksamkeitsmechanismus und die Einbettungen der Encoder, um die statistisch wahrscheinlichste Ausgabesequenz zu generieren.

Gemma verwendet jedoch eine Variante der Transformer-Architektur, die als reiner Decoder-Transformer bekannt ist.11 Bei diesem Modell werden Eingabesequenzen direkt in den Decoder eingespeist, der weiterhin Einbettungen und Aufmerksamkeitsmechanismen verwendet, um die Ausgabesequenz zu erzeugen.

Gemma-Modellarchitektur

Die Modelle der ersten Generation von Gemma verbessern Transformer durch einige architektonische Elemente:

  • Jede Schicht des Neural Networks wendet rotierende positionelle Einbettungen anstelle von absoluten positionalen Einbettungen an. Einbettungen werden auch über Eingaben und Ausgaben hinweg gemeinsam genutzt, um das Modell zu komprimieren.3

  • Gemma 7B verwendet Multi-Head-Attention, wobei mehrere „Attention Heads“ ihre eigenen Schlüssel und Werte haben, um verschiedene Arten von Beziehungen zwischen Token zu erfassen. Im Gegensatz dazu verwendet Gemma 2B die Multiquery-Attention, bei der sich alle Aufmerksamkeitsköpfe einen einzigen Satz von Schlüsseln und Werten teilen, wodurch die Geschwindigkeit erhöht und die Speicherbelastung verringert wird.11

Gemma 2-Modellarchitektur

Gemma 2 verwendet tiefere neuronale Netze als Gemma. Hier sind einige weitere bemerkenswerte architektonische Unterschiede:4

  • Für jede andere Schicht seines neuronalen Netzes wechselt Gemma 2 zwischen einer lokalen Aufmerksamkeit mit gleitendem Fenster und einer globalen Aufmerksamkeit. Die lokale Aufmerksamkeit mit gleitendem Fenster ist ein dynamischer Mechanismus zur Fokussierung auf bestimmte „Fenster“ fester Größe von Eingabesequenzen, der es Modellen ermöglicht, sich jeweils nur auf wenige Wörter zu konzentrieren. Die globale Aufmerksamkeit ist unterdessen auf jedes Token in der Sequenz gerichtet.

  • Gemma 2 verwendet auch Aufmerksamkeit mit gruppierten Abfragen, einen Divide-and-Conquer-Ansatz, bei dem Abfragen in kleinere Gruppen aufgeteilt und die Aufmerksamkeit innerhalb jeder Gruppe separat berechnet wird.

  • Außerdem wenden die Gemma 2 2B- und 9B-Modelle Wissensdestillation an, bei der das Wissen eines größeren Modells in ein kleineres „destilliert“ wird, indem das kleinere Modell so trainiert wird, dass es den Denkprozess des größeren Modells emuliert und seine Vorhersagen mit ihm abgleicht.

Anweisungsoptimierung

In Bezug auf die Anweisungsoptimierung, die das Modell darauf vorbereitet, Anweisungen besser zu befolgen, wenden sowohl Gemma als auch Gemma 2 überwachtes Feintuning und verstärkendes Lernen anhand von menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) an.4 Bei der überwachten Feinabstimmung werden gekennzeichnete Beispiele für anweisungsorientierte Aufgaben verwendet, um dem Modell beizubringen, wie es seine Antworten strukturieren soll. RLHF hingegen verwendet ein Belohnungsmodell, um Qualitätsbewertungen von menschlichen Bewertern in numerische Belohnungssignale zu übersetzen und den Modellen zu helfen, zu lernen, welche Antworten positives Feedback erhalten.

Gemma-Leistung

Auswertungen der Leistung von Gemma 7B in LLM-Benchmarks, die Codegenerierung, vernünftiges Denken, Sprachverständnis, mathematisches Denken und Beantwortung von Fragen umfassen, zeigen, dass es mit SLMs einer ähnlichen Größenordnung wie Llama 3 8B und Mistral 7B vergleichbar ist. Gemma 2 9B und 27B schnitten sogar noch besser ab und übertrafen sowohl Llama 3 8B als auch Mistral 7B in den meisten Benchmarks.12

Llama 3.2 3B und Ministral 3B, die neuesten SLMs von Meta bzw. Mistral, haben Gemma 2 2B jedoch in verschiedenen Benchmarks übertroffen.13 Microsofts Phi-3-mini, ein Sprachmodell mit 3,8 Milliarden Parametern, erreichte ebenfalls eine höhere Leistung als Gemma 7B.14

Wie können Menschen auf Gemma zugreifen?

Auf Gemma-Modelle kann über diese Plattformen zugegriffen werden:

  • Google AI Studio

  • Hugging Face (auch in Hugging Face Transformer integriert)

  • Kaggle

  • Vertex AI Model Garden

Außerdem können Entwickler die Modelle in Open-Source-Frameworks für maschinelles Lernen wie JAX, LangChain, PyTorch und TensorFlow sowie über Programmierschnittstellen (APIs) wie Keras 3.0 implementieren. Da Gemma die Optimierung für NVIDIA-GPUs umfasst, können Entwickler außerdem NVIDIA-Tools verwenden, einschließlich des NeMo-Frameworks zur Feinabstimmung von Modellen und TensorRT-LLM, um sie für effiziente Inferenz auf NVIDIA-GPUs zu optimieren. 

Für die KI-Entwicklung in Unternehmen können Gemma-Modelle auf Google Cloud Vertex AI und Google Kubernetes Engine (GKE) bereitgestellt werden. Für diejenigen mit begrenzter Rechenleistung bietet Google Colab kostenlosen cloudbasierten Zugriff auf Rechenressourcen wie GPUs und TPUs.

Gemma-Risiken

Wie andere KI-Modelle setzt sich auch Google Gemma mit den Risiken von KI auseinander, darunter:

  • Verzerrung: Kleinere Modelle können aus der Verzerrung ihrer größeren Gegenstücke lernen, und dieser Dominoeffekt kann sich in ihren Ausgaben widerspiegeln.

  • Halluzinationen: Die Überprüfung und Überwachung der Ausgaben von SLMs wie Gemma ist unerlässlich, um sicherzustellen, dass das, was sie produzieren, präzise und sachlich korrekt ist.

  • Datenschutzverletzungen: Google weist darauf hin, dass die Trainings-Datensätze für Gemma und Gemma 2 gefiltert wurden, um bestimmte persönliche Informationen und andere sensible Daten zu entfernen.4 Einzelne Benutzer und Unternehmen müssen jedoch weiterhin vorsichtig mit den Daten sein, die sie zur Feinabstimmung von Gemma verwenden, um zu vermeiden, dass persönliche oder proprietäre Daten an die Öffentlichkeit gelangen.

Wenn es um Sicherheit geht, bewertete Google Gemma anhand mehrerer Metriken, darunter offensive Cybersicherheit, CBRN-Wissen (chemisch, biologisch, radiologisch und nuklear), Selbstverbreitung (die Fähigkeit, sich autonom zu replizieren) und Überzeugungskraft. Gemmas Kenntnisse im CBRN-Bereich sind gering. Ebenso hat das Modell geringe Fähigkeiten in den Bereichen offensive Cybersicherheit, Selbstverbreitung und Überzeugungskraft.4

Google hat außerdem ein Toolkit für verantwortungsvolle generative KI (Responsible Generative AI Toolkit) veröffentlicht, das KI-Forschenden und -Entwicklern hilft, verantwortungsvolle und sichere KI-Anwendungen zu entwickeln.1

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Fußnoten

Alle Links befinden sich außerhalb von ibm.com

1 Gemma: Introducing new state-of-the-art open models, Google, 21. Februar 2024

2 Gemma 2 ist jetzt für Forscher und Entwickler verfügbar, Google, 27. Juni 2024

3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind, 21. Februar 2024

4 Gemma 2: Improving Open Language Models at a Practical Size, Google DeepMind, 27. Juni 2024

5 CodeGemma model card, Google AI for developers, 5. August 2024

6 Knowing When to Ask – Bridging Large Language Models and Data, arXiv, 10. September 2024

7 PaliGemma model card, GoogleAI for developers, 5. August 2024

8 PaliGemma, Google AI for developers, 5. August 2024

9 RecurrentGemma model card, Google AI for developers, 5. August 2024

10 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31. August 2017

11 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15. August 2024

12 Gemma Open Models, Google AI for Developers, aufgerufen am 5. November 2024

13 Un Ministral, des Ministraux, Mistral AI, 16. Oktober 2024

14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23. April 2024

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden Erkunden Sie KI-Lösungen