Was ist Google Gemini?

Eine Schwarz-Weiß-Fotografie des Goddard Space Centers mit vielen Menschen und Computergeräten.

Autoren

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist Google Gemini?

Gemini ist das große Sprachmodell (Large Language Model, LLM) von Google. Im weiteren Sinne handelt es sich um eine Familie multimodaler KI-Modelle, die für die Verarbeitung mehrerer Modalitäten oder Datentypen entwickelt wurden, darunter Audio, Bilder, Softwarecode, Text und Video.

Gemini ist auch das Modell, das den Chatbot von Google für generative KI (gen AI) antreibt (früher Bard), der den gleichen Namen trägt, so wie Claude von Anthropic sowohl nach dem Chatbot als auch nach der Familie der LLMs benannt ist, die dahinter stehen. Die Gemini-Apps im Web und auf den Mobilgeräten fungieren als Chatbot-Schnittstellen für die zugrundeliegenden Modelle.

Google integriert den Gemini-Chatbot schrittweise in sein Technologieportfolio. Zum Beispiel ist Gemini der Standard-Assistent für künstliche Intelligenz (KI) auf den neuesten Smartphones Google Pixel 9 und Pixel 9 Pro und ersetzt den Google Assistant. In Google Workspace ist Gemini im Seitenbereich von Docs verfügbar, um beim Schreiben und Bearbeiten von Inhalten zu helfen, und im Seitenbereich von Google Mail, um beim Verfassen von E-Mails zu helfen, Antworten vorzuschlagen und den Posteingang eines Nutzers nach Informationen zu durchsuchen.

Auch andere Google-Apps integrieren Gemini. Google Maps nutzt beispielsweise die Funktionen des Gemini-Modells, um Zusammenfassungen von Orten und Gebieten bereitzustellen.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben sich angemeldet.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Wie funktioniert Google Gemini?

Gemini wurde anhand eines riesigen Korpus mehrsprachiger und multimodaler Datensätze trainiert. Es verwendet ein Transformatormodell, eine neuronale Netzwerkarchitektur, die Google selbst 2017 eingeführt hat.1

Hier ist eine kurze Übersicht über die Funktionsweise von Transformer-Modellen:

  • Encoder transformieren Eingabesequenzen in numerische Darstellungen, sogenannte Einbettungen, die die Semantik und Position von Token in der Eingabesequenz erfassen.

  • Ein Selbstaufmerksamkeitsmechanismus ermöglicht es Transformern, ihre „Aufmerksamkeit“ auf die wichtigsten Token in der Eingabesequenz zu richten, unabhängig von ihrer Position.

  • Decoder nutzen diesen Selbstaufmerksamkeitsmechanismus und die Einbettungen der Encoder, um die statistisch wahrscheinlichste Ausgabesequenz zu generieren.

Im Gegensatz zu generativen Pretrained Transformer-Modellen (GPT), die nur textbasierte Prompts verwenden, oder Diffusionsmodellen für die Bildgenerierung, die sowohl Text- als auch Bildprompts verwenden, unterstützt Google Gemini verschachtelte Sequenzen von Audio-, Bild-, Text- und Videosequenzen als Eingaben und kann verschachtelte Text und Bildausgaben als Ausgaben erzeugen.2

Versionen des Gemini-KI-Modells

Die Gemini-Familie multimodaler KI-Modelle gibt es in mehreren Varianten. Jede Variante ist für unterschiedliche Geräte und Aufgaben optimiert.

Das Modell 1.0 der ersten Generation von Gemini ist in den Größen Nano und Ultra erhältlich. Das Modell der nächsten Generation, 1.5, ist in Pro und Flash erhältlich.

Über die Gemini-API in den KI-Entwicklungsplattformen Google AI Studio und Google Cloud Vertex können Sie auf den KI-Features und -Funktionen von Gemini aufbauen und mit ihnen experimentieren. Derzeit sind nur Gemini 1.5 Pro und Gemini 1.5 Flash verfügbar.

Gemini 1.0 Nano

Gemini 1.0 Nano ist die kleinste Version der 1.0-Familie, die für den Betrieb auf mobilen Geräten entwickelt wurde, auch ohne Datennetz. Es kann auf dem Gerät Aufgaben ausführen, z. B. Bilder beschreiben, Antworten auf Chat-Nachrichten vorschlagen, Text zusammenfassen und Sprache transkribieren.

Gemini Nano ist auf Android-Geräten verfügbar, beginnend mit Pixel 8 Pro. Google geht über die Grenzen der Mobilgeräte hinaus und integriert Gemini Nano in seinen Chrome Desktop-Client.

vGemini 1.0 Ultra

Gemini 1.0 Ultra ist die größte Version der 1.0-Familie mit erweiterten Analysefunktionen. Es wurde für hochkomplexe Aufgaben wie Codierung, mathematisches Denken und multimodales Denken entwickelt. Das Kontextfenster – die Anzahl der Token, die ein Modell gleichzeitig verarbeiten kann – von Gemini Nano und Gemini Ultra beträgt 32.000 Token.2

Gemini 1.5 Pro

Gemini 1.5 Pro ist ein mittelgroßes multimodales Modell mit einem Kontextfenster von bis zu 2 Millionen Token. Dieses lange Kontextfenster ermöglicht es Gemini Pro, Informationen in einem größeren Maßstab zu verarbeiten: von stundenlangen Audio- und Videodaten bis hin zu Tausenden von Codezeilen oder Hunderten von Seiten mit Dokumenten.3

Zusätzlich zu einer Transformer-Architektur wendet Gemini 1.5 Pro eine Mixture of Experts (MoE)-Architektur an. MoE-Modelle sind in kleinere „Experten“-Neural-Networks aufgeteilt, die jeweils auf einen bestimmten Bereich oder Datentyp spezialisiert sind. Das Modell lernt, je nach Eingabetyp selektiv nur die relevantesten Experten zu aktivieren. Dies führt zu einer schnelleren Leistung bei gleichzeitiger Senkung der Rechenkosten.4

Gemini 1.5 Flash

Gemini 1.5 Flash ist eine schlanke Version von Gemini Pro. Es wurde mit einer Technik des maschinellen Lernens (ML) namens Wissensdestillation trainiert, bei der Erkenntnisse aus Gemini 1.5 Pro auf das kompaktere Gemini 1.5 Flash übertragen wurden. Es bietet auch ein langes Kontextfenster von bis zu 1 Million Token, hat aber eine geringere Latenz, was es schneller und effizienter macht.3

Eine kurze Geschichte von Google Gemini

Google ist ein Pionier in Sachen LLM-Architektur und nutzt seine solide Forschung, um seine eigenen KI-Modelle zu entwickeln.

  • 2017: Google-Forscher präsentieren die Transformer-Architektur, die vielen der heutigen LLMs zugrunde liegt.

  • 2020: Das Unternehmen führt den Chatbot Meena ein, einen auf einem neuronalen Netz basierenden Chatbot mit 2,6 Milliarden Parametern.5

  • 2021: Google stellt LaMDA (Language Model for Dialogue Applications) vor, sein dialogorientiertes LLM.6

  • 2022: PaLM (Pathways Language Model) wird veröffentlicht, mit im Vergleich zu LaMDA erweiterten Funktionen.7

  • 2023: Bard startet im ersten Quartal des Jahres und wird durch eine leichtgewichtige und optimierte Version von LaMDA unterstützt.8 Im zweiten Quartal wird PaLM 2 veröffentlicht – mit verbesserter Codierung, mehrsprachigen Fähigkeiten und Argumentationsfunktionen – und von Bard übernommen.9 Google kündigt Gemini 1.0 im letzten Quartal des Jahres an.

  • 2024: Google benennt Bard in Gemini um und aktualisiert seine multimodalen KI-Modelle auf Version 1.5.

Das Wort „Zwillinge“ bedeutet auf Lateinisch „Zwillinge“ und ist sowohl ein Tierkreiszeichen als auch eine Konstellation. Ein passender Name, denn das Gemini-Modell ist das Produkt von Google DeepMind, einem Zusammenschluss der Teams von DeepMind und Google Brain. Das Unternehmen hat sich auch vom Projekt Gemini der NASA inspirieren lassen, einem Zwei-Personen-Raumschiff, das für den Erfolg der Apollo-Mission entscheidend war.10

Gemini-Leistung

Gemini Ultra übertrifft ähnliche Modelle in verschiedenen LLM-Benchmarks. Es übertrifft Claude 2, GPT-4 und Llama 2 in Benchmarks wie GSM8K für mathematisches Denken, HumanEval für Codegenerierung und MMLU für Natural Language Understanding.2

Bemerkenswert ist, dass Gemini Ultra sogar die Leistung der menschlichen Experten in MMLU übertrifft. Dennoch schneidet GPT-4 im HellaSwag-Benchmark für logisches Denken und natürlichsprachliche Inferenz besser ab als Gemini Ultra.2

Google hat auch die multimodalen Funktionen von Gemini Ultra evaluiert. Es schnitt besser ab als andere Modelle in den Benchmarks für Dokumentenverständnis, Bildverständnis und automatische Spracherkennung. Und obwohl Gemini Ultra die LLMs in den Benchmarks für automatische Sprachübersetzung, englische Videountertitel, multimodales Verstehen und Schlussfolgern sowie Beantwortung von Videofragen übertrifft, lässt die Leistung von Gemini Ultra in diesen Bereichen Raum für Verbesserungen.2

Inzwischen ist die Leistung von Gemini 1.5 Flash und Gemini 1.5 Pro mit der von Gemini 1.0 Ultra vergleichbar oder übertrifft diese sogar.11 Wenn das Kontextfenster zunimmt, hält Gemini 1.5 Pro ein hohes Leistungsniveau aufrecht.4

Anwendungsfälle für Gemini

Google Gemini befindet sich noch in den Kinderschuhen, aber dieses äußerst leistungsfähige KI-Modell hat das Potenzial, in einer Vielzahl von Anwendungen implementiert zu werden:

  • Advanced Codierung

  • Bild- und Textverständnis

  • Sprachübersetzung

  • Malware-Analyse

  • Personalisierte KI-Experten

  • Universelle KI-Agenten

  • Sprachassistenten

Advanced Codierung

Das Gemini-KI-Modell kann in Programmiersprachen wie C++, Java und Python eingesetzt werden, um Code zu verstehen, zu erklären und zu generieren. Google hat fein abgestimmte Versionen von Gemini Pro als Foundation Models verwendet, um AlphaCode2 zu entwickeln, ein Codegenerierungssystem, das wettbewerbsfähige Programmierprobleme mit Elementen der theoretischen Informatik und komplexen Mathematik lösen kann.

Bild- und Textverständnis

Gemini kann verwendet werden, um Text aus Bildern und Bildunterschriften zu extrahieren. Es kann visuelle Darstellungen wie Diagramme, Schaubilder und Zahlen ohne die Hilfe von OCR-Tools (Optical Character Recognition) analysieren, die Bilder von Text in ein maschinenlesbares Format umwandeln.

Sprachübersetzung

Aufgrund ihrer mehrsprachigen Funktionen können die KI-Modelle von Google zur Übersetzung verschiedener Sprachen verwendet werden. In der Meet-Videokonferenz-App können Benutzer beispielsweise übersetzte Untertitel einschalten, um in bestimmte Sprachen zu übersetzen.

Malware-Analyse

Sowohl Gemini 1.5 Pro als auch Gemini 1.5 Flash können für die Malware-Analyse verwendet werden. Gemini Pro kann genau feststellen, ob eine Datei oder ein Codefragment bösartig ist, und einen detaillierten Bericht über die Ergebnisse erstellen.12 In der Zwischenzeit kann Gemini Flash eine schnelle, groß angelegte Analyse von Malware durchführen.13

Personalisierte KI-Experten

Google hat kürzlich eine neue Funktion namens Gems veröffentlicht, mit der Nutzer den Gemini-Chatbot anpassen können, um maßgeschneiderte KI-„Experten“ für jede Aufgabe oder jedes Thema zu erstellen. Einige Beispiele für vorgefertigte Edelsteine sind ein Lerncoach, der dabei hilft, komplexe Themen aufzuschlüsseln und leichter verständlich zu machen, ein Brainstorming-Partner, der frische Ideen für das nächste Video liefert, und ein Redakteur, der Feedback zu Grammatik und Struktur gibt.

Gems werden mit einem Gemini Advanced-Abonnement geliefert, das das Gemini 1.5 Pro-Modell verwendet.

Universelle KI-Agenten

Im Rahmen von Project Astra baut Google auf seinen Gemini-Modellen auf, um einen universellen KI-Agenten zu entwickeln, der multimodale Informationen in Echtzeit verarbeiten, speichern und verstehen kann. Um die Erinnerung und die Effizienz zu verbessern, nutzt Project Astra die Zwischenspeicherung, die kontinuierliche Kodierung von Videobildern und die Verknüpfung von Sprach- und Videoeingaben zu einer Zeitleiste der Ereignisse.14

In einer der Google-Demonstrationen konnte der KI-Assistent Gemini die Bestandteile eines Lautsprechers erklären, die Nachbarschaft einer Person erkennen und sich daran erinnern, wo sie ihre Brille abgelegt hat.14

Sprachassistenten

Mit Gemini Live können Benutzer einen Dialog mit dem Gemini-Chatbot führen, der sich natürlicher und gesprächiger anfühlt. Es bietet intuitivere Antworten und kann sich an den Gesprächsstil einer Person anpassen.

Gemini-Risiken

Wie andere LLMs setzt sich auch Google Gemini weiterhin mit den Risiken der KI auseinander. Vorsicht ist geboten, insbesondere für Einzelpersonen, die Gemini verwenden möchten, und für Unternehmen, die das Modell für die kommerzielle Nutzung oder die Integration in ihre Workflows in Betracht ziehen.

Verzerrung: Im Februar 2024 beschloss Google, die Fähigkeit des Chatbots, Bilder von Menschen zu erstellen, aufgrund seiner ungenauen Darstellung historischer Persönlichkeiten auszusetzen und damit eine Geschichte rassistischer Verzerrung zu löschen.15

Halluzinationen: Zum Zeitpunkt der Erstellung dieses Artikels führen die von Gemini unterstützten KI-Übersichtssuchergebnisse gelegentlich immer noch zu sachlich falschen Ergebnissen.

Verletzungen des geistigen Eigentums: Google wurde von den französischen Aufsichtsbehörden mit einer Geldstrafe belegt, da der intelligente Chatbot des Unternehmens ohne das Wissen oder die Zustimmung der Verlage im Land auf Nachrichten und Inhalte trainiert worden war.16

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden Erkunden Sie KI-Lösungen
Fußnoten

1 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31. August 2017.

2 Gemini: A Family of Highly Capable Multimodal Models, Google DeepMind, abgerufen am 16. September 2024.

5 Gemini Models, Google DeepMind, abgerufen am 16. September 2024.

4 Our next-generation model: Gemini 1.5, Google, 15. Februar 2024.

5 Towards a Conversational Agent that Can Chat About…Anything, Google Research, 28. Januar 2020.

6 LaMDA:unsere dialogorientierte Technologie, Google, 18. Mai 2021.

7 Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google Research, 4. April 2022.

8 Try Bard and share your feedback, Google, 21. März 2023.

9 Introducing PaLM 2, Google, 10. Mai 2023.

10 How Google’s AI model Gemini got its name, Google, 15. Mai 2024.

11 Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context, Google DeepMind, abgerufen am 16. September 2024.

12 From Assistant to Analyst: The Power of Gemini 1.5 Pro for Malware Analysis, Google Cloud, 30. April 2024.

13 Scaling Up Malware Analysis with Gemini 1.5 Flash, Google Cloud, 16. Juli 2024.

14 Project Astra, Google DeepMind, abgerufen am 16. September 2024.

15 Google chief admits ‘biased’ AI tool’s photo diversity offended users, The Guardian, 28. Februar 2024.

16 Google fined €250m in France for breaching intellectual property deal, The Guardian, 20. März 2024.