Qu’est-ce que Google Gemini ?

Photographie en noir et blanc du centre spatial Goddard rempli de personnes et d’équipements informatiques.

Qu'est-ce que Google Gemini ?

Gemini est le grand modèle de langage (LLM) de Google. Plus largement, il s’agit d’une famille de modèles IA conçus pour traiter plusieurs modalités ou types de données, y compris l’audio, les images, le code logiciel, le texte et la vidéo.

Gemini est également le modèle qui alimente le chatbot IA générative (gen AI) de Google (anciennement Bard) du même nom, tout comme Claude d’Anthropic tire son nom à la fois du chatbot et de la famille de LLM qui le sous-tendent.

Les applications Gemini sur le web et sur mobile servent d’interface de chatbot pour les modèles sous-jacents.

Google intègre progressivement le chatbot Gemini dans sa suite de technologies. Par exemple, Gemini est l’assistant d’intelligence artificielle (IA) par défaut sur les derniers téléphones Google Pixel 9 et Pixel 9 Pro, remplaçant Google Assistant.

Dans Google Workspace, Gemini est disponible dans le panneau latéral de Docs pour aider à rédiger et modifier du contenu, et dans le panneau latéral de Gmail pour aider à rédiger des e-mail, suggérer des réponses et rechercher des informations dans la boîte de réception d’un utilisateur.

D’autres applications Google intègrent également Gemini. Google Maps, par exemple, s’appuie sur les capacités du modèle Gemini pour fournir des résumés de lieux et de zones.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Comment fonctionne Google Gemini ? 

Gemini a été entraîné sur un corpus massif d’ensembles de données multilingues et multimodaux. Il utilise un modèle de transformateur, une architecture de réseau de neurones que Google lui-même a introduite en 2017.1

Voici un bref aperçu du fonctionnement des modèles de transformeurs :

  • Les encodeurs transforment les séquences d’entrée en représentations numériques appelées plongements qui capturent la sémantique et la position des tokens dans la séquence d’entrée.

  • Un mécanisme d’auto-attention permet aux transformeurs de « concentrer leur attention » sur les jetons les plus importants de la séquence d’entrée, quelle que soit leur position.

  • Les décodeurs utilisent ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.

Contrairement aux modèles GPT (Generative Pretrained Transformer) qui n’acceptent que des prompts textuels, ou aux modèles de diffusion utilisés pour la génération d’images qui acceptent à la fois des prompts textuels et visuels, Google Gemini prend en charge des séquences entrelacées d’audio, d’images, de texte et de vidéo en entrée et peut produire des sorties entrelacées de texte et d’images.2

Versions des modèles Gemini IA

  1. Gemini 1.0 Nano
  2. Gemini 1.0 Ultra
  3. Gemini 1.5 Pro
  4. Gemini 1.5 Flash

La famille Gemini de modèles d’IA multimodaux se décline en plusieurs variantes. Chaque variante est optimisée pour des appareils et des tâches différents.

Le modèle de première génération de Gemini, 1.0, est disponible en Nano et Ultra. Le modèle de nouvelle génération, 1.5, est disponible en version Pro et Flash.

Il est possible de développer et d’expérimenter les fonctionnalités d’IA de Gemini via l’API Gemini dans les plateformes de développement d’IA Google AI Studio et Google Cloud Vertex.

Pour l’instant, seuls Gemini 1.5 Pro et Gemini 1.5 Flash sont disponibles.

Gemini 1.0 Nano

Gemini 1.0 Nano est la plus petite version de la gamme 1.0, conçue pour fonctionner sur des appareils mobiles, même sans réseau de données. Elle peut effectuer des tâches sur l’appareil telles que décrire des images, suggérer des réponses aux messages de discussion, résumer un texte et transcrire la parole.

Gemini Nano est disponible sur les appareils Android à partir du pixel 8 Pro. Dépassant les limites du mobile, Google intègre Gemini Nano dans son client Chrome pour ordinateur de bureau.

Gemini 1.0 Ultra

Gemini 1.0 Ultra est la plus grande version de la famille 1.0, avec des capacités analytiques avancées. Elle est conçue pour des tâches très complexes telles que le codage, le raisonnement mathématique et le raisonnement multimodal.

La fenêtre contextuelle, c’est-à-dire le nombre de tokens qu’un modèle peut traiter en même temps, de Gemini Nano et de Gemini Ultra est de 32 000 tokens.2

Gemini 1.5 Pro

Gemini 1.5 Pro est un modèle multimodal de taille moyenne avec une fenêtre contextuelle pouvant contenir jusqu’à 2 millions de tokens.

Cette longue fenêtre contextuelle permet à Gemini Pro de traiter des informations à plus grande échelle  : de quelques heures d’audio et vidéo à des milliers de lignes de code ou des centaines de pages de documents.3

En plus d’une architecture transformatrice, Gemini 1.5 Pro applique une architecture Mixture of Experts (MoE). Les modèles MoE sont divisés en réseaux de neurones experts plus petits, chacun spécialisé dans un certain domaine ou type de données.

Le modèle apprend à activer uniquement les experts les plus pertinents de manière sélective en fonction du type d’entrée. Cela se traduit par des résultats plus rapides tout en réduisant les coûts de calcul.4

Gemini 1.5 Flash

Gemini 1.5 Flash est une version allégée de Gemini Pro. Elle a été entraînée à l’aide d’une technique de machine learning (ML) appelée distillation de connaissances, dans laquelle les informations de Gemini 1.5 Pro ont été transférées vers Gemini 1.5 Flash, plus compact.

Gemini 1.5 Flash dispose également d’une fonctionnalité de longue fenêtre contextuelle pouvant atteindre 1 million de tokens, mais sa latence est plus faible, ce qui le rend plus rapide et plus efficace.3

Bref historique de Google Gemini

Google a été un pionnier dans l’architecture LLM et s’appuie sur ses recherches approfondies pour développer ses propres modèles d’IA.

  • 2017 : des chercheurs de Google présentent l’architecture transformatrice, qui sous-tend de nombreux LLM modernes.

  • 2020 : l’entreprise lance le chatbot Meena, un agent conversationnel basé sur un réseau de neurones avec 2,6 milliards de paramètres.5

  • 2021 : Google dévoile LaMDA (Language Model for Dialog Applications), son LLM conversationnel.6

  • 2022 : PaLM (Pathways Language Model) est publié, avec des capacités plus avancées que LaMDA.7

  • 2023 : Bard sera lancé au cours du premier trimestre de l’année, soutenu par une version allégée et optimisée de LaMDA.8 Au deuxième trimestre, PaLM 2 est lancé, avec des capacités améliorées en matière de codage, de multilinguisme et de raisonnement, et est adopté par Bard.9Google annonce Gemini 1.0 au cours du dernier trimestre de l’année.

  • 2024 : Google renomme Bard en Gemini et met à jour ses modèles IA vers la version 1.5.

Le mot « Gemini » signifie « jumeaux » en latin et désigne à la fois un signe du zodiaque et une constellation.

C’était un nom approprié étant donné que le modèle Gemini est le fruit de Google DeepMind, une fusion de forces entre les équipes de DeepMind et de Google Brain. La société s’est également inspirée du projet Gemini de la NASA, un vaisseau spatial pour deux personnes qui a joué un rôle essentiel dans le succès de la mission Apollo.10

Performances de Google Gemini

Gemini Ultra surpasse des modèles similaires dans divers benchmarks de référence LLM. Il surpasse Claude 2, GPT-4 et Llama 2 dans les benchmarks tels que GSM8K pour le raisonnement mathématique, HumanEval pour la génération de code et MMLU pour la natural language understanding.2

Il est à noter que Gemini Ultra a surpassé les performances des experts humains dans MMLU. Cependant, GPT-4 reste plus performant que Gemini Ultra dans le benchmark HellaSwag pour le raisonnement de bon sens et l’inférence en langage naturel.2

Google a également évalué les capacités multimodales de Gemini Ultra. Il a obtenu des résultats supérieurs à ceux des autres modèles en matière de compréhension des documents, de compréhension des images et de reconnaissance vocale automatique.

Et bien qu’il surpasse les LLM dans les tests de performance pour la traduction automatique de la parole, les sous-titres en anglais, la compréhension et le raisonnement multimodaux, ainsi que la réponse à des questions posées dans des vidéos, les performances de Gemini Ultra dans ces domaines peuvent encore être améliorées.2

En parallèle, les performances du Gemini 1.5 Flash et du Gemini 1.5 Pro sont comparables, voire dépassent, Gemini 1.0 Ultra.11 À mesure que sa fenêtre contextuelle s’agrandit, Gemini 1.5 Pro maintient un niveau de performance élevé.4

Cas d’utilisation de Gemini

Google Gemini en est encore à ses débuts, mais ce modèle d'IA hautement performant pourrait être mis en œuvre dans un large éventail d'applications :

  • Codage avancé

  • Compréhension des images et du texte

  • La traduction

  • Analyse des logiciels malveillants

  • Experts en IA personnalisés

  • Agents IA universels

  • Assistants vocaux

Codage avancé

Le modèle d’IA Gemini est capable d’œuvrer avec différents langages de programmation tels que C++, Java et Python pour comprendre, expliquer et générer du code.

Google a utilisé des versions optimisées de Gemini Pro comme modèles de fondation pour développer AlphaCode2, un système de génération de code capable de résoudre des problèmes de programmation compétitifs à l’aide d’éléments d’informatique théorique et de mathématiques complexes.

Compréhension des images et du texte

Gemini peut être utilisé pour extraire du texte à partir d'images et pour créer des sous-titres pour des images. Il peut analyser des visuels tels que des graphiques, des diagrammes et des chiffres sans l’aide d’outils de reconnaissance optique de caractères (OCR), qui convertissent les images de texte dans un format lisible par les machines.

La traduction

Grâce à leurs capacités multilingues, les modèles d'IA de Google peuvent être utilisés pour traduire différentes langues. Dans l'application de visioconférence Meet, par exemple, les utilisateurs peuvent activer les sous-titres traduits pour traduire vers et depuis des langues spécifiques.

Analyse des logiciels malveillants

Gemini 1.5 Pro et Gemini 1.5 Flash peuvent être utilisés pour l'analyse des logiciels malveillants. Gemini Pro peut déterminer avec précision si un fichier ou un extrait de code est malveillant et peut générer un rapport détaillé sur ses découvertes.12 Cependant, Gemini Flash peut dissimuler rapidement et à grande échelle des logiciels malveillants.13

Des experts en IA personnalisés

Google a récemment lancé une nouvelle fonctionnalité appelée Gems qui permet aux utilisateurs de personnaliser le chatbot Gemini afin de créer des « experts » en IA sur mesure pour n’importe quelle tâche ou sujet.

Parmi les exemples de Gems prédéfinis, on peut citer un coach pédagogique qui aide à décomposer des sujets complexes pour les rendre plus faciles à comprendre, un partenaire de brainstorming qui propose de nouvelles idées pour la prochaine vidéo et un éditeur qui fournit des commentaires sur la grammaire et la structure.

Les Gems sont fournis avec un abonnement Gemini Advanced, qui utilise le modèle Gemini 1.5 Pro.

Agents d’IA universels

Dans le cadre du projet Astra, Google s’appuie sur ses modèles Gemini pour créer un agent IA universel capable de traiter, mémoriser et comprendre des informations multimodales en temps réel.

Afin d’améliorer la mémorisation et l’efficacité, le projet Astra exploite la mise en cache, l’encodage continu des images vidéo et le couplage des entrées vocales et vidéo dans une chronologie d’événements.14

Dans l’une des démonstrations de Google, l’assistant IA Gemini a été capable d’expliquer les composants d’un haut-parleur, de reconnaître le quartier dans lequel se trouvait une personne et de se souvenir de l’endroit où elle avait posé ses lunettes.14

Assistants vocaux

Avec Gemini Live, les utilisateurs peuvent dialoguer avec le chatbot Gemini de manière plus naturelle et conversationnelle. Il offre des réponses plus intuitives et peut s’adapter au style conversationnel d’une personne.

Risques liés à Gemini

À l’instar d’autres modèles d’apprentissage profond, Google Gemini continue de faire face aux défis liés à l’intelligence artificielle. La prudence est recommandée, en particulier pour les personnes qui ont l’intention d’utiliser Gemini et les entreprises qui envisagent le modèle à des fins d’utilisation commerciale ou d’intégration dans leurs workflows.

Biais : en février 2024, Google a décidé de suspendre la capacité du chatbot Gemini à créer des images de personnes en raison de sa représentation inexacte de chiffres historiques, effaçant ainsi un historique de préjugés raciaux.15

Hallucinations : à l’heure actuelle, les résultats de recherche généraux générés par l’IA soutenue par Gemini produisent encore parfois des informations factuellement incorrectes.

Violations de la propriété intellectuelle : Google a été condamné à une amende par les autorités réglementaires françaises, qui ont constaté que le chatbot IA de l’entreprise avait été formé à partir d’articles et de contenus d’actualité sans que les éditeurs français en aient été informés ou aient donné leur consentement.16

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA
Notes de bas de page

1 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 août 2017.

2 Gemini: A Family of Highly Capable Multimodal Models, Google DeepMind, consulté le 16 septembre 2024.

5 Gemini Models, Google DeepMind, consulté le 16 septembre 2024

4 Our next-generation model: Gemini 1.5, Google, 15 février 2024.

5 Towards a Conversational Agent that Can Chat About…Anything, Google Research, 28 janvier 2020.

6 LaMDA: our breakthrough conversation technology, Google, 18 mai 2021.

7 Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google Research, 4 avril 2022.

8 Try Bard and share your feedback, Google, 21 mars 2023.

9 Introducing PaLM 2, Google, 10 mai 2023.

10 How Google’s AI model Gemini got its name, Google, 15 mai 2024.

11 Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context, Google DeepMind, consulté le 16 septembre 2024.

12 From Assistant to Analyst: The Power of Gemini 1.5 Pro for Malware Analysis, Google Cloud, 30 avril 2024.

13 Scaling Up Malware Analysis with Gemini 1.5 Flash, Google Cloud, 16 juillet 2024.

14 Project Astra, Google DeepMind, consulté le 16 septembre 2024.

15 Google chief admits ‘biased’ AI tool’s photo diversity offended users, The Guardian, 28 février 2024.

16 Google fined €250m in France for breaching intellectual property deal, The Guardian, 20 mars 2024.