Qu’est-ce que Google Gemma ?

pierres précieuses en train d’être examinées

Auteurs

Rina Diane Caballar

Staff Writer

IBM Think

Qu’est-ce que Google Gemma ?

Gemma est la famille de petits modèles de langage (SLM) ouverts et gratuits de Google. Ils s’appuient sur la même technologie que la famille Gemini de grands modèles de langage (LLM) et sont considérés comme des versions « légères » de ces modèles.

Parce qu’ils sont plus légers que les modèles Gemini, les modèles Gemma peuvent être déployés sur des ordinateurs portables et des appareils mobiles, mais ils sont également optimisés pour les processeurs graphiques (GPU) NVIDIA et les Tensor Processing Units (TPU) Google Cloud. Pourtant, contrairement à Gemini, Gemma n’est ni multilingue ni multimodal.

Ces modèles d’intelligence artificielle (IA) text-to-text tirent leur nom du mot latin qui signifie « pierre précieuse ». Gemma est un groupe de modèles ouverts, Google fournissant un accès gratuit aux poids des modèles : des modèles disponibles gratuitement pour une utilisation et une redistribution individuelles et commerciales.1

Les modèles Gemma de première génération sont lancés en février 20241, et les modèles de deuxième génération sont annoncés en juin 2024.2

La famille de modèles Gemma

Au cœur de la collection de modèles d’IA de Gemma : Gemma et Gemma 2, ainsi que quelques modèles plus spécialisés optimisés pour des tâches spécifiques qui reposent sur une architecture différente. Les modèles de la famille Gemma ont des variantes de base (préentraînées), et des variantes réglées par des instructions.

Gemma

Gemma est la première génération de modèles Gemma. Gemma 2B est le modèle le plus petit, avec 2 milliards de paramètres, tandis que Gemma 7B en compte 7 milliards. Ces modèles ont été entraînés sur des jeux de données de code et mathématiques et principalement du contenu en anglais provenant de documents web.3

Gemma 2

Gemma 2 est la deuxième génération de la famille de modèles Gemma. Selon Google, Gemma 2 est plus performant et plus efficace que son prédécesseur en termes d’inférence de l’IA (lorsqu’un modèle génère une réponse suite à la requête d’un utilisateur).2

Le modèle peut contenir 2, 9 ou 27 milliards de paramètres. Ses jeux de données d’entraînement comprennent des documents web en anglais, du code et des articles scientifiques.4

CodeGemma

Ce modèle de conversion de texte en code est affiné pour les tâches de codage. Il prend en charge plusieurs langages de programmation, notamment C++, C#, Go, Java, JavaScript, Kotlin, Python et Rust.5

CodeGemma propose une variante préentraînée 7B pour la complétion et la génération de code, une variante 7B réglée par instructions pour le chat en langage naturel et le suivi des instructions, et une variante préentraînée 2B pour une complétion rapide du code.5

DataGemma

DataGemma est composé de modèles Gemma et Gemma   affinés qui complètent leurs réponses par des données provenant de Google Data Commons, un référentiel de données statistiques publiques. Les modèles RIG DataGemma RIG appliquent la génération entrelacée de récupération (Retrieval-Interleaved Generation) pour créer des requêtes en langage naturel afin de récupérer des données dans le référentiel Data Commons. De leur côté, les modèles RAG DataGemma utilisent la génération augmentée de récupération pour récupérer des données à partir de Data Commons pouvant enrichir les prompts des modèles.6

PaliGemma

Ce modèle de langage visuel accepte à la fois des images et du texte en entrée et produit du texte en sortie. Il s’agit donc d’un modèle idéal pour répondre à des questions sur des images, détecter des objets dans les images, générer des légendes d’images et lire le texte intégré aux images. Son architecture sous-jacente se compose d’un encodeur d’images Vision Transformer et d’un décodeur de texte Transformer tous deux initialisés depuis Gemma 2B.7

PaliGemma comprend un ensemble de modèles à usage général préentraînés et un ensemble de modèles axés sur la recherche réglés sur des jeux de données de recherche spécifiques. Google indique que la plupart des modèles PaliGemma nécessitent un réglage, et que les résultats doivent être testés avant de déployer les modèles auprès des utilisateurs.8

RecurrentGemma

RecurrentGemma utilise une architecture de réseaux neuronaux récurrents développée par des chercheurs de Google. Ses capacités d’inférence s’en trouvent accélérées (en particulier lors de la génération de longues séquences) et il nécessite moins de mémoire que Gemma. Des modèles 2B et 9B préentraînés et réglés par instructions sont disponibles.9

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Cas d’utilisation de Gemma

CodeGemma et PaliGemma ont leurs propres cas d’utilisation. Mais en général, il est possible d’utiliser Gemma pour les tâches de traitement automatique du langage naturel (NLP) et de compréhension du langage naturel (NLU), notamment :

  • Créer des assistants et des chatbots d’IA conversationnelle
  • Rédaction et relecture
  • Réponse aux questions et recherches
  • Génération de textes, tels que des e-mails, des textes publicitaires et d’autres contenus
  • Synthèse de texte, en particulier pour les longs documents et les grands volumes de rapports ou de documents de recherche

Comment fonctionne Google Gemma ?

Gemma est basé sur un modèle de transformeur, une architecture de réseaux neuronaux développée par Google en 2017.10

Voici un bref aperçu du fonctionnement des modèles de transformeurs :

  • Les encodeurs transforment les séquences d’entrée en représentations numériques appelées plongements qui capturent la sémantique et la position des jetons dans la séquence d’entrée.

  • Un mécanisme d’auto-attention permet aux transformeurs de « concentrer leur attention » sur les jetons les plus importants de la séquence d’entrée, quelle que soit leur position.

  • Les décodeurs utilisent ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.

Cependant, Gemma utilise une variante de l’architecture transformatrice : une architecture transformatrice à décodeur uniquement.11 Dans ce modèle, les entrées sont introduites directement dans le décodeur, qui utilise toujours des plongements et des mécanismes d’attention pour générer la séquence de sortie.

Architecture des modèles Gemma

Les modèles Gemma de première génération améliorent les transformeurs avec quelques éléments d’architecture :

  • Chaque couche du réseau neuronal applique des plongements positionnels rotatifs au lieu de plongements positionnels absolus. Les plongements sont également répartis entre les entrées et les sorties pour compresser le modèle.3

  • Gemma 7B utilise l’attention multi-tête, avec plusieurs « têtes d’attention » ayant leurs propres clés et valeurs pour capturer différents types de relations entre les jetons. Gemma 2B utilise quant à elle l’attention multi-requête, où toutes les têtes d’attention partagent un seul ensemble de clés et de valeurs, augmentant la vitesse et réduisant la charge sur la mémoire.11

Architecture des modèles Gemma 2

Gemma 2 utilise des réseaux neuronaux plus profonds que Gemma. Voici quelques autres différences architecturales notables :4

  • Dans chaque autre couche de son réseau neuronal, Gemma 2 bascule entre une attention locale à fenêtre glissante et une attention globale. L’attention locale à fenêtre glissante est un mécanisme dynamique permettant aux modèles de se concentrer sur certaines « fenêtres » de séquences d’entrée de taille fixe : les modèles peuvent se concentrer sur seulement quelques mots à la fois. L’attention globale, quant à elle, s’intéresse à chaque jeton dans la séquence.

  • Gemma 2 utilise également l’attention de requête groupée, une approche « diviser pour résoudre » qui répartit les requêtes en groupes plus petits et calcule l’attention au sein de chaque groupe séparément.

  • En outre, les modèles Gemma 2 2B et 9B appliquent la distillation des connaissances, qui consiste à « distiller » les connaissances d’un modèle plus grand dans un modèle plus petit en entraînant ce dernier à imiter le processus de raisonnement du modèle plus grand et à égaler ses prédictions.

Réglage des instructions

En termes de réglage par instructions, qui prépare le modèle à mieux suivre les instructions, Gemma et Gemma 2 appliquent tous deux un réglage fin supervisé et un apprentissage par renforcement basé sur les commentaires humains (RLHF).4 Le réglage fin supervisé utilise des exemples étiquetés de tâches orientées instructions pour apprendre au modèle à structurer ses réponses. Parallèlement, le RLHF utilise un modèle de récompense pour traduire les notes de qualité des évaluateurs humains en signaux de récompense numériques, aidant ainsi les modèles à apprendre quelles réponses récolteront des commentaires positifs.

Performances des modèles Gemma

Les évaluations des performances de Gemma 7B dans les benchmarks de LLM couvrant la génération de code, le raisonnement de bon sens, la compréhension du langage, le raisonnement mathématique et la réponse aux questions indiquent que ce modèle est comparable à des SLM d’échelle similaire comme Llama 3 8B et Mistral 7B. Gemma 2 9B et 27B ont fait encore mieux, dépassant à la fois Llama 3 8B et Mistral 7B dans la plupart des benchmarks.12

Cependant, Llama 3.2 3B et Ministral 3B, les derniers SLM de Meta et Mistral, respectivement, ont surpassé Gemma 2 2B dans de nombreux benchmarks.13 Le modèle de langage Phi-3-mini de Microsoft, qui comporte 3,8 milliards de paramètres, s’est également révélé plus performant que Gemma 7B.14

Comment les utilisateurs peuvent-ils accéder à Gemma ?

Les modèles Gemma sont accessibles via les plateformes suivantes :

  • Google AI Studio

  • Hugging Face (également intégré dans Hugging Face Transformers)

  • Kaggle

  • Le Model Garden de Vertex AI

En outre, les développeurs peuvent mettre en œuvre les modèles dans des cadres de machine learning open source comme JAX, LangChain, PyTorch et TensorFlow, et via des interfaces de programmation des applications (API) comme Keras 3.0. De plus, comme Gemma inclut l’optimisation sur les GPU NVIDIA, les développeurs peuvent utiliser les outils NVIDIA, notamment le cadre NeMo, pour affiner les modèles et TensorRT-LLM pour les optimiser et assurer une inférence efficace sur les GPU NVIDIA. 

Pour le développement de l’IA d’entreprise, les modèles Gemma peuvent être déployés sur Google Cloud Vertex AI et Google Kubernetes Engine (GKE). Pour ceux dont la puissance de calcul est limitée, Google Colab offre un accès cloud gratuit à des ressources de calcul comme des GPU et des TPU.

Risques liés aux modèles Gemma

Comme d’autres modèles d’IA, Google Gemma est toujours aux prises avec certains risques liés à l’IA, notamment :

  • Biais : Les modèles plus petits peuvent apprendre du biais présent chez leurs homologues plus grands, et cela peut se refléter dans leurs sorties.

  • Hallucinations : Vérifier et surveiller les sorties des SLM tels que Gemma est essentiel pour s’assurer que leurs productions sont exactes et factuellement correctes.

  • Violations de la confidentialité : Google note que les jeux de données d’entraînement de Gemma et Gemma 2 ont été filtrés pour supprimer certaines informations personnelles et d’autres données sensibles.4 Cependant, les utilisateurs individuels et les entreprises doivent toujours faire preuve de prudence par rapport aux données qu’ils utilisent pour affiner Gemma afin d’éviter de divulguer des données personnelles ou propriétaires.

En matière de sûreté et de sécurité, Google a évalué Gemma sur plusieurs indicateurs, notamment la cybersécurité offensive , les connaissances CBRN (chimiques, biologiques, radiologiques et nucléaires), l’autoprolifération (réplication autonome) et la persuasion. Les connaissances de Gemma dans les domaines CBRN sont faibles. De même, ce modèle présente de faibles capacités de cybersécurité offensive, d’autoprolifération et de persuasion.4

Google a également sorti des outils Responsible Generative AI Toolkit pour aider les chercheurs et les développeurs en IA à créer des applications d’IA responsables et sûres.1

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Notes de bas de page

Tous les liens sont externes au site ibm.com

1 Gemma: Introducing new state-of-the-art open models, Google, 21 février 2024

2 Gemma 2 is now available to researchers and developers, Google, 27 juin 2024

3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind, 21 février 2024

4 Gemma 2: Improving Open Language Models at a Practical Size, Google DeepMind, 27 juin 2024

5 CodeGemma model card, Google AI for developers, 5 août 2024

6 Knowing When to Ask — Bridging Large Language Models and Data, arXiv, 10 septembre 2024

7 PaliGemma model card, GoogleAI for developers, 5 août 2024

8 PaliGemma, Google AI for developers, 5 août 2024

9 RecurrentGemma model card, Google AI for developers, 5 août 2024

10 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 août 2017

11 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 août 2024

12 Gemma Open Models, Google AI for Developers, consulté le 5 novembre 2024

13 Un Ministral, des Ministraux, Mistral AI, 16 octobre 2024

14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 avril 2024

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA