Gemma est la famille de petits modèles de langage (SLM) ouverts et gratuits de Google. Ils s’appuient sur la même technologie que la famille Gemini de grands modèles de langage (LLM) et sont considérés comme des versions « légères » de ces modèles.
Parce qu’ils sont plus légers que les modèles Gemini, les modèles Gemma peuvent être déployés sur des ordinateurs portables et des appareils mobiles, mais ils sont également optimisés pour les processeurs graphiques (GPU) NVIDIA et les Tensor Processing Units (TPU) Google Cloud. Pourtant, contrairement à Gemini, Gemma n’est ni multilingue ni multimodal.
Ces modèles d’intelligence artificielle (IA) text-to-text tirent leur nom du mot latin qui signifie « pierre précieuse ». Gemma est un groupe de modèles ouverts, Google fournissant un accès gratuit aux poids des modèles : des modèles disponibles gratuitement pour une utilisation et une redistribution individuelles et commerciales.1
Les modèles Gemma de première génération sont lancés en février 20241, et les modèles de deuxième génération sont annoncés en juin 2024.2
Au cœur de la collection de modèles d’IA de Gemma : Gemma et Gemma 2, ainsi que quelques modèles plus spécialisés optimisés pour des tâches spécifiques qui reposent sur une architecture différente. Les modèles de la famille Gemma ont des variantes de base (préentraînées), et des variantes réglées par des instructions.
Gemma est la première génération de modèles Gemma. Gemma 2B est le modèle le plus petit, avec 2 milliards de paramètres, tandis que Gemma 7B en compte 7 milliards. Ces modèles ont été entraînés sur des jeux de données de code et mathématiques et principalement du contenu en anglais provenant de documents web.3
Gemma 2 est la deuxième génération de la famille de modèles Gemma. Selon Google, Gemma 2 est plus performant et plus efficace que son prédécesseur en termes d’inférence de l’IA (lorsqu’un modèle génère une réponse suite à la requête d’un utilisateur).2
Le modèle peut contenir 2, 9 ou 27 milliards de paramètres. Ses jeux de données d’entraînement comprennent des documents web en anglais, du code et des articles scientifiques.4
Ce modèle de conversion de texte en code est affiné pour les tâches de codage. Il prend en charge plusieurs langages de programmation, notamment C++, C#, Go, Java, JavaScript, Kotlin, Python et Rust.5
CodeGemma propose une variante préentraînée 7B pour la complétion et la génération de code, une variante 7B réglée par instructions pour le chat en langage naturel et le suivi des instructions, et une variante préentraînée 2B pour une complétion rapide du code.5
DataGemma est composé de modèles Gemma et Gemma affinés qui complètent leurs réponses par des données provenant de Google Data Commons, un référentiel de données statistiques publiques. Les modèles RIG DataGemma RIG appliquent la génération entrelacée de récupération (Retrieval-Interleaved Generation) pour créer des requêtes en langage naturel afin de récupérer des données dans le référentiel Data Commons. De leur côté, les modèles RAG DataGemma utilisent la génération augmentée de récupération pour récupérer des données à partir de Data Commons pouvant enrichir les prompts des modèles.6
Ce modèle de langage visuel accepte à la fois des images et du texte en entrée et produit du texte en sortie. Il s’agit donc d’un modèle idéal pour répondre à des questions sur des images, détecter des objets dans les images, générer des légendes d’images et lire le texte intégré aux images. Son architecture sous-jacente se compose d’un encodeur d’images Vision Transformer et d’un décodeur de texte Transformer tous deux initialisés depuis Gemma 2B.7
PaliGemma comprend un ensemble de modèles à usage général préentraînés et un ensemble de modèles axés sur la recherche réglés sur des jeux de données de recherche spécifiques. Google indique que la plupart des modèles PaliGemma nécessitent un réglage, et que les résultats doivent être testés avant de déployer les modèles auprès des utilisateurs.8
RecurrentGemma utilise une architecture de réseaux neuronaux récurrents développée par des chercheurs de Google. Ses capacités d’inférence s’en trouvent accélérées (en particulier lors de la génération de longues séquences) et il nécessite moins de mémoire que Gemma. Des modèles 2B et 9B préentraînés et réglés par instructions sont disponibles.9
CodeGemma et PaliGemma ont leurs propres cas d’utilisation. Mais en général, il est possible d’utiliser Gemma pour les tâches de traitement automatique du langage naturel (NLP) et de compréhension du langage naturel (NLU), notamment :
Gemma est basé sur un modèle de transformeur, une architecture de réseaux neuronaux développée par Google en 2017.10
Voici un bref aperçu du fonctionnement des modèles de transformeurs :
Les encodeurs transforment les séquences d’entrée en représentations numériques appelées plongements qui capturent la sémantique et la position des jetons dans la séquence d’entrée.
Un mécanisme d’auto-attention permet aux transformeurs de « concentrer leur attention » sur les jetons les plus importants de la séquence d’entrée, quelle que soit leur position.
Les décodeurs utilisent ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.
Cependant, Gemma utilise une variante de l’architecture transformatrice : une architecture transformatrice à décodeur uniquement.11 Dans ce modèle, les entrées sont introduites directement dans le décodeur, qui utilise toujours des plongements et des mécanismes d’attention pour générer la séquence de sortie.
Les modèles Gemma de première génération améliorent les transformeurs avec quelques éléments d’architecture :
Chaque couche du réseau neuronal applique des plongements positionnels rotatifs au lieu de plongements positionnels absolus. Les plongements sont également répartis entre les entrées et les sorties pour compresser le modèle.3
Gemma 7B utilise l’attention multi-tête, avec plusieurs « têtes d’attention » ayant leurs propres clés et valeurs pour capturer différents types de relations entre les jetons. Gemma 2B utilise quant à elle l’attention multi-requête, où toutes les têtes d’attention partagent un seul ensemble de clés et de valeurs, augmentant la vitesse et réduisant la charge sur la mémoire.11
Gemma 2 utilise des réseaux neuronaux plus profonds que Gemma. Voici quelques autres différences architecturales notables :4
Dans chaque autre couche de son réseau neuronal, Gemma 2 bascule entre une attention locale à fenêtre glissante et une attention globale. L’attention locale à fenêtre glissante est un mécanisme dynamique permettant aux modèles de se concentrer sur certaines « fenêtres » de séquences d’entrée de taille fixe : les modèles peuvent se concentrer sur seulement quelques mots à la fois. L’attention globale, quant à elle, s’intéresse à chaque jeton dans la séquence.
Gemma 2 utilise également l’attention de requête groupée, une approche « diviser pour résoudre » qui répartit les requêtes en groupes plus petits et calcule l’attention au sein de chaque groupe séparément.
En outre, les modèles Gemma 2 2B et 9B appliquent la distillation des connaissances, qui consiste à « distiller » les connaissances d’un modèle plus grand dans un modèle plus petit en entraînant ce dernier à imiter le processus de raisonnement du modèle plus grand et à égaler ses prédictions.
En termes de réglage par instructions, qui prépare le modèle à mieux suivre les instructions, Gemma et Gemma 2 appliquent tous deux un réglage fin supervisé et un apprentissage par renforcement basé sur les commentaires humains (RLHF).4 Le réglage fin supervisé utilise des exemples étiquetés de tâches orientées instructions pour apprendre au modèle à structurer ses réponses. Parallèlement, le RLHF utilise un modèle de récompense pour traduire les notes de qualité des évaluateurs humains en signaux de récompense numériques, aidant ainsi les modèles à apprendre quelles réponses récolteront des commentaires positifs.
Les évaluations des performances de Gemma 7B dans les benchmarks de LLM couvrant la génération de code, le raisonnement de bon sens, la compréhension du langage, le raisonnement mathématique et la réponse aux questions indiquent que ce modèle est comparable à des SLM d’échelle similaire comme Llama 3 8B et Mistral 7B. Gemma 2 9B et 27B ont fait encore mieux, dépassant à la fois Llama 3 8B et Mistral 7B dans la plupart des benchmarks.12
Cependant, Llama 3.2 3B et Ministral 3B, les derniers SLM de Meta et Mistral, respectivement, ont surpassé Gemma 2 2B dans de nombreux benchmarks.13 Le modèle de langage Phi-3-mini de Microsoft, qui comporte 3,8 milliards de paramètres, s’est également révélé plus performant que Gemma 7B.14
Les modèles Gemma sont accessibles via les plateformes suivantes :
Google AI Studio
Hugging Face (également intégré dans Hugging Face Transformers)
Kaggle
Le Model Garden de Vertex AI
En outre, les développeurs peuvent mettre en œuvre les modèles dans des cadres de machine learning open source comme JAX, LangChain, PyTorch et TensorFlow, et via des interfaces de programmation des applications (API) comme Keras 3.0. De plus, comme Gemma inclut l’optimisation sur les GPU NVIDIA, les développeurs peuvent utiliser les outils NVIDIA, notamment le cadre NeMo, pour affiner les modèles et TensorRT-LLM pour les optimiser et assurer une inférence efficace sur les GPU NVIDIA.
Pour le développement de l’IA d’entreprise, les modèles Gemma peuvent être déployés sur Google Cloud Vertex AI et Google Kubernetes Engine (GKE). Pour ceux dont la puissance de calcul est limitée, Google Colab offre un accès cloud gratuit à des ressources de calcul comme des GPU et des TPU.
Comme d’autres modèles d’IA, Google Gemma est toujours aux prises avec certains risques liés à l’IA, notamment :
Biais : Les modèles plus petits peuvent apprendre du biais présent chez leurs homologues plus grands, et cela peut se refléter dans leurs sorties.
Hallucinations : Vérifier et surveiller les sorties des SLM tels que Gemma est essentiel pour s’assurer que leurs productions sont exactes et factuellement correctes.
Violations de la confidentialité : Google note que les jeux de données d’entraînement de Gemma et Gemma 2 ont été filtrés pour supprimer certaines informations personnelles et d’autres données sensibles.4 Cependant, les utilisateurs individuels et les entreprises doivent toujours faire preuve de prudence par rapport aux données qu’ils utilisent pour affiner Gemma afin d’éviter de divulguer des données personnelles ou propriétaires.
En matière de sûreté et de sécurité, Google a évalué Gemma sur plusieurs indicateurs, notamment la cybersécurité offensive , les connaissances CBRN (chimiques, biologiques, radiologiques et nucléaires), l’autoprolifération (réplication autonome) et la persuasion. Les connaissances de Gemma dans les domaines CBRN sont faibles. De même, ce modèle présente de faibles capacités de cybersécurité offensive, d’autoprolifération et de persuasion.4
Google a également sorti des outils Responsible Generative AI Toolkit pour aider les chercheurs et les développeurs en IA à créer des applications d’IA responsables et sûres.1
Tous les liens sont externes au site ibm.com
1 Gemma: Introducing new state-of-the-art open models, Google, 21 février 2024
2 Gemma 2 is now available to researchers and developers, Google, 27 juin 2024
3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind, 21 février 2024
4 Gemma 2: Improving Open Language Models at a Practical Size, Google DeepMind, 27 juin 2024
5 CodeGemma model card, Google AI for developers, 5 août 2024
6 Knowing When to Ask — Bridging Large Language Models and Data, arXiv, 10 septembre 2024
7 PaliGemma model card, GoogleAI for developers, 5 août 2024
8 PaliGemma, Google AI for developers, 5 août 2024
9 RecurrentGemma model card, Google AI for developers, 5 août 2024
10 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 août 2017
11 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 août 2024
12 Gemma Open Models, Google AI for Developers, consulté le 5 novembre 2024
13 Un Ministral, des Ministraux, Mistral AI, 16 octobre 2024
14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 avril 2024
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.