Gemma fa parte della famiglia di piccoli modelli linguistici (SLM) gratuiti e aperti di Google. Vengono realizzati con la stessa tecnologia della famiglia Gemini dei modelli linguistici di grandi dimensioni (LLM) e sono considerati le versioni "leggere" di Gemini.
Dal momento che sono più snelli dei modelli Gemini, i modelli Gemma possono essere implementati su laptop e dispositivi mobili, ma sono ottimizzati anche per le unità di elaborazione grafica (GPU) NVIDIA e le unità di elaborazione tensori (TPU) Google Cloud. Eppure, a differenza di Gemini, Gemma non è né multilingue, né multimodale.
Il nome di questi modelli AI text-to-text deriva dalla parola latina gemma, che significa appunto "pietra preziosa". Gemma è un gruppo di modelli aperti, con Google che fornisce l'accesso gratuito ai pesi dei modelli e i modelli sono disponibili gratuitamente per l'uso e la ridistribuzione individuali e commerciali.1
I modelli di prima generazione di Gemma sono stati introdotti nel febbraio 2024,1 mentre i modelli di seconda generazione sono stati annunciati a giugno 2024.2
La raccolta di modelli AI di Gemma include al suo interno Gemma e Gemma 2, oltre ad alcuni modelli più specializzati che sono stati ottimizzati per attività specifiche e presentano un'architettura diversa alla base. I modelli della linea Gemma hanno varianti base o preaddestrate e varianti ottimizzate per le istruzioni.
Gemma è la prima generazione dei modelli Gemma. Gemma 2B è la versione più piccola con 2 miliardi di parametri, mentre Gemma 7B ha 7 miliardi di parametri. Questi modelli sono stati addestrati su codici e set di dati matematici e principalmente su contenuti in lingua inglese tratti da documenti web.3
Gemma 2 è la seconda generazione della famiglia Gemma. Secondo Google, Gemma 2 offre prestazioni migliori ed è più efficiente nell'inferenza AI (quando un modello genera una risposta alla query di un utente) rispetto al suo predecessore.2
Il modello è disponibile in dimensioni di parametri pari a 2, 9 e 27 miliardi. I loro set di dati di addestramento comprendono codici, articoli scientifici e documenti web in lingua inglese.4
Questo modello text-to-code è ottimizzato per le attività di codifica. Supporta numerosi linguaggi di programmazione tra cui C++, C#, Go, Java, JavaScript, Kotlin, Python e Rust.5
Il CodeGemma dispone di una variante preaddestrata 7B per il completamento e la generazione di codici, una variante ottimizzata per le istruzioni 7B per la chat del codice in linguaggio naturale e il seguito delle istruzioni e una variante preaddestrata 2B per il completamento rapido del codice.5
DataGemma è composto da modelli Gemma e Gemma 2 perfezionati che integrano le loro risposte con dati provenienti da Data Commons di Google, un repository di dati statistici pubblici. I modelli RIG di DataGemma applicano la generazione interlacciata di recupero per creare query in linguaggio naturale per ottenere i dati da Data Commons. Nel frattempo, i modelli RAG di DataGemma utilizzano la retrieval-augmented generation per recuperare dati da Data Commons che possono aumentare i prompt dei modelli.6
Questo modello di linguaggio di visione accetta come input sia immagini, sia testo e produce testo come output. In quanto tale, è ideale per rispondere a domande sulle immagini, rilevare oggetti all'interno di immagini, generare didascalie di immagini e leggere il testo incorporato nelle immagini. La sua architettura sottostante è costituita da un codificatore di immagini con trasformatore di visione e da un decodificatore di testo con trasformatore inizializzato da Gemma 2B.7
PaliGemma dispone di un set di modelli preaddestrati di uso generale e di un set di modelli orientati alla ricerca, perfezionati su determinati set di dati di ricerca. Google fa notare che la maggior parte dei modelli PaliGemma richiede una messa a punto e gli output devono essere testati prima della distribuzione agli utenti.8
RecurrentGemma utilizza un'architettura di rete neurale ricorrente sviluppata dai ricercatori di Google. Questo lo rende più veloce nell'inferenza, in particolare quando si generano lunghe sequenze e richiede meno memoria rispetto a Gemma. E' disponibile nei modelli 2B e 9B preaddestrati e con istruzioni.9
CodeGemma e PaliGemma hanno i propri casi d'uso specifici. Ma, in generale, le persone possono utilizzare Gemma per attività di elaborazione del linguaggio naturale (PNL) e di comprensione del linguaggio naturale, tra cui:
Gemma si basa su un modello trasformatore, un'architettura di rete neurale originata da Google nel 2017.10
Di seguito è riportata una breve panoramica di come funzionano i modelli trasformatori:
I codificatori trasformano le sequenze di input in rappresentazioni numeriche chiamate embedding (incorporamenti) che acquisiscono la semantica e la posizione dei token nella sequenza di input.
Un meccanismo di auto-attenzione consente ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione.
I decodificatori utilizzano questo meccanismo di auto-attenzione e gli incorporamenti degli codificatori per generare la sequenza di output statisticamente più probabile.
Tuttavia, Gemma utilizza una variante dell'architettura trasformativa nota come solo decodificatore.11 In questo modello, le sequenze di input vengono inserite direttamente nel decodificatore, che utilizza ancora meccanismi di incorporamento e di attenzione per generare la sequenza di output.
I modelli di prima generazione di Gemma migliorano i trasformatori attraverso alcuni elementi architettonici:
Ogni strato della rete neurale applica incorporamenti posizionali rotanti invece di incorporamenti posizionali assoluti. Gli incorporamenti sono inoltre condivisi tra input e output per comprimere il modello.3
Gemma 7B impiega l'attenzione multitesta, con più "teste di attenzione" che hanno le proprie chiavi e valori per acquisire diversi tipi di relazioni tra i token. Al contrario, Gemma 2B impiega un'attenzione multiquery, in cui tutte le teste di attenzione condividono un unico set di chiavi e valori, migliorando così la velocità e riducendo il carico di memoria.11
Gemma 2 utilizza reti neurali più profonde rispetto a Gemma. Ecco alcune altre differenze architettoniche degne di nota:4
Per ogni altro strato della sua rete neurale, Gemma 2 alterna l'attenzione di una finestra scorrevole locale e un'attenzione globale. L'attenzione di una finestra scorrevole locale è un meccanismo dinamico che consente di concentrarsi su alcune "finestre" di dimensioni fisse di sequenze di input, consentendo ai modelli di concentrarsi solo su alcune parole alla volta. L'attenzione globale, nel frattempo, si occupa di ogni token della sequenza.
Gemma 2 utilizza inoltre l'attenzione delle query raggruppate, un approccio divide et impera che suddivide le query in gruppi più piccoli e calcola separatamente l'attenzione all'interno di ciascun gruppo.
Inoltre, i modelli Gemma 2 2B e 9B applicano la distillazione della conoscenza, che consiste nel "distillare" la conoscenza di un modello più grande in uno più piccolo, addestrando il modello più piccolo a emulare il processo di ragionamento del modello più grande e a corrispondere alle sue previsioni.
In termini di ottimizzazione delle istruzioni, che prepara il modello a seguire meglio le istruzioni, sia Gemma sia Gemma 2 applicano la messa a punto supervisionata e l'apprendimento per rinforzo dal feedback umano (RLHF).4 La messa a punto supervisionata utilizza esempi etichettati di attività orientate alle istruzioni per insegnare al modello come strutturare le sue risposte. Nel frattempo, RLHF utilizza un modello di ricompensa per tradurre le valutazioni di qualità dei valutatori umani in segnali numerici di ricompensa, aiutando i modelli a capire quali risposte otterranno un feedback positivo.
Le valutazioni delle prestazioni di Gemma 7B nei benchmark LLM che spaziano dalla generazione di codici al ragionamento di buon senso, alla comprensione del linguaggio, al ragionamento matematico e alla risposta alle domande indicano che è paragonabile agli SLM di scala simile a Llama 3 8B e Mistral 7B. Gemma 2 9B e 27B si sono comportati ancora meglio, superando sia Llama 3 8B, sia Mistral 7B nella maggior parte dei benchmark.12
Tuttavia, Llama 3.2 3B e Ministral 3B, i più recenti SLM di Meta e Mistral, hanno superato Gemma 2 2B in diversi benchmark.13 Anche Phi-3-mini di Microsoft, un modello linguistico con 3,8 miliardi di parametri, ha ottenuto una prestazione superiore a Gemma 7B.14
I modelli Gemma sono accessibili attraverso queste piattaforme:
Google AI Studio
Hugging Face (integrato anche in Hugging Face Transformers)
Kaggle
Vertex AI Model Garden
Inoltre, gli sviluppatori possono implementare i modelli in framework di apprendimento automatico open source come JAX, LangChain, PyTorch e TensorFlow e tramite application programming interface (API) come Keras 3.0. Inoltre, dal momento che Gemma include l'ottimizzazione su tutte le GPU NVIDIA, gli sviluppatori possono utilizzare gli strumenti NVIDIA, tra cui il framework NeMo per mettere a punto i modelli e TensorRT-LLM per ottimizzarli per un'inferenza efficiente sulle GPU NVIDIA.
Per lo sviluppo di AI a livello aziendale, i modelli Gemma possono essere implementati su Google Cloud Vertex AI e Google Kubernetes Engine (GKE). Per i modelli con potenza di calcolo limitata, Google Colab offre l'accesso gratuito basato sul cloud a risorse di calcolo come GPU e TPU.
Come altri modelli AI, Google Gemma continua a fare i conti con i rischi dell'AI, tra cui:
Bias: i modelli più piccoli possono imparare dai bias presenti nelle loro controparti più grandi e questo effetto domino può riflettersi nei risultati.
Allucinazioni: verificare e monitorare gli output di SLM come Gemma è fondamentale per assicurarsi che quello che producono sia accurato e, di fatto, corretto.
Violazioni della privacy: Google fa notare che i set di dati di addestramento per Gemma e Gemma 2 sono stati filtrati per rimuovere determinate informazioni personali e altri dati sensibili.4 Tuttavia, i singoli utenti e le aziende devono comunque prestare attenzione ai dati che utilizzano per mettere a punto Gemma ed evitare la divulgazione di dati personali o proprietari.
Per quanto riguarda la sicurezza, Google ha valutato Gemma in base a diverse metriche, tra cui la cybersecurity offensiva, la conoscenza CBRN (chimica, biologica, radiologica e nucleare), l'autoproliferazione (la capacità di replicarsi autonomamente) e la persuasione. La conoscenza di Gemma nei domini CBRN è bassa. Allo stesso modo, il modello presenta scarse funzionalità di cybersecurity offensiva, autoproliferazione e persuasione.4
Google ha anche rilasciato un toolkit per l'AI generativa responsabile per assistere ricercatori e sviluppatori di AI nella creazione di applicazioni di AI responsabili e sicure.1
Tutti i link sono esterni a ibm.com
1 Gemma: Introducing new state-of-the-art open models, Google, 21 febbraio 2024
2 Gemma 2 è ora disponibile per ricercatori e sviluppatori, Google, 27 giugno 2024
3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind, 21 febbraio 2024
4 Gemma 2: Improving Open Language Models at a Practical Size, Google DeepMind, 27 giugno 2024
5 CodeGemma model card, Google AI for developers, 5 agosto 2024
6 Knowing When to Ask — Bridging Large Language Models and Data, arXiv, 10 settembre 2024
7 PaliGemma model card, GoogleAI for developers, 5 agosto 2024
8 PaliGemma, Google AI for developers, 5 agosto 2024
9 RecurrentGemma model card, Google AI for developers, 5 agosto 2024
10 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 agosto 2017
11 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 agosto 2024
12 Gemma Open Models, Google AI for Developers, consultato il 5 novembre 2024
13 Un Ministral, des Ministraux, Mistral AI, 16 ottobre 2024
14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 aprile 2024
Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.