Che cos'è Google Gemini?

Una fotografia in bianco e nero del Goddard Space Center piena di persone e attrezzatura.

Autori

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Che cos'è Google Gemini?

Gemini è il modello linguistico di grandi dimensioni (LLM) di Google. Più in generale, si tratta di una famiglia di modelli AI multimodali progettati per elaborare diverse modalità o tipi di dati, tra cui audio, immagini, codice software, testo e video.

Gemini è anche il modello che alimenta l'omonimo chatbot di AI generativa (gen AI) di Google (precedentemente chiamato Bard), proprio come Claude di Anthropic prende il nome sia dal chatbot che dalla famiglia di LLM dietro di esso. Le app Gemini su web e mobile fungono da interfaccia chatbot per i modelli sottostanti.

Google sta gradualmente integrando il chatbot Gemini nella sua suite di tecnologie. Ad esempio, Gemini è l'assistente di intelligenza artificiale (AI) predefinito sugli ultimi telefoni Google Pixel 9 e Pixel 9 Pro, che sostituisce Google Assistant. In Google Workspace, Gemini è disponibile nel pannello laterale Documenti per aiutare a scrivere e modificare contenuti e nel pannello laterale di Gmail per facilitare la stesura delle e-mail, suggerire risposte e cercare informazioni nella casella di posta di un utente.

Anche altre app di Google stanno incorporando Gemini. Google Maps, ad esempio, sta attingendo alle funzionalità del modello Gemini per fornire riepiloghi di luoghi e aree.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Come funziona Google Gemma?

Gemini è stato addestrato su un enorme corpus di set di dati multilingue e multimodali. Utilizza un modello di trasformatore, un'architettura di rete neurale che Google stesso ha introdotto nel 2017.1

Di seguito è riportata una breve panoramica di come funzionano i modelli trasformatori:

  • ● Gli encoder trasformano le sequenze di input in rappresentazioni numeriche chiamate incorporamenti che acquisiscono la semantica e la posizione dei token nella sequenza di input.

  • Un meccanismo di auto-attenzione permette ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione.

  • I decodificatori utilizzano questo meccanismo di auto-attenzione e gli incorporamenti degli codificatori per generare la sequenza di output statisticamente più probabile.

A differenza dei modelli generativi pre-addestrati (GPT), che accettano solo prompt basati su testo, o modelli di diffusione utilizzati per la generazione di immagini che accettano sia prompt di testo che di immagini, Google Gemini supporta sequenze intrecciate di audio, immagini, testo e video come input e può produrre output di testo e immagini intrecciate.2

Versioni dei modelli Gemini AI

La famiglia di modelli AI multimodali di Gemini è disponibile in diverse varianti. Ogni variante è ottimizzata per dispositivi e attività diverse.

Il modello di prima generazione di Gemini, 1.0, è disponibile in Nano e Ultra. Il modello di nuova generazione, 1.5, è disponibile in Pro e Flash.

Basarsi e sperimentare con le caratteristiche e le funzioni AI di Gemini può essere fatto tramite l'API Gemini nelle piattaforme di sviluppo AI di Google AI Studio e Google Cloud Vertex AI. Per ora, sono disponibili solo Gemini 1.5 Pro e Gemini 1.5 Flash.

Gemini 1.0 Nano

Gemini 1.0 Nano è la versione più piccola della famiglia 1.0 progettata per funzionare su dispositivi mobili, anche senza una rete dati. Può eseguire attività sul dispositivo, per esempio descrivere immagini, suggerire risposte ai messaggi di chat, riassumere il testo e trascrivere il parlato.

Gemini Nano è disponibile su dispositivi Android a partire da Pixel 8 Pro. Superando i limiti relativi ai soli mobile, Google sta incorporando Gemini Nano nel suo client desktop Chrome.

Gemini 1.0 Ultra

Gemini 1.0 Ultra è la versione più grande della famiglia 1.0 con funzionalità avanzate. È progettato per attività altamente complesse come la codifica, il ragionamento matematico e il ragionamento multimodale. La finestra contestuale, il numero di token che un modello può elaborare contemporaneamente, sia di Gemini Nano che di Gemini Ultra è di 32.000 token.2

Gemini 1.5 Pro

Gemini 1.5 Pro è un modello multimodale di medie dimensioni con una finestra di contesto fino a 2 milioni di token. Questa lunga finestra contestuale consente a Gemini Pro di elaborare informazioni su una scala più ampia: da ore di audio e video a migliaia di righe di codice o centinaia di pagine di documenti.3

Oltre all'architettura trasformativa, Gemini 1.5 Pro applica un'architettura Mixture of Experts (MoE). I modelli MoE sono suddivisi in reti neurali esperte più piccole, ciascuna specializzata in un determinato dominio o tipo di dati. Il modello impara ad attivare selettivamente solo gli esperti più pertinenti a seconda del tipo di input. Ciò si traduce in prestazioni più rapide riducendo al contempo i costi di elaborazione.4

Gemini 1.5 Flash

Gemini 1.5 Flash è una versione leggera di Gemini Pro. È stato addestrato utilizzando una tecnica di machine learning (ML) chiamata distillazione della conoscenza, in cui le informazioni di Gemini 1.5 Pro sono state trasferite al più compatto Gemini 1.5 Flash. Presenta anche una lunga finestra contestuale di fino a 1 milione di token, ma ha una latenza inferiore che la rende più veloce e più efficiente.3

Breve storia di Google Gemini

Google è stato un pioniere nell'architettura LLM e attinge alla sua robusta ricerca per sviluppare i propri modelli AI.

  • 2017: i ricercatori di Google presentano l'architettura trasformativa alla base di molti degli LLM odierni.

  • 2020: L'azienda introduce il chatbot Meena, un agente conversazionale basato su reti neurali con 2,6 miliardi di parametri.5

  • 2021: Google presenta LaMDA (Language Model for Dialogue Applications), il suo LLM conversazionale.6

  • 2022: Viene rilasciato PaLM (Pathways Language Model), con funzionalità più avanzate rispetto a LaMDA.7

  • 2023: Bard inizia durante il primo trimestre dell'anno, supportato da una versione leggera e ottimizzata di LaMDA.8 Il secondo trimestre vede il rilascio di PalM 2, con competenze avanzate di codifica, multilingue e ragionamento, e adottato da Bard.9 Google annuncia Gemini 1.0 nell'ultimo trimestre dell'anno.

  • 2024: Google rinomina Bard come Gemini e aggiorna i suoi modelli AI multimodali alla versione 1.5.

La parola "Gemini" in latino significa "gemelli", ed è sia un segno zodiacale che una costellazione. Era un nome molto appropriato, visto che il modello Gemini è nato da un'idea di Google DeepMind, una fusione di forze tra i team di DeepMind e Google Brain. L'azienda si è ispirata anche al Project Gemini della NASA, un veicolo spaziale per due persone parte integrante del successo della missione Apollo.10

Prestazioni di Gemini

Gemini Ultra supera modelli simili in vari benchmark LLM. Supera Claude 2, GPT-4 e Llama 2 in benchmark come GSM8K per il ragionamento matematico, HumanEval per la generazione di codice e MMLU per la comprensione del linguaggio naturale.2

In particolare, Gemini Ultra ha superato anche le prestazioni degli esperti umani in MMLU. Tuttavia, GPT-4 ha ancora prestazioni migliori rispetto a Gemini Ultra nel benchmark HellaSwag per il ragionamento basato sul buon senso e l'inferenza del linguaggio naturale.2

Google ha anche valutato le funzionalità multi-modali di Gemini Ultra. Ha ottenuto risultati superiori rispetto ad altri modelli nei benchmark di comprensione dei documenti, comprensione delle immagini e riconoscimento vocale automatico. E nonostante abbia battuto gli LLM nei benchmark per la traduzione vocale automatica, i sottotitoli video in inglese, la comprensione e il ragionamento multimodali e la risposta alle domande video, le prestazioni di Gemini Ultra in queste aree hanno margini di miglioramento.2

Nel frattempo, le prestazioni di Gemini 1.5 Flash e Gemini 1.5 Pro sono paragonabili o addirittura superiori a quelle di Gemini 1.0 Ultra.11 Con l'aumentare della finestra contestuale, Gemini 1.5 Pro mantiene prestazioni di alto livello.4

Casi d'uso di Gemini

Google Gemini è ancora nelle sue fasi iniziali, ma questo modello AI altamente capace ha il potenziale per essere implementato in un'ampia gamma di applicazioni:

  • Codifica avanzata

  • Comprensione di immagini e testi

  • Traduzione della lingua

  • Analisi malware

  • Esperti di AI personalizzati

  • Agenti AI universali

  • Assistenti vocali

Codifica avanzata

Il modello Gemini AI può funzionare su linguaggi di programmazione come C++, Java e Python per comprendere, spiegare e generare codice. Google ha utilizzato versioni perfezionate di Gemini Pro come foundation model per sviluppare AlphaCode2, un sistema di generazione di codice in grado di risolvere problemi di programmazione competitiva con elementi di informatica teorica e matematica complessa.

Comprensione di immagini e testi

Gemini può essere utilizzato per estrarre testo da immagini e didascalie di immagini. Può analizzare elementi visivi come grafici, diagrammi e figure senza l'ausilio di strumenti di riconoscimento ottico dei caratteri (OCR) che convertono le immagini di testo in un formato leggibile dalla macchina.

Traduzione linguistica

Grazie alle loro funzionalità multilingue, i modelli AI di Google possono essere utilizzati per tradurre diverse lingue. Nell'app per videoconferenze Meet, ad esempio, gli utenti possono attivare i sottotitoli tradotti per tradurre da e verso lingue specifiche.

Analisi del malware

Sia Gemini 1.5 Pro che Gemini 1.5 Flash possono essere utilizzati per l'analisi del malware. Gemini Pro è in grado di determinare con precisione se un file o un frammento di codice è dannoso e può generare un rapporto dettagliato dei suoi risultati.12 Nel frattempo, Gemini Flash può eseguire una rapida dissezione del malware su larga scala.13

Esperti AI personalizzati

Google ha recentemente rilasciato una nuova funzionalità chiamata Gems che consente agli utenti di personalizzare il chatbot Gemini per creare "esperti" di AI su misura su qualsiasi attività o argomento. Alcuni esempi di Gems predefiniti includono un learning coach per aiutare ad analizzare argomenti complessi e renderli più facili da capire, un partner di brainstorming per offrire nuove idee per il prossimo video e un editor di scrittura per fornire feedback su grammatica e struttura.

I Gems sono disponibili con un abbonamento Gemini Advanced, che utilizza il modello Gemini 1.5 Pro.

Agenti AI universali

Attraverso Project Astra, Google si basa sui suoi modelli Gemini per creare un Agente AI universale in grado di elaborare, ricordare e comprendere le informazioni multi-modali in tempo reale. Per migliorare il richiamo e l'efficienza, Project Astra sfrutta la memorizzazione nella cache, la codifica continua dei fotogrammi video e l'accoppiamento degli input vocali e video in una cronologia degli eventi.14

In una delle demo di Google, l'assistente Gemini AI è stato in grado di spiegare le parti di un oratore, riconoscere il quartiere in cui si trovava una persona e ricordare dove aveva messo gli occhiali.14

Assistenti vocali

Con Gemini Live, gli utenti possono dialogare con il chatbot Gemini in modo più naturale e colloquiale. Offre risposte più intuitive e può adattarsi allo stile di conversazione di una persona.

Rischi di Gemini

Come altri LLM, Google Gemini continua a fare i conti con i rischi dell'AI. Si raccomanda cautela, soprattutto per le persone che intendono utilizzare Gemini e le organizzazioni che stanno considerando il modello per uso commerciale o per integrarlo nei loro workflow.

Bias: nel febbraio 2024, Google ha deciso di sospendere la capacità del chatbot Gemini di creare immagini di persone a causa della sua rappresentazione imprecisa di personaggi storici, cancellando una storia di pregiudizi razziali.15

Allucinazioni: al momento della stesura di questo articolo, i risultati di ricerca con panoramica dell'AI supportati da Gemini continuano a produrre occasionalmente output effettivamente errati.

Violazioni della proprietà intellettuale: Google è stato multato dalle autorità di regolamentazione in Francia, rilevando che l'azienda ha utilizzato un chatbot AI addestrato su notizie e contenuti senza la conoscenza o il consenso degli editori del paese.16

Soluzioni correlate
Foundation Model

Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Esplora watsonx.ai Esplora le soluzioni AI
Note a piè di pagina

1 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 agosto 2017.

2 Gemini: A Family of Highly Capable Multimodal Models, Google DeepMind, consultato il 16 settembre 2024.

3 Gemini Models, Google DeepMind, consultato il 16 September 2024.

4 Our next-generation model: Gemini 1.5, Google, 15 febbraio 2024.

5 Towards a Conversational Agent that Can Chat About…Anything, Google Research, 28 gennaio 2020.

6 LaMDA: our breakthrough conversation technology, Google, 18 maggio 2021.

7 Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google Research, 4 aprile 2022.

8 Try Bard and share your feedback, Google, 21 marzo 2023.

9 Introducing PaLM 2, Google, 10 maggio 2023.

10 How Google’s AI model Gemini got its name, Google, 15 maggio 2024.

11 Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context, Google DeepMind, consultato il 16 settembre 2024.

12 From Assistant to Analyst: The Power of Gemini 1.5 Pro for Malware Analysis, Google Cloud, 30 aprile 2024.

13 Scaling Up Malware Analysis with Gemini 1.5 Flash, Google Cloud, 16 luglio 2024.

14 Project Astra, Google DeepMind, consultato il 16 settembre 2024.

15 Google chief admits ‘biased’ AI tool’s photo diversity offended users, The Guardian, 28 febbraio 2024.

16 Google fined €250m in France for breaching intellectual property deal, The Guardian, 20 marzo 2024.