O que é o Google Gemma?

Pedras preciosas sendo examinadas

Autores

Rina Diane Caballar

Staff Writer

IBM Think

O que é o Google Gemma?

O Gemma é a família de pequenos modelos de linguagem (SLMs) abertos e gratuitos do Google. São construídos com a mesma tecnologia da família Gemini de grandes modelos de linguagem (LLMs) e são considerados versões "leves" do Gemini.

Como são mais enxutos do que os modelos Gemini, os modelos Gemma podem ser implementados em notebooks e dispositivos móveis, mas também são otimizados para unidades de processamento gráfico (GPUs) da NVIDIA e unidades de processamento tensor (TPUs) do Google Cloud. No entanto, ao contrário do Gemini, o Gemma não é multilíngue nem multimodal.

Esses modelos de inteligência artificial (IA) de texto para texto derivam seu nome da mesma palavra latina, que significa “pedra preciosa”. O Gemma é um grupo de modelos abertos, com o Google fornecendo acesso gratuito aos pesos do modelo, e os modelos estão disponíveis gratuitamente para uso e redistribuição individual e comercial.1

Os modelos de primeira geração do Gemma foram lançados em fevereiro de 2024,1 enquanto os modelos de segunda geração foram anunciados em junho de 2024.2

Família de modelos Gemma

A coleção de modelos de IA do Gemma inclui o Gemma e Gemma 2 em seu núcleo, além de alguns modelos mais especializados que foram otimizados para tarefas específicas e têm uma arquitetura diferente que os sustenta. Os modelos da linha Gemma têm variantes básicas ou pré-treinadas e variantes ajustadas por instruções.

Gemma

O Gemma é a primeira geração dos modelos Gemma. O Gemma 2B é o menor, com dois bilhões de parâmetros, enquanto o Gemma 7B tem sete bilhões de parâmetros. Esses modelos foram treinados com conjuntos de dados de código e matemática e, principalmente, com conteúdo em inglês de documentos da web.3

Gemma 2

O Gemma 2 é a segunda geração da família Gemma. De acordo com o Google, o Gemma 2 tem melhor desempenho e é mais eficiente na inferência de IA (quando um modelo gera uma resposta à consulta de um usuário) em comparação com seu antecessor.2

O modelo está disponível em tamanhos de parâmetros de dois, nove e 27 bilhões. Seus conjuntos de dados de treinamento abrangem documentos da web em inglês, código e artigos científicos.4

CodeGemma

Esse modelo de texto para código é ajustado para tarefas de programação. Ele é compatível com várias linguagens de programação, incluindo C++, C#, Go, Java, JavaScript, Kotlin, Python e Rust.5

O CodeGemma possui uma variante pré-treinada de sete bilhões para conclusão e geração de código, uma variante ajustada por instruções de sete bilhões para chat de código em linguagem natural e seguimento de instruções e uma variante pré-treinada de dois bilhões para conclusão de código rápida.5

DataGemma

O DataGemma é composto por modelos Gemma e Gemma 2 ajustados que complementam suas respostas com dados do Data Commons do Google, um repositório de dados estatísticos públicos. Os modelos DataGemma RIG aplicam a geração intercalada de recuperação para criar consultas de linguagem natural para obter dados do Data Commons. Enquanto isso, os modelos DataGemma RAG empregam geração aumentada de recuperação para buscar dados do Data Commons que podem ampliar os prompts dos modelos.6

PaliGemma

Esse modelo de linguagem de visão aceita imagens e texto como entrada e produz texto como saída. Dessa forma, é ideal para responder a perguntas sobre imagens, detectar objetos dentro de imagens, gerar legendas de imagens e ler texto incorporado em imagens. Sua arquitetura subjacente consiste em um codificador de imagens de transformador de visão e um decodificador de texto de transformador inicializado a partir do Gemma 2B.7

O PaliGemma  possui um conjunto de modelos pré-treinados para uso geral e um conjunto de modelos orientados para pesquisa, ajustados em determinados conjuntos de dados de pesquisa. O Google observa que a maioria dos modelos PaliGemma requer ajuste fino, e as saídas devem ser testadas antes da implementação nos usuários.8

RecurrentGemma

O RecurrentGemma usa uma arquitetura de rede neural recorrente desenvolvida por pesquisadores do Google.. Isso o torna mais rápido na inferência (principalmente ao gerar sequências longas) e requer menos memória que o Gemma. Ele vem em modelos de dois bilhões e nove bilhões pré-treinados e com ajuste fino para instruções.9

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Casos de uso do Gemma

O CodeGemma e o PaliGemma têm seus próprios casos de uso específicos. Mas, em geral, as pessoas podem usar o Gemma para tarefas de processamento de linguagem natural (NLP) e natural language understanding, incluindo:

  • Criação de assistentes de IA conversacional e chatbots
  • Edição e revisão
  • Respostas a perguntas e pesquisa
  • Geração de texto, como e-mails, textos de publicidade e outros conteúdos
  • Resumos de textos, especialmente para documentos extensos e grandes volumes de relatórios ou artigos de pesquisa

Como funciona o Google Gemma?

O Gemma é baseado em um modelo de transformador, uma arquitetura de rede neural que se originou do Google em 2017.10

Veja aqui uma breve visão geral de como os modelos de transformadores funcionam:

  • Codificadores transformam sequências de entrada em representações numéricas chamadas incorporações, que capturam a semântica e a posição dos tokens na sequência de entrada.

  • Um mecanismo de autoatenção permite que os transformadores "concentrem sua atenção" nos tokens mais importantes na sequência de entrada, independentemente de sua posição.

  • Os decodificadores utilizam esse mecanismo de autoatenção e as incorporações dos codificadores para gerar a sequência de saída estatisticamente mais provável.

No entanto, o Gemma usa uma variação da arquitetura de transformação conhecida como transformador somente de decodificação.11 Nesse modelo, as sequências de entrada são alimentadas diretamente no decodificador, que ainda usa incorporações e mecanismos de atenção para gerar a sequência de saída.

Arquitetura do modelo Gemma

Os modelos de primeira geração do Gemma melhoram os transformadores por meio de alguns elementos arquitetônicos:

  • Cada camada da rede neural utiliza incorporações posicionais rotativas em vez de incorporações posicionais absolutas. As incorporações também são compartilhadas entre entradas e saídas para comprimir o modelo.3

  • O Gemma de sete bilhões emprega atenção de múltiplas cabeças, com várias “cabeças de atenção” com suas próprias chaves e valores para capturar diferentes tipos de relacionamentos entre os tokens. Ao contrário, o Gemma de dois bilhões emprega atenção multiconsulta, onde todas as cabeças de atenção compartilham um único conjunto de chaves e valores, aumentando, assim, a velocidade e diminuindo a carga de memória.11

Arquitetura do modelo Gemma 2

O Gemma 2 usa redes neurais mais profundas do que o Gemma. Aqui estão algumas outras diferenças arquitetônicas notáveis:4

  • Para cada outra camada de sua rede neural, o Gemma 2 alterna entre uma atenção de janela deslizante local e atenção global. A atenção de janela deslizante local é um mecanismo dinâmico para focar em certas “janelas” de tamanho fixo de sequências de entrada, permitindo que os modelos se concentrem em apenas algumas palavras de cada vez. Enquanto isso, a atenção global se volta para cada token na sequência.

  • O Gemma 2 também utiliza a atenção por agrupamento de consultas, uma abordagem de "dividir para conquistar" que separa as consultas em grupos menores e calcula a atenção dentro de cada grupo separadamente.

  • Além disso, os modelos Gemma 2 de dois bilhões e nove bilhões aplicam destilação de conhecimento, que consiste em “destilar” o conhecimento de um modelo maior para um modelo menor, ao treinar o modelo menor para emular o processo de raciocínio do modelo maior e corresponder às suas previsões.

Ajuste de instruções

Em termos de ajuste de instruções, que prepara o modelo para seguir melhor as instruções, tanto o Gemma quanto o Gemma 2 aplicam o ajuste fino supervisionado e o aprendizado por reforço a partir do feedback humano (RLHF).4 O ajuste fino supervisionado usa exemplos rotulados de tarefas orientadas por instruções para ensinar ao modelo como estruturar suas respostas. Enquanto isso, o RLHF usa um modelo de recompensa para traduzir as avaliações de qualidade dos avaliadores humanos em sinais numéricos de recompensa, ajudando os modelos a aprender quais respostas receberão feedback positivo.

Desempenho do Gemma

As avaliações do desempenho do Gemma de sete bilhões em benchmarks de LLM que abrangem geração de código, raciocínio de senso comum, compreensão de linguagem, raciocínio matemático e resposta a perguntas indicam que ele é comparável a SLMs de escala semelhante, como o Llama 3 de oito bilhões e o Mistral de sete bilhões. Os Gemma 2 de nove bilhões e de 27 bilhões tiveram um desempenho ainda melhor, superando o Llama 3 de oito bilhões e o Mistral de sete bilhões na maioria dos benchmarks.12

No entanto, o Llama 3.2 de três bilhões e o Ministral de três bilhões, os mais recentes SLMs da Meta e da Mistral, respectivamente, superaram o Gemma 2 de dois bilhões em vários benchmarks.13 O Phi-3-mini da Microsoft, um modelo de linguagem de 3,8 bilhões de parâmetros, também obteve desempenho superior ao do Gemma de sete bilhões.14

Como as pessoas podem acessar o Gemma?

Os modelos Gemma podem ser acessados por meio destas plataformas:

  • Google AI Studio

  • Hugging Face (também integrado aos Hugging Face Transformers)

  • Kaggle

  • Vertex AI Model Garden

Além disso, os desenvolvedores podem implementar os modelos em estruturas de aprendizado de máquina de código aberto, como o JAX, LangChain, PyTorch e TensorFlow, e por meio de interfaces de programação de aplicativos (APIs) como o Keras 3.0. Além disso, como o Gemma inclui otimização em GPUs NVIDIA, os desenvolvedores podem usar ferramentas NVIDIA, incluindo o framework NeMo para ajuste fino dos modelos, e o TensorRT-LLM para otimizá-los para inferência eficiente em GPUs NVIDIA. 

Para desenvolvimento de IA empresarial, os modelos Gemma podem ser implementados no Google Vertex AI e no Google Kubernetes Engine (GKE). Para aqueles com poder computacional limitado, o Google Colab fornece acesso gratuito baseado em nuvem a recursos como GPUs e TPUs.

Riscos do Gemma

Assim como outros modelos de IA, o Google Gemma continua enfrentando os riscos da IA, incluindo:

  • Viés: modelos menores podem aprender com o viés presente em suas contrapartes maiores, e esse efeito dominó pode se refletir em seus resultados.

  • Alucinações: verificar e monitorar as saídas de SLMs como o Gemma é essencial para garantir que o que eles produzem seja preciso e factualmente correto.

  • Violações de privacidade: o Google observa que os conjuntos de dados de treinamento para Gemma e Gemma 2 foram filtrados para remover certas informações pessoais e outros dados confidenciais.4 No entanto, usuários individuais e empresas ainda devem ter cuidado com os dados que usam para fazer ajuste fino no Gemma e evitar vazamento de dados pessoais ou proprietários.

Quando se trata de segurança e proteção, o Google avaliou o Gemma em várias métricas, incluindo cibersegurança ofensiva, conhecimento em CBRN (químico, biológico, radiológico e nuclear), autoproliferação (a capacidade de se replicar autonomamente) e persuasão. O conhecimento de Gemma em domínios CBRN é baixo. Da mesma forma, o modelo possui baixos recursos em cibersegurança ofensiva, autoproliferação e persuasão.4

O Google também lançou um toolkit para IA generativa responsável, com o objetivo de ajudar pesquisadores e desenvolvedores de IA a criar aplicações responsáveis e seguras.1

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

Notas de rodapé

Todos os links levam para fora do site ibm.com

1 Gemma: Introducing new state-of-the-art open models, Google, 21 de fevereiro de 2024

2 Gemma 2 is now available to researchers and developers, Google, 27 de junho de 2024

3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind, 21 de fevereiro de 2024

4 Gemma 2: Improving Open Language Models at a Practical Size, Google DeepMind, 27 de junho de 2024

5 CodeGemma model card, Google AI for developers, 5 de agosto de 2024

6 Knowing When to Ask — Bridging Large Language Models and Data, arXiv, 10 de setembro de 2024

7 PaliGemma model card, GoogleAI for developers, 5 de agosto de 2024

8 PaliGemma, Google AI for developers, 5 de agosto de 2024

9 RecurrentGemma model card, Google AI for developers, 5 de agosto de 2024

10 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 de agosto de 2017

11 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 de agosto de 2024

12 Gemma Open Models, Google AI for Developers, acessado em 5 de novembro de 2024

13 Un Ministral, des Ministraux, Mistral AI, 16 de outubro de 2024

14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 de abril de 2024

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Explore o watsonx.ai Explore as soluções de IA