O que é o Google Gemma?

Autores

Staff Writer

IBM Think

O que é o Google Gemma?

O Gemma é a família de pequenos modelos de linguagem (SLMs) abertos e gratuitos do Google. São construídos com a mesma tecnologia da família Gemini de grandes modelos de linguagem (LLMs) e são considerados versões "leves" do Gemini.

Como são mais enxutos do que os modelos Gemini, os modelos Gemma podem ser implementados em notebooks e dispositivos móveis, mas também são otimizados para unidades de processamento gráfico (GPUs) da NVIDIA e unidades de processamento tensor (TPUs) do Google Cloud. No entanto, ao contrário do Gemini, o Gemma não é multilíngue nem multimodal.

Esses modelos de inteligência artificial (IA) de texto para texto derivam seu nome da mesma palavra latina, que significa “pedra preciosa”. O Gemma é um grupo de modelos abertos, com o Google fornecendo acesso gratuito aos pesos do modelo, e os modelos estão disponíveis gratuitamente para uso e redistribuição individual e comercial.¹

Os modelos de primeira geração do Gemma foram lançados em fevereiro de 2024,¹ enquanto os modelos de segunda geração foram anunciados em junho de 2024.²

Família de modelos Gemma

A coleção de modelos de IA do Gemma inclui o Gemma e Gemma 2 em seu núcleo, além de alguns modelos mais especializados que foram otimizados para tarefas específicas e têm uma arquitetura diferente que os sustenta. Os modelos da linha Gemma têm variantes básicas ou pré-treinadas e variantes ajustadas por instruções.

Gemma

O Gemma é a primeira geração dos modelos Gemma. O Gemma 2B é o menor, com dois bilhões de parâmetros, enquanto o Gemma 7B tem sete bilhões de parâmetros. Esses modelos foram treinados com conjuntos de dados de código e matemática e, principalmente, com conteúdo em inglês de documentos da web.³

Gemma 2

O Gemma 2 é a segunda geração da família Gemma. De acordo com o Google, o Gemma 2 tem melhor desempenho e é mais eficiente na inferência de IA (quando um modelo gera uma resposta à consulta de um usuário) em comparação com seu antecessor.²

O modelo está disponível em tamanhos de parâmetros de dois, nove e 27 bilhões. Seus conjuntos de dados de treinamento abrangem documentos da web em inglês, código e artigos científicos.⁴

CodeGemma

Esse modelo de texto para código é ajustado para tarefas de programação. Ele é compatível com várias linguagens de programação, incluindo C++, C#, Go, Java, JavaScript, Kotlin, Python e Rust.⁵

O CodeGemma possui uma variante pré-treinada de sete bilhões para conclusão e geração de código, uma variante ajustada por instruções de sete bilhões para chat de código em linguagem natural e seguimento de instruções e uma variante pré-treinada de dois bilhões para conclusão de código rápida.⁵

DataGemma

O DataGemma é composto por modelos Gemma e Gemma 2 ajustados que complementam suas respostas com dados do Data Commons do Google, um repositório de dados estatísticos públicos. Os modelos DataGemma RIG aplicam a geração intercalada de recuperação para criar consultas de linguagem natural para obter dados do Data Commons. Enquanto isso, os modelos DataGemma RAG empregam geração aumentada de recuperação para buscar dados do Data Commons que podem ampliar os prompts dos modelos.⁶

PaliGemma

Esse modelo de linguagem de visão aceita imagens e texto como entrada e produz texto como saída. Dessa forma, é ideal para responder a perguntas sobre imagens, detectar objetos dentro de imagens, gerar legendas de imagens e ler texto incorporado em imagens. Sua arquitetura subjacente consiste em um codificador de imagens de transformador de visão e um decodificador de texto de transformador inicializado a partir do Gemma 2B.⁷

O PaliGemma possui um conjunto de modelos pré-treinados para uso geral e um conjunto de modelos orientados para pesquisa, ajustados em determinados conjuntos de dados de pesquisa. O Google observa que a maioria dos modelos PaliGemma requer ajuste fino, e as saídas devem ser testadas antes da implementação nos usuários.⁸

RecurrentGemma

O RecurrentGemma usa uma arquitetura de rede neural recorrente desenvolvida por pesquisadores do Google.. Isso o torna mais rápido na inferência (principalmente ao gerar sequências longas) e requer menos memória que o Gemma. Ele vem em modelos de dois bilhões e nove bilhões pré-treinados e com ajuste fino para instruções.⁹

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA  

Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think.

Casos de uso do Gemma

O CodeGemma e o PaliGemma têm seus próprios casos de uso específicos. Mas, em geral, as pessoas podem usar o Gemma para tarefas de processamento de linguagem natural (NLP) e natural language understanding, incluindo:

Criação de assistentes de IA conversacional e chatbots
Edição e revisão
Respostas a perguntas e pesquisa
Geração de texto, como e-mails, textos de publicidade e outros conteúdos
Resumos de textos, especialmente para documentos extensos e grandes volumes de relatórios ou artigos de pesquisa

Como funciona o Google Gemma?

O Gemma é baseado em um modelo de transformador, uma arquitetura de rede neural que se originou do Google em 2017.¹⁰

Veja aqui uma breve visão geral de como os modelos de transformadores funcionam:

Codificadores transformam sequências de entrada em representações numéricas chamadas incorporações, que capturam a semântica e a posição dos tokens na sequência de entrada.

Um mecanismo de autoatenção permite que os transformadores "concentrem sua atenção" nos tokens mais importantes na sequência de entrada, independentemente de sua posição.

Os decodificadores utilizam esse mecanismo de autoatenção e as incorporações dos codificadores para gerar a sequência de saída estatisticamente mais provável.

No entanto, o Gemma usa uma variação da arquitetura de transformação conhecida como transformador somente de decodificação.¹¹ Nesse modelo, as sequências de entrada são alimentadas diretamente no decodificador, que ainda usa incorporações e mecanismos de atenção para gerar a sequência de saída.

Arquitetura do modelo Gemma

Os modelos de primeira geração do Gemma melhoram os transformadores por meio de alguns elementos arquitetônicos:

Cada camada da rede neural utiliza incorporações posicionais rotativas em vez de incorporações posicionais absolutas. As incorporações também são compartilhadas entre entradas e saídas para comprimir o modelo.³

O Gemma de sete bilhões emprega atenção de múltiplas cabeças, com várias “cabeças de atenção” com suas próprias chaves e valores para capturar diferentes tipos de relacionamentos entre os tokens. Ao contrário, o Gemma de dois bilhões emprega atenção multiconsulta, onde todas as cabeças de atenção compartilham um único conjunto de chaves e valores, aumentando, assim, a velocidade e diminuindo a carga de memória.¹¹

Arquitetura do modelo Gemma 2

O Gemma 2 usa redes neurais mais profundas do que o Gemma. Aqui estão algumas outras diferenças arquitetônicas notáveis:⁴

Para cada outra camada de sua rede neural, o Gemma 2 alterna entre uma atenção de janela deslizante local e atenção global. A atenção de janela deslizante local é um mecanismo dinâmico para focar em certas “janelas” de tamanho fixo de sequências de entrada, permitindo que os modelos se concentrem em apenas algumas palavras de cada vez. Enquanto isso, a atenção global se volta para cada token na sequência.

O Gemma 2 também utiliza a atenção por agrupamento de consultas, uma abordagem de "dividir para conquistar" que separa as consultas em grupos menores e calcula a atenção dentro de cada grupo separadamente.

Além disso, os modelos Gemma 2 de dois bilhões e nove bilhões aplicam destilação de conhecimento, que consiste em “destilar” o conhecimento de um modelo maior para um modelo menor, ao treinar o modelo menor para emular o processo de raciocínio do modelo maior e corresponder às suas previsões.

Ajuste de instruções

Em termos de ajuste de instruções, que prepara o modelo para seguir melhor as instruções, tanto o Gemma quanto o Gemma 2 aplicam o ajuste fino supervisionado e o aprendizado por reforço a partir do feedback humano (RLHF).⁴ O ajuste fino supervisionado usa exemplos rotulados de tarefas orientadas por instruções para ensinar ao modelo como estruturar suas respostas. Enquanto isso, o RLHF usa um modelo de recompensa para traduzir as avaliações de qualidade dos avaliadores humanos em sinais numéricos de recompensa, ajudando os modelos a aprender quais respostas receberão feedback positivo.

Desempenho do Gemma

As avaliações do desempenho do Gemma de sete bilhões em benchmarks de LLM que abrangem geração de código, raciocínio de senso comum, compreensão de linguagem, raciocínio matemático e resposta a perguntas indicam que ele é comparável a SLMs de escala semelhante, como o Llama 3 de oito bilhões e o Mistral de sete bilhões. Os Gemma 2 de nove bilhões e de 27 bilhões tiveram um desempenho ainda melhor, superando o Llama 3 de oito bilhões e o Mistral de sete bilhões na maioria dos benchmarks.¹²

No entanto, o Llama 3.2 de três bilhões e o Ministral de três bilhões, os mais recentes SLMs da Meta e da Mistral, respectivamente, superaram o Gemma 2 de dois bilhões em vários benchmarks.¹³ O Phi-3-mini da Microsoft, um modelo de linguagem de 3,8 bilhões de parâmetros, também obteve desempenho superior ao do Gemma de sete bilhões.¹⁴

Como as pessoas podem acessar o Gemma?

Os modelos Gemma podem ser acessados por meio destas plataformas:

Google AI Studio

Hugging Face (também integrado aos Hugging Face Transformers)

Kaggle

Vertex AI Model Garden

Além disso, os desenvolvedores podem implementar os modelos em estruturas de aprendizado de máquina de código aberto, como o JAX, LangChain, PyTorch e TensorFlow, e por meio de interfaces de programação de aplicativos (APIs) como o Keras 3.0. Além disso, como o Gemma inclui otimização em GPUs NVIDIA, os desenvolvedores podem usar ferramentas NVIDIA, incluindo o framework NeMo para ajuste fino dos modelos, e o TensorRT-LLM para otimizá-los para inferência eficiente em GPUs NVIDIA.

Para desenvolvimento de IA empresarial, os modelos Gemma podem ser implementados no Google Vertex AI e no Google Kubernetes Engine (GKE). Para aqueles com poder computacional limitado, o Google Colab fornece acesso gratuito baseado em nuvem a recursos como GPUs e TPUs.

Riscos do Gemma

Assim como outros modelos de IA, o Google Gemma continua enfrentando os riscos da IA, incluindo:

Viés: modelos menores podem aprender com o viés presente em suas contrapartes maiores, e esse efeito dominó pode se refletir em seus resultados.

Alucinações: verificar e monitorar as saídas de SLMs como o Gemma é essencial para garantir que o que eles produzem seja preciso e factualmente correto.

Violações de privacidade: o Google observa que os conjuntos de dados de treinamento para Gemma e Gemma 2 foram filtrados para remover certas informações pessoais e outros dados confidenciais.⁴ No entanto, usuários individuais e empresas ainda devem ter cuidado com os dados que usam para fazer ajuste fino no Gemma e evitar vazamento de dados pessoais ou proprietários.

Quando se trata de segurança e proteção, o Google avaliou o Gemma em várias métricas, incluindo cibersegurança ofensiva, conhecimento em CBRN (químico, biológico, radiológico e nuclear), autoproliferação (a capacidade de se replicar autonomamente) e persuasão. O conhecimento de Gemma em domínios CBRN é baixo. Da mesma forma, o modelo possui baixos recursos em cibersegurança ofensiva, autoproliferação e persuasão.⁴

O Google também lançou um toolkit para IA generativa responsável, com o objetivo de ajudar pesquisadores e desenvolvedores de IA a criar aplicações responsáveis e seguras.¹

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

Acessar o episódio