O Gemini é o grande modelo de linguagem (LLM) do Google. De forma mais ampla, é uma família de modelos de IA multimodal projetados para processar várias modalidades ou tipos de dados, incluindo áudio, imagens, código de software, texto e vídeo.
O Gemini também é o modelo que alimenta o chatbot de IA generativa (IA gen) do Google (antigo Bard) de mesmo nome, assim como o Claude da Anthropic é nomeado em homenagem ao chatbot e à família de LLMs por trás dele. Os aplicativos Gemini na web e no dispositivo móvel atuam como uma interface de chatbot para os modelos subjacentes.
O Google está gradualmente integrando o chatbot Gemini a seu pacote de tecnologias. Por exemplo, o Gemini é o assistente de inteligência artificial (IA) padrão nos mais recentes telefones Google Pixel 9 e Pixel 9 Pro, substituindo o Google Assistant. No Google Workspace, o Gemini está disponível no painel lateral do Documentos, para ajudar a escrever e editar conteúdo, e no painel lateral do Gmail, para auxiliar na elaboração de e-mails, sugestão de respostas e pesquisa na caixa de entrada do usuário.
Outros aplicativos do Google também estão incorporando o Gemini. O Google Maps, por exemplo, está utilizando os recursos do modelo Gemini para fornecer resumos de lugares e áreas.
Boletim informativo do setor
Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.
Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.
O Gemini foi treinado com um enorme corpus de conjuntos de dados multilíngues e multimodais. Ele emprega um modelo de transformador, uma arquitetura de redes neurais que o próprio Google introduziu em 2017.1
Veja aqui uma breve visão geral de como os modelos de transformadores funcionam:
Os codificadores transformam sequências de entrada em representações numéricas, chamadas de embeddings, que capturam a semântica e a posição dos tokens na sequência de entrada.
Um mecanismo de autoatenção permite que os transformadores "concentrem sua atenção" nos tokens mais importantes na sequência de entrada, independentemente de sua posição.
Os decodificadores utilizam esse mecanismo de autoatenção e as incorporações dos codificadores para gerar a sequência de saída estatisticamente mais provável.
Ao contrário dos modelos de transformador generativo pré-treinado (GPT) que recebem apenas prompts baseados em texto ou modelos de difusão usados para geração de imagens que recebem prompts de texto e imagem, o Google Gemini é compatível sequências intercaladas de áudio, imagem, texto e vídeo como entradas e pode produzir texto intercalado e saídas de imagem.2
A família Gemini de modelos de IA multimodal vem em múltiplas variantes. Cada variante é otimizada para diferentes dispositivos e tarefas.
O modelo de primeira geração do Gemini, o 1.0, vem em Nano e Ultra. O modelo de última geração, 1.5, vem em Pro e Flash.
Desenvolver e experimentar as funcionalidades e funções de IA do Gemini pode ser feito por meio da API do Gemini nas plataformas de desenvolvimento do Google AI Studio e do Google Cloud Vertex IA. Por enquanto, apenas o Gemini 1.5 Pro e o Gemini 1.5 Flash estão disponíveis.
O Gemini 1.0 Nano é a menor versão da família 1.0 projetada para operar em dispositivos móveis, mesmo sem uma rede de dados. Ele pode realizar tarefas no dispositivo, como descrever imagens, sugerir respostas a mensagens de bate-papo, resumir textos e transcrever falas.
O Gemini Nano está disponível em dispositivos Android a partir do Pixel 8 Pro. Indo além de seus limites somente para dispositivos móveis, o Google está incorporando o Gemini Nano em seu cliente de desktop Chrome.
O Gemini 1.0 Ultra é a maior versão da família 1.0 com recursos analíticos avançados. Ele foi desenvolvido para tarefas altamente complexas, como programação, raciocínio matemático e raciocínio multimodal. A janela de contexto — o número de tokens que um modelo pode processar de uma só vez — do Gemini Nano e do Gemini Ultra é de 32.000 tokens.2
O Gemini 1.5 Pro é um modelo multimodal de médio porte com uma janela de contexto de até 2 milhões de tokens. Essa longa janela de contexto permite que o Gemini Pro processe informações em uma escala maior: de horas de áudio e vídeo a milhares de linhas de código ou centenas de páginas de documentos.3
Além de uma arquitetura de transformação, o Gemini 1.5 Pro aplica uma arquitetura de Mixture of Experts (MoE). Os modelos de MoE são divididos em redes neurais "especialistas" menores, cada uma especializada em um determinado domínio ou tipo de dados. O modelo aprende a ativar seletivamente apenas os especialistas mais relevantes, dependendo do tipo de entrada. Isso resulta em um desempenho mais rápido e reduz os custos computacionais.4
O Gemini 1.5 Flash é uma versão leve do Gemini Pro. Ele foi treinado usando uma técnica de aprendizado de máquina (ML) chamada destilação de conhecimento, em que os insights do Gemini 1.5 Pro foram transferidos para o Gemini 1.5 Flash mais compacto. Ele também apresenta uma funcionalidade de janela de contexto de até 1 milhão de tokens, mas tem uma latência menor que o torna mais rápido e eficiente.3
O Google tem sido pioneiro na arquitetura LLM e se baseia em sua pesquisa robusta para desenvolver seus próprios modelos de IA.
2017: pesquisadores do Google apresentam a arquitetura de transformação, que sustenta muitos dos LLMs atuais.
2020: a empresa lança o chatbot Meena, um agente de conversação baseado em rede neural com 2,6 bilhões de parâmetros.5
2021: O Google revela o LaMDA (Language Model for Dialogue Applications), seu LLM conversacional.6
2022: o PaLM (Pathways Language Model) é lançado, com recursos mais avançados em comparação com o LaMDA.7
2023: o o Bard começa durante o primeiro trimestre do ano, apoiado por uma versão leve e otimizada do LaMDA.8 No segundo trimestre, o PaLM 2 é lançado – com codificação aprimorada, habilidades multilíngues e de raciocínio – e adotado pelo Bard.9 O Google anuncia o Gemini 1.0 no último trimestre do ano.
2024: o Google renomeia Bard como Gemini e atualiza seus modelos de IA multimodais para a versão 1.5.
A palavra "Gemini" significa "gêmeos" em latim e é tanto um signo do zodíaco quanto uma constelação. Era um nome adequado, dado que o modelo Gemini é criação do Google DeepMind, uma fusão de forças entre as equipes da DeepMind e do Google Brain. A empresa também se inspirou no Projeto Gemini da NASA, uma espaçonave de duas pessoas essencial para o sucesso da missão Apollo.10
Gemini Ultra supera modelos semelhantes em vários benchmarks de LLMs. Ele supera o desempenho do Claude 2, GPT-4 e Llama 2 em benchmarks como GSM8K para raciocínio matemático, HumanEval para geração de código e MMLU para natural language understanding.2
Notavelmente, o Gemini Ultra excedeu até mesmo o desempenho de um especialista humano em MMLU. No entanto, o GPT-4 ainda tem um desempenho melhor do que o Gemini Ultra no benchmark HellaSwag para raciocínio de senso comum e inferência de linguagem natural.2
O Google também avaliou os recursos multimodais do Gemini Ultra. Ele teve um desempenho superior ao de outros modelos em compreensão de documentos, compreensão de imagens e benchmarks de reconhecimento automático de fala. E, apesar de superar os LLMs em benchmarks para tradução automática de fala, legendas de vídeos em inglês, compreensão e raciocínio multimodal e resposta a perguntas em vídeos, o desempenho do Gemini Ultra nessas áreas deixa espaço para melhorias.2
Enquanto isso, o desempenho do Gemini 1.5 Flash e do Gemini 1.5 Pro é comparável ou até mesmo supera o do Gemini 1.0 Ultra.11 À medida que a janela de contexto aumenta, o Gemini 1.5 Pro mantém um alto nível de desempenho.4
O Google Gemini ainda está em seus estágios iniciais, mas esse modelo de IA altamente capaz tem potencial para ser implementado em uma ampla variedade de aplicações:
Programação avançada
Compreensão de imagem e texto
Tradução de idiomas
Análise de malware
Especialistas em IA personalizada
Agentes de IA universais
Assistentes de voz
O modelo de IA Gemini pode funcionar em linguagens de programação como C++, Java e Python para entender, explicar e gerar código. O Google usou versões ajustadas do Gemini Pro como modelos de base para desenvolver o AlphaCode2, um sistema de geração de código capaz de resolver problemas de programação competitiva com elementos de ciência da computação teórica e matemática complexa.
O Gemini pode ser usado para extrair texto de imagens e imagens de legenda. Ele pode analisar recursos visuais como gráficos, diagramas e figuras sem o auxílio de ferramentas de reconhecimento óptico de caracteres (OCR), que convertem imagens de texto em um formato legível por máquina.
Devido aos seus recursos multilíngues, os modelos de IA do Google podem ser usados para traduzir diferentes idiomas. No aplicativo de videoconferência Meet, por exemplo, os usuários podem ativar as legendas traduzidas para traduzir de e para idiomas específicos.
Tanto o Gemini 1.5 Pro quanto o Gemini 1.5 Flash podem ser usados para análise de malware. O Gemini Pro pode determinar com precisão se um arquivo ou trecho de código é malicioso e pode gerar um relatório detalhado de suas descobertas.12 Enquanto isso, o Gemini Flash pode realizar uma dissecação de malware rápida e em grande escala.13
Google lançou recentemente uma nova funcionalidade chamada Gems, que permite aos usuários personalizar o chatbot Gemini para criar especialistas em IA personalizados em qualquer tarefa ou tópico. Alguns exemplos de Gems pré-fabricadas incluem um treinador de aprendizagem para ajudar a simplificar tópicos complexos e torná-los mais fáceis de entender, um parceiro de brainstorming para oferecer ideias novas para o próximo vídeo e um editor de redação para fornecer feedback sobre gramática e estrutura.
As Gems vêm com uma assinatura Gemini Advanced, que usa o modelo Gemini 1.5 Pro.
Por meio do Projeto Astra, o Google está desenvolvendo seus modelos Gemini para criar um agente de IA universal, que possa processar, lembrar e entender informações multimodais em tempo real. Para melhorar a recuperação e a eficiência, o Projeto Astra utiliza o cache e a codificação contínua de quadros de vídeo e acopla a entrada de fala e vídeo em uma linha do tempo de eventos.14
Em uma das demonstrações do Google, o assistente de IA do Gemini conseguiu explicar as partes de um alto-falante, reconhecer o bairro em que uma pessoa estava e lembrar onde ela colocou seus óculos.14
Com o Gemini Live, os usuários podem conversar com o chatbot Gemini de um jeito mais natural e coloquial. Ele oferece respostas mais intuitivas e pode se adaptar ao estilo de conversa de uma pessoa.
Assim como outros LLMs, o Google Gemini continua lidando com os riscos da IA. Recomenda-se cautela, especialmente para pessoas que pretendem usar o Gemini e organizações que consideram o modelo para uso comercial ou integração em seus fluxos de trabalho.
Viés: em fevereiro de 2024, o Google decidiu pausar a capacidade do chatbot Gemini de criar imagens de pessoas devido à sua representação imprecisa de figuras históricas, apagando um histórico de viés racial.15
Alucinações: no momento em que este artigo foi escrito, os resultados da pesquisa de visão geral de IA respaldados pelo Gemini ainda estavam produzindo ocasionalmente produções factualmente incorretas.
Violações de propriedade intelectual: o Google foi multado pelos reguladores na França, observando que o chatbot IA da empresa foi treinado em notícias e conteúdo sem o conhecimento ou consentimento dos editores no país.16
Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.
Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.
1 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 de agosto de 2017.
2 Gemini: A Family of Highly Capable Multimodal Models, Google DeepMind, acessado em 16 de setembro de 2024.
3 Gemini Models, Google DeepMind, acessado em 16 de setembro de 2024.
4 Our next-generation model: Gemini 1.5, Google, 15 de fevereiro de 2024.
5 Towards a Conversational Agent that Can Chat About…Anything, Google Research, 28 de janeiro de 2020.
6 LaMDA: our breakthrough conversation technology, Google, 18 de maio de 2021.
7 Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google Research, 4 de abril de 2022.
8 Try Bard and share your feedback, Google, 21 de março de 2023.
9 Introducing PaLM 2, Google, 10 de maio de 2023.
10 How Google’s AI model Gemini got its name, Google, 15 de maio de 2024.
11 Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context, Google DeepMind, acessado em 16 de setembro de 2024.
12 From Assistant to Analyst: The Power of Gemini 1.5 Pro for Malware Analysis, Google Cloud, 30 de abril de 2024.
13 Scaling Up Malware Analysis with Gemini 1.5 Flash, Google Cloud, 16 de julho de 2024.
14 Project Astra, Google DeepMind, acessado em 16 de setembro de 2024.
15 Google chief admits ‘biased’ AI tool’s photo diversity offended users, The Guardian, 28 de fevereiro de 2024.
16 Google fined €250m in France for breaching intellectual property deal, The Guardian, 20 de março de 2024.