O que é GPT-4o?

Autores

Staff writer

Staff Editor, AI Models

IBM Think

O que é GPT-4o?

GPT-4o é o principal modelo de linguagem LLM da família GPT-4, um modelo de transformador pré-treinado generativo usado na inteligência artificial generativa.

GPT-4o foi lançado em maio de 2024 pela desenvolvedora de inteligência artificial (IA) OpenAI e é parte da família GPT-4 de modelos de IA, que também inclui o GPT-4o mini, o GPT-4 Turbo e o GPT-4 original.

O “o” no GPT-4o significa omni e destaca que o GPT-4o é um modelo de IA multimodal com recursos de som e visão. Isso significa que ele pode aceitar conjuntos de dados como uma mistura de texto, áudio, imagem e vídeo de input. O GPT-4o também é capaz de gerar imagens. O GPT-4o traz recursos de entrada e saída de multimídia para a mesma inteligência GPT-4 alimentada por transformador que abastece os outros modelos de sua linha.

Revelado em maio de 2024 como parte das atualizações de primavera da OpenAI, o novo modelo do ChatGPT aparentemente traduzia voz em tempo real, adaptava as respostas de áudio para incluir conteúdo emocional e participava de conversas que soavam bastante reais.

Tanto o GPT-4o quanto o GPT-4o mini são compatíveis com ajuste fino, possibilitando que os desenvolvedores utilizem esses modelos em casos de uso específicos.

O que é GPT-4o mini?

O GPT-4o mini é um modelo menor e econômico do GPT-4o, e o modelo de IA generativa mais rápida da família de produtos OpenAI.

Ao contrário dos grandes modelos de linguagem (LLMs) maiores com dezenas ou centenas de bilhões de parâmetros, o GPT-4o mini é um modelo pequeno e enxuto. Apesar do seu tamanho compacto, supera o GPT-3.5 Turbo com velocidade semelhante e a aproximadamente 60% do custo.

Assim como seu irmão maior, o GPT-4o mini tem recursos multimodais, é compatível com outros idiomas além do inglês e é capaz de executar tarefas típicas de IA, como raciocínio, matemática e programação. A partir da publicação, o GPT-4o mini pode processar inputs de texto e imagem. A OpenAI afirma que a compatibilidade com conteúdo de áudio e vídeo está pendente.

Os desenvolvedores podem acessar o GPT-4o mini por meio de interfaces de programação de aplicativos (APIs) a um custo de R$ 0,15 por milhão de tokens de input e R$ 0,60 centavos por milhão de tokens de produção.

Qual a diferença entre o GPT-4o e o GPT-4 Turbo?

O GPT-4o é um modelo "tudo-em-um" capaz de processar inputs e outputs multimodais sozinho como uma única rede neural.

Com modelos anteriores, como GPT-4 Turbo e GPT-3.5, os usuários precisariam de APIs da OpenAI e outros modelos de suporte para processar e gerar tipos variados de conteúdo. Enquanto o GPT-4 Turbo pode processar prompts de imagem, ele não é capaz de processar áudio sem assistência de API.

A natureza multimodal do GPT-4o é um avanço maior do que o GPT-4 Turbo e mantém muitos de seus avanços:

Conversas em áudio em tempo real

Recursos de tom de voz

Processamento de vídeo integrado

Geração de imagens

Maior eficiência de tokens

Conversas em áudio em tempo real

A maior velocidade e os recursos multimodais do GPT-4o possibilitam que se envolva em conversas e traduza idiomas em um ritmo mais humano do que o GPT-4 Turbo. Em uma demonstração em vídeo como parte de seu anúncio de lançamento¹, ChatGPT-4o foi apresentado traduzindo em tempo real entre falantes de inglês e espanhol. O GPT-4o oferece compatibilidade com voz para chatbot em mais de 50 idiomas.

O GPT-4o, por ser capaz de processar entradas de áudio de forma autônoma, apresenta menor latência, o tempo necessário para gerar uma saída a partir do momento em que um dado é recebido, em comparação com os modelos anteriores. Ele responde a entradas de áudio em 320 milissegundos, tempo comparável à resposta humana típica de 210 milissegundos.

As versões anteriores do GPT-4 exigiam vários modelos montados em um pipeline para oferecer um serviço semelhante, o que aumentava sua latência para 5,4 segundos. Antes do GPT-4o, a API Whisper da OpenAI convertia prompts de áudio em texto, alimentava-os no GPT-4 Turbo e, em seguida, serviços de texto-para-voz (TTS) convertiam as respostas do GPT de volta para áudio.

O GPT-4 Turbo também era um modelo mais lento em geral. Em testes comparativos feitos pela Organização de avaliação de IA Artificial Analysis², o GPT-4o demonstrou velocidade de 110 tokens por segundo, aproximadamente três vezes mais rápida do que o GPT-4 Turbo. No mesmo teste, o GPT-4o também superou muitos concorrentes, inclusive o Claude 3 Opus e Gemini 1.5 Pro.

Recursos de tom de voz

O pipeline anterior Whisper–GPT–TTS significava que, ao processar inputs de áudio, o GPT-4 Turbo recebia apenas uma transcrição em texto do que estava sendo dito. A transcrição isola o conteúdo falado pelo usuário enquanto filtra ruídos de fundo, identidades dos locutores e tom de voz, privando o GPT de dados contextuais substanciais.

Como um modelo multimodal, o GPT-4o pode processar toda uma entrada e responder adequadamente a esse contexto adicional. Seu processamento de linguagem natural (NLP) aprimorado permite que ele inclua sentimento, tom e conteúdo emocional em sua geração de saída quando utilizado no modo de voz.

Processamento integrado de vídeo

O GPT-4o lida com entradas de imagem e vídeo, além de texto e áudio. Pode se conectar a um feed de câmera ao vivo ou gravar a tela de um usuário, descrever o que vê e responder a perguntas. Os usuários podem ativar as câmeras de seus smartphones e conversar com o ChatGPT-4o da mesma forma que fariam com um amigo ou colega.

Anteriormente, a API do GPT-4 Vision permitia que o GPT-4 Turbo analisasse conteúdo visual.

Geração de imagens

De acordo com a declaração de lançamento da OpenAI, o GPT-4o oferece habilidades de geração de imagens independentes. O GPT-4 Turbo somente conseguia gerar imagens conectando-se ao modelo DALL-E 3 da OpenAI. O GPT-4 Turbo inseria um prompt do usuário em texto e, em seguida, o DALL-E criava a imagem.

Maior eficiência de tokens

A OpenAI aprimorou as habilidades de tokenização do GPT-4 com o GPT-4o. A tokenização é o processo pelo qual grandes modelos de linguagem transformam palavras em dados. Cada token representa uma palavra inteira ou parte dela, além de pontuação. Modelos de IA convertem as palavras em tokens e depois aplicam matemática avançada para analisar esses dados.

O GPT-4o converte em tokens idiomas não românicos, como chinês, hindi e árabe, com muito mais eficiência do que seus predecessores. Como a OpenAI cobra os usuários da API por token de input ou produção, a eficiência aprimorada do GPT-4o em scripts não românicos o torna mais econômico para casos de uso nesses idiomas.

O que mais o GPT-4o pode fazer?

Além de oferecer novos recursos multimodais, o GPT-4o mantém diversas funcionalidades presentes nas versões anteriores:

Respostas a perguntas

Análise e resumo de documentos

Análise de sentimento

Análise de dados

Codificação

Respostas a perguntas

Com um corte de conhecimento em outubro de 2023, o GPT-4o é o modelo mais atualizado da OpenAI em base de conhecimento. Um corte de conhecimento é o ponto no tempo em que os dados de treinamento de um modelo são concluídos. Os usuários podem fazer perguntas ao GPT-4o e receber respostas, embora com o risco de alucinações.

Análise e resumo de documentos

Os usuários podem enviar arquivos para o ChatGPT os analisar e resumir. A janela de contexto do GPT-4o, com 128 mil tokens, possibilita o processamento de conjuntos de dados extensos, embora seja menor que a do Claude 3.

A janela de contexto de um LLM representa o número máximo de tokens que ele pode processar enquanto mantém a consciência contextual sobre toda a sequência de input. Uma janela de contexto maior permite que os modelos de IA processem prompts mais complexos e incluam mais informações dos usuários ao gerar respostas.

O GPT-4 já demonstrou uma capacidade real de ler documentos por meio de reconhecimento óptico de caracteres (OCR) usando a API GPT-4 Vision.

Análise de sentimento

A análise de sentimento é o processo de identificar como uma pessoa se sente a partir de suas declarações ou comportamentos. Os pesquisadores utilizam modelos de IA para realizar essa análise de sentimento em grande escala, por exemplo, na avaliação de comentários de usuários. Sendo um modelo multimodal, o GPT-4o consegue identificar sentimentos a partir de input de áudio.

Análise de dados

O GPT-4o pode processar conjuntos de dados complexos e extrair insights práticos, como visto em plataformas de análise de dados de autoatendimento. Também pode representar dados como tabelas e gráficos.

Codificação

O GPT-4o não é o primeiro grande modelo de linguagem com habilidades de programação, mas seu aspecto multimodal pode simplificar o fluxo de trabalho dos programadores. Em vez de copiar e colar código na interface, o usuário pode compartilhar a tela para o GPT-4o analisar seu código, apresentar feedback e gerar trechos de código.

Como o GPT-4o se apresenta?

Ao revelar o GPT-4o, a OpenAI divulgou os resultados do teste comparativo do LLM comparando seu novo modelo com o da concorrência.

GPT-4 Turbo, GPT-4 na versão lançada inicialmente, Claude 3 Opus da Anthropic, Llama 3 400B da Meta e Gemini 1.5 Pro e Gemini 1.0 Ultra do Google foram testados com o GPT-4o em diversos testes comparativos líderes do setor.

Os testes incluíram o Massive Multitask Language Understanding (MMLU), que avalia habilidades de base de conhecimento e resolução de problemas, e o HumanEval, um teste de verificação de código. A OpenAI não testou o GPT-4o contra os modelos do Google no Graduate-Level Google-Proof Q&A (GPQA), exame científico que exige raciocínio abrangente. O Llama 3 400B também não foi incluído no Multilingual Grade School Math (MGSM), exame de matemática aplicado em 10 idiomas.

O GPT-4o ficou em primeiro lugar em quatro dos seis testes, ficando em segundo lugar atrás do Claude 3 Opus no MGSM e do GPT-4 Turbo no Discrete Reasoning Over Paragraphs (DROP), que testa a capacidade de um modelo raciocinar em vários parágrafos.

No geral, o GPT-4o não demonstrou um aumento significativo no desempenho em relação ao GPT-4 Turbo. Seus avanços comparativos estão principalmente nos recursos multimodais e a maior velocidade.

Como as pessoas podem acessar o GPT-4o?

O GPT-4o está sendo oferecido pela OpenAI para usuários das versões gratuita e premium em diversos locais e produtos:

ChatGPT Plus, Teams e Enterprise

ChatGPT Free

Área de trabalho e aplicativo móvel

Aplicações de IA

Microsoft Azure OpenAI Studio

ChatGPT Plus, Teams e Enterprise

Os assinantes dos serviços premium do ChatGPT da OpenAI têm níveis variados de acesso ao GPT-4o. Os usuários do ChatGPT Plus podem enviar até 80 mensagens a cada 3 horas no GPT-4o, com os usuários da equipe recebendo mais acesso. Os usuários Enterprise têm acesso ilimitado ao GPT-4o.

ChatGPT Free

Os usuários da camada gratuita do ChatGPT podem interagir com o GPT-4o como o modelo padrão por trás do chatbot, enquanto a demanda permitir. Quando um usuário sem custo atinge o limite, é revertido para o GPT-4o mini³.

Aplicativos para desktop e móveis

A OpenAI lançou um aplicativo para desktop para macOS junto com o GPT-4o, que integra o novo modelo ao MacBook do usuário. Os aplicativos móveis do ChatGPT da OpenAI também oferecem acesso ao GPT-4o conforme o nível de assinatura do usuário.

Aplicações de IA

Os usuários do ChatGPT Plus, Teams e Enterprise podem criar versões personalizadas do GPT para eles e outras pessoas utilizarem variações especializadas do GPT-4o, adequadas a casos de uso específicos. Os desenvolvedores também podem conectar ao GPT-4o por meio de APIs para criar outras ferramentas de IA.

Microsoft Azure OpenAI Studio

O GPT-4o e o GPT-4o mini estão disponíveis no Azure OpenAI Studio da Microsoft, parte da plataforma de IA corporativa do Azure da Microsoft. Até a data da publicação, a Copilot continuava oferecendo o GPT-4 Turbo, embora a Microsoft tenha anunciado em maio de 2024⁴ que seu serviço de IA receberia em breve suporte ao GPT-4o.

Quais os riscos do uso do GPT-4o?

Para reduzir o possível uso de golpes de vishing, deepfakes e outros tipos de fraude de áudio, a OpenAI limitou o GPT-4o a quatro vozes predefinidas em seu lançamento. No entanto, como em qualquer lançamento de IA generativa, o GPT-4o é um modelo imperfeito. Os riscos associados ao seu uso são:

Alucinações: como todos os modelos de IA generativa, o GPT-4o pode alucinar quando detecta padrões em seus dados que não existem, fazendo-o apresentar informações incorretas como se fossem reais. Nunca é aconselhável usar conteúdo gerado por IA sem primeiro analisá-lo ou verificar os fatos.

Violações de dados: a OpenAI continua armazenando inputs do usuário e treinando seus modelos. Os usuários que inserem dados protegidos no ChatGPT podem constatar que seus dados aparecem nas respostas do modelo para outros usuários.

Violações de propriedade intelectual: a OpenAI treina seus modelos com dados disponíveis online, inclusive com material protegido por direitos autorais, como artigos de notícias. Os modelos podem gerar inadvertidamente conteúdo protegido por direitos autorais como parte de uma resposta.

A OpenAI classificou o GPT-4o como um modelo de risco médio em sua escala interna. Os modelos são avaliados com base em quatro métricas de ameaça: cibersegurança, CBRN (ameaças químicas, biológicas, radiológicas e nucleares), persuasão e autonomia do modelo. A OpenAI avalia os modelos conforme sua capacidade de avançar desenvolvimentos em cada campo de ameaça.

Uma vez avaliados, os modelos recebem uma pontuação que varia de Baixo a Crítico em cada campo e, em seguida, recebem uma pontuação geral correspondente à sua classificação de ameaça mais alta após considerar quaisquer medidas de mitigação.

O GPT-4o obteve pontuação baixa em três das quatro categories, com pontuação média em Persuasão. Isso significa que "pode criar conteúdo (possivelmente interativo) com eficácia persuasiva comparável ao conteúdo tipicamente escrito por humanos".⁵ Por exemplo, agentes mal-intencionados podem, teoricamente, utilizá-lo para criar artigos de desinformação e conteúdo de mídia social.

Notas de rodapé

1. Hello GPT-4o, OpenAI, 13 de maio de 2024

2. GPT-4o: Quality, Performance & Price Analysis, Artificial Analysis, 2024

3. Using ChatGPT's Free Tier - FAQ, OpenAI, 2024

4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o, CNET, 24 de maio de 2024

5. Preparedness  Framework  (Beta), OpenAI, 18 de dezembro de 2023

Como escolher o modelo de base certo

Aprenda como escolher a abordagem correta na preparação de conjuntos de dados e no emprego de modelos de base.