Ao revelar o GPT-4o, a OpenAI divulgou os resultados do teste comparativo do LLM comparando seu novo modelo com o da concorrência. GPT-4 Turbo, GPT-4 na versão lançada inicialmente, Claude 3 Opus da Anthropic, Llama 3 400B da Meta e Gemini 1.5 Pro e Gemini 1.0 Ultra do Google foram testados com o GPT-4o em diversos testes comparativos líderes do setor.

Os testes incluíram o Massive Multitask Language Understanding (MMLU), que avalia habilidades de base de conhecimento e resolução de problemas, e o HumanEval, um teste de verificação de código. A OpenAI não testou o GPT-4o contra os modelos do Google no Graduate-Level Google-Proof Q&A (GPQA), exame científico que exige raciocínio abrangente. O Llama 3 400B também não foi incluído no Multilingual Grade School Math (MGSM), exame de matemática aplicado em 10 idiomas.

O GPT-4o ficou em primeiro lugar em quatro dos seis testes, ficando em segundo lugar atrás do Claude 3 Opus no MGSM e do GPT-4 Turbo no Discrete Reasoning Over Paragraphs (DROP), que testa a capacidade de um modelo raciocinar em vários parágrafos.

No geral, o GPT-4o não demonstrou um aumento significativo no desempenho em relação ao GPT-4 Turbo. Seus avanços comparativos estão principalmente nos recursos multimodais e a maior velocidade.