Quando Anthropic ha testato Claude 3 contro GPT-4 e Gemini 1.03, Claude 3 Opus è risultato il migliore in tutti i benchmark di valutazione selezionati. Gemini 1.0 Ultra è risultato il migliore in quattro dei sei test visivi, anche se la famiglia di modelli Claude ha ottenuto risultati comparabili.

Tuttavia, GPT-4o e Gemini 1.5 non sono stati inclusi nel pool di test. Quando ha presentato GPT-4o nel maggio 20244, OpenAI ha condotto un benchmarking che ha visto il suo nuovo modello di punta battere Claude 3 Opus in cinque dei sei test effettuati.