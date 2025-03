Die höhere Geschwindigkeit und die multimodalen Funktionen von GPT-4o ermöglichen es, sich im Gesprächsstil zu unterhalten und Sprachen in einem menschlicheren Tempo zu übersetzen als GPT-4 Turbo. In einer Videodemo im Rahmen der Ankündigung der Veröffentlichung1 wurde ChatGPT-4o beim Übersetzen in Echtzeit zwischen Englisch- und Spanischsprechern gezeigt. GPT-4o bietet Chatbot-Sprachunterstützung in über 50 Sprachen.

Weil es Audioeingaben selbst verarbeiten kann, hat GPT-4o eine geringere Latenz – die Zeit, die benötigt wird, um die Ausgabe vom Moment der Eingabe an zu erzeugen – als frühere Modelle. Es reagiert auf Audioeingaben in 320 Millisekunden, vergleichbar mit der typischen menschlichen Reaktionszeit von 210 Millisekunden.

Frühere Iterationen von GPT-4 erforderten mehrere Modelle, die in einer Pipeline zusammengefügt wurden, um einen ähnlichen Service bereitzustellen, was die Latenz auf 5,4 Sekunden erhöhte. Vor GPT-4o wandelte die Whisper-API von OpenAI Audio-Prompts in Text um und speiste sie in GPT-4 Turbo ein. Anschließend wandelten Text-to-Speech-Dienste (TTS) die Antworten von GPT wieder in Audio um.

GPT-4 Turbo war auch generell ein langsameres Modell. In Benchmark-Tests der KI-Bewertungsorganisation Artificial Analysis2 zeigte GPT-4o eine Geschwindigkeit von 110 Token pro Sekunde, was etwa dreimal schneller ist als GPT-4 Turbo. Im selben Test übertraf GPT-4o auch viele Konkurrenten, darunter Claude 3 Opus und Gemini 1.5 Pro.