GPT-4o ist ein multimodales und mehrsprachiges generatives vortrainiertes Transformer-Modell, das im Mai 2024 vom KI-Entwickler OpenAI veröffentlicht wurde. Es ist das Flaggschiff unter den großen Sprachmodellen (LLMs) in der GPT-4-Familie von KI-Modellen, zu der auch GPT-4o mini, GPT-4 Turbo und das ursprüngliche GPT-4 gehören.
Das „o“ in GPT-4o steht für „omni“ und unterstreicht, dass GPT-4o ein multimodales KI-Modell mit Ton- und Bildfunktionen ist. Das bedeutet, dass es Prompt-Datensätze als eine Mischung aus Text-, Audio-, Bild- und Videoeingabe akzeptieren kann. GPT-4o ist auch in der Lage, Bilder zu generieren. GPT-4o bringt Multimedia-Eingabe- und -Ausgabefunktionen auf die gleiche transformatorbetriebene GPT-4-Intelligenz, die auch die anderen Modelle seiner Reihe antreibt.
Das neue Modell von ChatGPT, das im Mai 2024 im Rahmen der Frühjahrsupdates von OpenAI vorgestellt wurde, schien gesprochene Sprache in Echtzeit zu übersetzen, Audioantworten an emotionale Inhalte anzupassen und lebensechte Gespräche zu führen.
Sowohl GPT-4o als auch GPT-4o mini unterstützen Feinabstimmung, sodass Entwickler diese Modelle auf bestimmte Anwendungsfälle anwenden können.
GPT-4o mini ist ein kleineres, kostengünstiges GPT-4o-Modell und das schnellste generative KI-Modell in der OpenAI-Produktfamilie. Im Gegensatz zu großen Sprachmodellen (LLMs) mit Dutzenden oder Hunderten von Milliarden von Parametern ist GPT-4o mini ein kleines und schlankes Modell. Trotz seiner kompakten Größe übertrifft es GPT-3.5 Turbo mit ähnlicher Geschwindigkeit und etwa 60 % der Kosten.
Wie sein größerer Bruder verfügt GPT-4o minimiert über multimodale Fähigkeiten, unterstützt andere Sprachen als Englisch und kann typische KI-Aufgaben wie logisches Denken, Mathematik und Codierung bewältigen. Bei der Veröffentlichung kann GPT-4o minimiert Text- und Bild-Eingabe verarbeiten. OpenAI behauptet, dass die Unterstützung für Audio- und Videoinhalte noch aussteht.
Entwickler können über Programmierschnittstellen (APIs) auf GPT-4o mini zugreifen. Die Kosten betragen 0,15 USD pro Million Eingabe-Token und 0,60 USD pro Million Ausgabe-Token.
GPT-4o ist ein umfassendes Flaggschiffmodell, das multimodale Ein- und Ausgaben eigenständig als einzelnes neuronales Netz verarbeiten kann. Bei früheren Modellen wie GPT-4 Turbo und GPT-3.5 benötigten die Benutzer OpenAI-APIs und andere unterstützende Modelle, um verschiedene Inhaltstypen einzugeben und zu generieren. Während GPT-4 Turbo Bildaufforderungen verarbeiten kann, ist es nicht in der Lage, Audio ohne API-Unterstützung zu verarbeiten.
Der multimodale Charakter von GPT-4o ist der größte Durchbruch im Vergleich zu GPT-4 Turbo und untermauert viele seiner Weiterentwicklungen:
Audiogespräche in Echtzeit
Tonfall-Funktionen
Integrierte Videoverarbeitung
Bildgenerierung
Token-Effizienzsteigerung
Die höhere Geschwindigkeit und die multimodalen Funktionen von GPT-4o ermöglichen es, sich im Gesprächsstil zu unterhalten und Sprachen in einem menschlicheren Tempo zu übersetzen als GPT-4 Turbo. In einer Videodemo im Rahmen der Ankündigung der Veröffentlichung1 wurde ChatGPT-4o beim Übersetzen in Echtzeit zwischen Englisch- und Spanischsprechern gezeigt. GPT-4o bietet Chatbot-Sprachunterstützung in über 50 Sprachen.
Weil es Audioeingaben selbst verarbeiten kann, hat GPT-4o eine geringere Latenz – die Zeit von der Eingabe bis zur Ausgabe – als frühere Modelle. Es reagiert in 320 Millisekunden auf Audioeingaben, vergleichbar mit der typischen menschlichen Reaktionszeit von 210 Millisekunden.
Frühere Iterationen von GPT-4 erforderten mehrere Modelle, die in einer Pipeline zusammengefügt wurden, um einen ähnlichen Service bereitzustellen, was die Latenz auf 5,4 Sekunden erhöhte. Vor GPT-4o wandelte die Whisper-API von OpenAI Audio-Prompts in Text um und speiste sie in GPT-4 Turbo ein. Anschließend wandelten Text-to-Speech-Dienste (TTS) die Antworten von GPT wieder in Audio um.
GPT-4 Turbo war im Allgemeinen auch ein langsameres Modell. In den Benchmarktests der KI-Bewertungs-Unternehmen Artificial Analysis2 zeigte GPT-4o eine Geschwindigkeit von 110 Token pro Sekunde, ungefähr dreimal schneller als GPT-4 Turbo. Im selben Test übertraf GPT-4o auch viele Konkurrenten, darunter Claude 3 Opus und Gemini 1.5 Pro.
Mit der vorherigen Whisper-GPT-TTS-Pipeline erhielt GPT-4 Turbo bei der Verarbeitung von Eingaben nur eine Texttranskription des Gesagten. Die Transkription isoliert den vom Benutzer gesprochenen Inhalt, während Hintergrundgeräusche, Sprecheridentitäten und Tonfall herausgefiltert werden, wodurch GPT wesentliche Kontextdaten vorenthalten werden.
Als multimodales Modell kann GPT-4o den gesamten Audio-Input verarbeiten und angemessen auf diesen zusätzlichen Kontext reagieren. Durch die verbesserte Verarbeitung natürlicher Sprache (NLP) ist es möglich, bei Verwendung im Sprachmodus Stimmungen, Tonfälle und emotionale Inhalte in die Ausgabegenerierung einzubeziehen.
GPT-4o verarbeitet neben Text und Audio auch Bild- und Videoeingaben. GPT-4o kann sich mit einem Live-Kamera-Feed verbinden oder den Bildschirm eines Benutzers aufzeichnen und dann beschreiben, was es sieht, sowie Fragen beantworten. Die Benutzer können die Kamera ihres Smartphones einschalten und mit ChatGPT-4o genauso sprechen, wie sie es mit einem Freund oder Kollegen tun würden.
Zuvor konnte GPT-4 Turbo mit der GPT-4 Vision-API visuelle Inhalte analysieren.
Laut der Pressemitteilung von OpenAI bietet GPT-4o eigenständige Fähigkeiten zur Bilderzeugung. GPT-4 Turbo war nur in der Lage, Bilder zu erzeugen, indem es sich mit dem DALL-E 3-Modell von OpenAI verband. GPT-4 Turbo lieferte ein textbasiertes Prompt eines Benutzers, woraufhin DALL-E das Bild erstellte.
OpenAI hat die Tokenisierungsfähigkeiten von GPT-4 mit GPT-4o verbessert. Tokenisierung ist der Prozess, mit dem LLMs Wörter in Daten umwandeln. Jedes Token steht entweder für ein ganzes Wort oder einen Teil eines Wortes und für die Interpunktion. KI-Modelle wandeln Wörter in Token um und wenden dann komplexe Mathematik an, um diese Daten zu analysieren.
GPT-4o konvertiert Sprachen, die nicht das lateinische Schriftsystem verwenden – wie Chinesisch, Hindi und Arabisch – viel effizienter in Token als seine Vorgänger. Da OpenAI API-Benutzern Gebühren pro Eingabe- oder Ausgabetoken berechnet, ist GPT-4o aufgrund seiner verbesserten Effizienz bei nicht-lateinischen Schriften für Anwendungsfälle in diesen Sprachen kostengünstiger.
Zusätzlich zu seinen neuen multimodalen Funktionen bietet GPT-4o viele der gleichen Funktionen wie frühere Iterationen:
Beantworten von Fragen
Dokumentanalyse und -zusammenfassung
Stimmungsanalyse
Datenanalyse
Codierung
Mit einem Wissensschluss von Oktober 2023 ist GPT-4o das aktuellste Modell von OpenAI in Bezug auf seine Wissensbasis. Ein Wissens-Cutoff ist der Zeitpunkt, zu dem die Trainingsdaten eines Modells abgeschlossen sind. Benutzer können GPT-4o-Fragen stellen und Antworten erhalten, allerdings mit dem Risiko von Halluzinationen.
Benutzer können Dateien hochladen und sie von ChatGPT analysieren und zusammenfassen lassen. Das Kontextfenster von GPT-4o mit 128.000 Token ermöglicht die Verarbeitung großer Eingaben-Datensätze, auch wenn es nicht ganz so groß ist wie das von Claude 3.
Das Kontextfenster eines LLM stellt die maximale Anzahl von Token dar, die es verarbeiten kann, während es das Kontextbewusstsein über die gesamte Eingabesequenz beibehält. Ein größeres Kontextfenster ermöglicht es KI-Modellen, komplexere Prompts zu verarbeiten und bei der Generierung von Antworten mehr Informationen von Benutzern einzubeziehen.
GPT-4 hat bereits in der Praxis bewiesen, dass es in der Lage ist, Dokumente über die optische Zeichenerkennung (OCR) mithilfe der GPT-4 Vision API zu lesen.
Bei der Stimmungsanalyse geht es darum, aus den Aussagen oder dem Verhalten einer Person zu erkennen, wie sie sich fühlt. Forscher verwenden KI-Modelle, um Stimmungsanalysen in großem Maßstab durchzuführen – zum Beispiel bei der Analyse von Bewertungen. Als multimodales Modell kann GPT-4o die Stimmung von Audioeingaben erkennen.
GPT-4o kann komplexe Datensätze verarbeiten und verwertbare Erkenntnisse gewinnen, wie bei Self-Service-Analyseplattformen. Es können Daten auch als Diagramme und Grafiken dargestellt werden.
GPT-4o ist nicht das erste LLM, das über Programmierfähigkeiten verfügt, aber sein multimodaler Charakter kann Workflows für Programmierer vereinfachen. Anstatt Code zu kopieren und in die Benutzeroberfläche einzufügen, können Benutzer ihre Bildschirme teilen und GPT-4o erlauben, ihren Code zu analysieren, Feedback zu geben und Code-Snippets zu generieren.
Anlässlich der Vorstellung von GPT-4o veröffentlichte OpenAI die Ergebnisse eines LLM-Benchmarking-Tests, bei dem das neue Modell mit der Konkurrenz verglichen wurde. GPT-4 Turbo, GPT-4 wie ursprünglich veröffentlicht, Claude 3 Opus von Anthropic, Llama 3 400B von Meta und Gemini 1.5 Pro und Gemini 1.0 Ultra von Google wurden zusammen mit GPT-4o in mehreren führenden Benchmarking-Tests getestet.
Zu den Tests gehörten Massive Multitask Language Understanding (MMLU), das die Wissensbasis und die Problemlösungsfähigkeiten bewertet, und HumanEval, ein Code-Überprüfungstest. OpenAI hat GPT-4o nicht in Graduate-Level Google-Proof Q&A (GPQA), einer wissenschaftlichen Prüfung, die umfangreiches logisches Denken erfordert, gegen Googles Modelle getestet. Auch wurde Llama 3 400B nicht in Multilingual Grade School Math (MGSM), einen Mathematik-Test in 10 Sprachen, einbezogen.
GPT-4o belegte in vier von sechs Tests den ersten Platz, in MGSM hinter Claude 3 Opus sowie in Discrete Reasoning Over Paragraphs (DROP) hinter GPT-4 Turbo jeweils den zweiten Platz. Letzterer testet die Fähigkeit eines Modells, über mehrere Absätze hinweg zu argumentieren.
Insgesamt zeigte GPT-4o keine signifikante Leistung gegenüber GPT-4 Turbo. Die vergleichbaren Fortschritte liegen vor allem in seinen multimodalen Funktionen und seiner höheren Geschwindigkeit.
OpenAI stellt GPT-4o sowohl für Nutzer des kostenlosen als auch des Premium-Tarifs an verschiedenen Orten und in diversen Produkten zur Verfügung:
ChatGPT Plus, Team und Enterprise
ChatGPT Free
Desktop- und mobile App
KI-Anwendungen
Microsoft Azure OpenAI Studio
Abonnenten der Premium ChatGPT-Services von OpenAI haben in unterschiedlichem Umfang Zugriff auf GPT-4o. ChatGPT Plus-Benutzer können auf GPT-4o alle 3 Stunden bis zu 80 Nachrichten senden, Team-Benutzer erhalten mehr Zugriff. Enterprise-Benutzer haben uneingeschränkten Zugriff auf GPT-4o.
Nutzer der kostenlosen ChatGPT-Stufe können mit GPT-4o als Standardmodell hinter dem Chatbot interagieren, solange die Nachfrage es zulässt. Wenn ein kostenloser Benutzer sein Limit erreicht, wird er auf GPT-4o mini zurückgesetzt.3
OpenAI hat zusammen mit GPT-4o eine macOS-Desktop-App veröffentlicht, die das neue Modell in das MacBook eines Benutzers integriert. Die mobilen ChatGPT-Apps von OpenAI gewähren je nach Abonnementstufe des Benutzers ebenfalls den Zugriff auf GPT-4o.
Nutzer von ChatGPT Plus, Teams und Enterprise können benutzerdefinierte GPTs erstellen, über die sie und andere Personen spezielle Versionen von GPT-4o nutzen können, die auf bestimmte Anwendungsfälle zugeschnitten sind. Entwickler können sich auch über APIs mit GPT-4o verbinden, um andere KI-Tools zu erstellen.
GPT-4o und GPT-4o mini sind beide in Microsofts Azure OpenAI Studio verfügbar, Teil der Azure Enterprise KI-Plattform von Microsoft. Zum Zeitpunkt der Veröffentlichung fahren Copilot mit GPT-4 Turbo fort, obwohl Microsoft im Mai 2024 angekündigt hat 4, dass sein KI-Service bald GPT-4o-Unterstützung erhalten würde.
Um den potenziellen Einsatz bei Vishing-Betrug, Deepfakes und anderen Arten von Audio-Betrug einzudämmen, hat OpenAI GPT-4o bei der Markteinführung auf vier voreingestellte Stimmen beschränkt. Aber wie jede genAI-Version ist auch GPT-4o ein unvollkommenes Modell. Zu den Risiken seiner Verwendung gehören:
OpenAI hat GPT-4o auf seiner internen Skala als Modell mit mittlerem Risiko eingestuft. Modelle werden anhand von vier Metriken bewertet – Cybersicherheit, CBRN (chemische, biologische, radiologische und nukleare Bedrohungen), Überzeugungskraft und Modellautonomie. OpenAI bewertet die Modelle danach, inwieweit sie dazu beitragen können, Entwicklungen in den einzelnen Bedrohungsbereichen voranzutreiben.
Nach der Beurteilung erhalten die Modelle in jedem Bereich eine Bewertung von Niedrig bis Kritisch und erhalten dann eine Gesamtbewertung, die ihrer höchsten Bedrohungseinstufung entspricht, nachdem alle Maßnahmen zur Risikominderung berücksichtigt wurden.
GPT-4o erhielt in drei von vier categories die Bewertung Niedrig und in der Kategorie „Überzeugung“ eine mittlere Bewertung. Dies bedeutet, dass es „(potenziell interaktive) Inhalte mit einer vergleichbaren Überzeugungskraft erstellen kann wie typische, von Menschen geschriebene Inhalte“.5 Theoretisch könnten böswillige Akteure die Software beispielsweise dazu nutzen, Desinformationsartikel und Social-Media-Inhalte zu erstellen.
1. Hello GPT-4o, OpenAI, 13. Mai 2024
2. GPT-4o: Quality, Performance & Price Analysis, Artificial Analysis, 2024
3. Using ChatGPT's Free Tier - FAQ, OpenAI, 2024
4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o, CNET, 24. Mai 2024
5. Preparedness Framework (Beta), OpenAI, 18. Dezember 2023