Was ist GPT-4o?

Blaue digitale Benutzeroberfläche mit der Hand eines Geschäftsmannes im Hintergrund

Autoren

Staff writer

Staff Editor, AI Models

IBM Think

Was ist GPT-4o?

GPT-4o ist ein multimodales und mehrsprachiges generatives vortrainiertes Transformer-Modell, das im Mai 2024 vom KI Entwickler OpenAI veröffentlicht wurde. Es ist das Flaggschiff unter den LLMs (Large Language Models) in der GPT-4-Familie von KI-Modellen, zu der auch GPT-4o mini, GPT-4 Turbo und das ursprüngliche GPT-4 gehören.

Das „o“ in GPT-4o steht für „omni“ und unterstreicht, dass GPT-4o ein multimodales KI-Modell mit Ton- und Bildfunktionen ist. Das bedeutet, dass es Prompt-Datensätze als eine Mischung aus Text-, Audio-, Bild- und Videoeingabe akzeptieren kann. GPT-4o ist auch in der Lage, Bilder zu generieren. GPT-4o bringt Multimedia-Eingabe- und -Ausgabefunktionen auf die gleiche transformatorbetriebene GPT-4-Intelligenz, die auch die anderen Modelle seiner Reihe antreibt.

Das neue Modell von ChatGPT, das im Mai 2024 im Rahmen der Frühjahrsupdates von OpenAI vorgestellt wurde, schien gesprochene Sprache in Echtzeit zu übersetzen, Audioantworten an emotionale Inhalte anzupassen und lebensechte Gespräche zu führen.

Sowohl GPT-4o als auch GPT-4o mini unterstützen Feinabstimmung, sodass Entwickler diese Modelle auf bestimmte Anwendungsfälle anwenden können.

Was ist GPT-4o mini?

GPT-4o mini ist ein kleineres, kostengünstiges GPT-4o-Modell und das schnellste generative KI-Modell in der OpenAI-Produktfamilie. Im Gegensatz zu Large Language Models (LLMs) mit Dutzenden oder Hunderten von Milliarden von Parametern ist GPT-4o mini ein kleines und schlankes Modell. Trotz seiner kompakten Größe übertrifft es GPT-3.5 Turbo mit ähnlicher Geschwindigkeit und etwa 60 % der Kosten.

Wie sein größerer Bruder verfügt GPT-4o minimiert über multimodale Fähigkeiten, unterstützt andere Sprachen als Englisch und kann typische KI-Aufgaben wie logisches Denken, Mathematik und Codierung bewältigen. Bei der Veröffentlichung kann GPT-4o minimiert Text- und Bild-Eingabe verarbeiten. OpenAI behauptet, dass die Unterstützung für Audio- und Videoinhalte noch aussteht.

Entwickler können über Programmierschnittstellen (APIs) auf GPT-4o mini zugreifen. Die Kosten betragen 0,15 USD pro Million Eingabe-Token und 0,60 USD pro Million Ausgabe-Token.

Wie unterscheidet sich GPT-4o von GPT-4 Turbo?

GPT-4o ist ein umfassendes Flaggschiffmodell, das multimodale Ein- und Ausgaben eigenständig als einzelnes neuronales Netz verarbeiten kann. Bei früheren Modellen wie GPT-4 Turbo und GPT-3.5 benötigten die Benutzer OpenAI-APIs und andere unterstützende Modelle, um verschiedene Inhaltstypen einzugeben und zu generieren. Während GPT-4 Turbo Bildaufforderungen verarbeiten kann, ist es nicht in der Lage, Audio ohne API-Unterstützung zu verarbeiten.

Der multimodale Charakter von GPT-4o ist der größte Durchbruch im Vergleich zu GPT-4 Turbo und untermauert viele seiner Weiterentwicklungen:

Audiogespräche in Echtzeit

Tonfall-Funktionen

Integrierte Videoverarbeitung

Bildgenerierung

Token-Effizienzsteigerung

Audiogespräche in Echtzeit

Die höhere Geschwindigkeit und die multimodalen Funktionen von GPT-4o ermöglichen es, sich im Gesprächsstil zu unterhalten und Sprachen in einem menschlicheren Tempo zu übersetzen als GPT-4 Turbo. In einer Videodemo im Rahmen der Ankündigung der Veröffentlichung¹ wurde ChatGPT-4o beim Übersetzen in Echtzeit zwischen Englisch- und Spanischsprechern gezeigt. GPT-4o bietet Chatbot-Sprachunterstützung in über 50 Sprachen.

Weil es Audioeingaben selbst verarbeiten kann, hat GPT-4o eine geringere Latenz – die Zeit von der Eingabe bis zur Ausgabe – als frühere Modelle. Es reagiert in 320 Millisekunden auf Audioeingaben, vergleichbar mit der typischen menschlichen Reaktionszeit von 210 Millisekunden.

Frühere Iterationen von GPT-4 erforderten mehrere Modelle, die in einer Pipeline zusammengefügt wurden, um einen ähnlichen Service bereitzustellen, was die Latenz auf 5,4 Sekunden erhöhte. Vor GPT-4o wandelte die Whisper-API von OpenAI Audio-Prompts in Text um und speiste sie in GPT-4 Turbo ein. Anschließend wandelten Text-to-Speech-Dienste (TTS) die Antworten von GPT wieder in Audio um.

GPT-4 Turbo war im Allgemeinen auch ein langsameres Modell. In den Benchmarktests der KI-Bewertungs-Unternehmen Artificial Analysis² zeigte GPT-4o eine Geschwindigkeit von 110 Token pro Sekunde, ungefähr dreimal schneller als GPT-4 Turbo. Im selben Test übertraf GPT-4o auch viele Konkurrenten, darunter Claude 3 Opus und Gemini 1.5 Pro.

Tonfall-Funktionen

Mit der vorherigen Whisper-GPT-TTS-Pipeline erhielt GPT-4 Turbo bei der Verarbeitung von Eingaben nur eine Texttranskription des Gesagten. Die Transkription isoliert den vom Benutzer gesprochenen Inhalt, während Hintergrundgeräusche, Sprecheridentitäten und Tonfall herausgefiltert werden, wodurch GPT wesentliche Kontextdaten vorenthalten werden.

Als multimodales Modell kann GPT-4o den gesamten Audio-Input verarbeiten und angemessen auf diesen zusätzlichen Kontext reagieren. Durch die verbesserte Verarbeitung natürlicher Sprache (NLP) ist es möglich, bei Verwendung im Sprachmodus Stimmungen, Tonfälle und emotionale Inhalte in die Ausgabegenerierung einzubeziehen.

Integrierte Videoverarbeitung

GPT-4o verarbeitet neben Text und Audio auch Bild- und Videoeingaben. GPT-4o kann sich mit einem Live-Kamera-Feed verbinden oder den Bildschirm eines Benutzers aufzeichnen und dann beschreiben, was es sieht, sowie Fragen beantworten. Die Benutzer können die Kamera ihres Smartphones einschalten und mit ChatGPT-4o genauso sprechen, wie sie es mit einem Freund oder Kollegen tun würden.

Zuvor konnte GPT-4 Turbo mit der GPT-4 Vision-API visuelle Inhalte analysieren.

Bildgenerierung

Laut der Pressemitteilung von OpenAI bietet GPT-4o eigenständige Fähigkeiten zur Bilderzeugung. GPT-4 Turbo war nur in der Lage, Bilder zu erzeugen, indem es sich mit dem DALL-E 3-Modell von OpenAI verband. GPT-4 Turbo lieferte ein textbasiertes Prompt eines Benutzers, woraufhin DALL-E das Bild erstellte.

Token-Effizienzsteigerung

OpenAI hat die Tokenisierungsfähigkeiten von GPT-4 mit GPT-4o verbessert. Tokenisierung ist der Prozess, mit dem LLMs Wörter in Daten umwandeln. Jedes Token steht entweder für ein ganzes Wort oder einen Teil eines Wortes und für die Interpunktion. KI-Modelle wandeln Wörter in Token um und wenden dann komplexe Mathematik an, um diese Daten zu analysieren.

GPT-4o konvertiert Sprachen, die nicht das lateinische Schriftsystem verwenden – wie Chinesisch, Hindi und Arabisch – viel effizienter in Token als seine Vorgänger. Da OpenAI API-Benutzern Gebühren pro Eingabe- oder Ausgabetoken berechnet, ist GPT-4o aufgrund seiner verbesserten Effizienz bei nicht-lateinischen Schriften für Anwendungsfälle in diesen Sprachen kostengünstiger.

Was bietet GPT-4o sonst noch?

Zusätzlich zu seinen neuen multimodalen Funktionen bietet GPT-4o viele der gleichen Funktionen wie frühere Iterationen:

Beantworten von Fragen

Dokumentanalyse und -zusammenfassung

Stimmungsanalyse

Datenanalyse

Codierung

Beantworten von Fragen

Mit einem Wissensschluss von Oktober 2023 ist GPT-4o das aktuellste Modell von OpenAI in Bezug auf seine Wissensbasis. Ein Wissens-Cutoff ist der Zeitpunkt, zu dem die Trainingsdaten eines Modells abgeschlossen sind. Benutzer können GPT-4o-Fragen stellen und Antworten erhalten, allerdings mit dem Risiko von Halluzinationen.

Dokumentanalyse und -zusammenfassung

Benutzer können Dateien hochladen und sie von ChatGPT analysieren und zusammenfassen lassen. Das Kontextfenster von GPT-4o mit 128.000 Token ermöglicht die Verarbeitung großer Eingaben-Datensätze, auch wenn es nicht ganz so groß ist wie das von Claude 3.

Das Kontextfenster eines LLM stellt die maximale Anzahl von Token dar, die es verarbeiten kann, während es das Kontextbewusstsein über die gesamte Eingabesequenz beibehält. Ein größeres Kontextfenster ermöglicht es KI-Modellen, komplexere Prompts zu verarbeiten und bei der Generierung von Antworten mehr Informationen von Benutzern einzubeziehen.

GPT-4 hat bereits in der Praxis bewiesen, dass es in der Lage ist, Dokumente über die optische Zeichenerkennung (OCR) mithilfe der GPT-4 Vision API zu lesen.

Stimmungsanalyse

Bei der Stimmungsanalyse geht es darum, aus den Aussagen oder dem Verhalten einer Person zu erkennen, wie sie sich fühlt. Forscher verwenden KI-Modelle, um Stimmungsanalysen in großem Maßstab durchzuführen – zum Beispiel bei der Analyse von Bewertungen. Als multimodales Modell kann GPT-4o die Stimmung von Audioeingaben erkennen.

Datenanalyse

GPT-4o kann komplexe Datensätze verarbeiten und verwertbare Erkenntnisse gewinnen, wie bei Self-Service-Analyseplattformen. Es können Daten auch als Diagramme und Grafiken dargestellt werden.

Codierung

GPT-4o ist nicht das erste LLM, das über Programmierfähigkeiten verfügt, aber sein multimodaler Charakter kann Workflows für Programmierer vereinfachen. Anstatt Code zu kopieren und in die Benutzeroberfläche einzufügen, können Benutzer ihre Bildschirme teilen und GPT-4o erlauben, ihren Code zu analysieren, Feedback zu geben und Code-Snippets zu generieren.

Wie ist die Leistung von GPT-4o?

Anlässlich der Vorstellung von GPT-4o veröffentlichte OpenAI die Ergebnisse eines LLM-Benchmarking-Tests, bei dem das neue Modell mit der Konkurrenz verglichen wurde. GPT-4 Turbo, GPT-4 wie ursprünglich veröffentlicht, Claude 3 Opus von Anthropic, Llama 3 400B von Meta und Gemini 1.5 Pro und Gemini 1.0 Ultra von Google wurden zusammen mit GPT-4o in mehreren führenden Benchmarking-Tests getestet.

Zu den Tests gehörten Massive Multitask Language Understanding (MMLU), das die Wissensbasis und die Problemlösungsfähigkeiten bewertet, und HumanEval, ein Code-Überprüfungstest. OpenAI hat GPT-4o nicht in Graduate-Level Google-Proof Q&A (GPQA), einer wissenschaftlichen Prüfung, die umfangreiches logisches Denken erfordert, gegen Googles Modelle getestet. Auch wurde Llama 3 400B nicht in Multilingual Grade School Math (MGSM), einen Mathematik-Test in 10 Sprachen, einbezogen.

GPT-4o belegte in vier von sechs Tests den ersten Platz, in MGSM hinter Claude 3 Opus sowie in Discrete Reasoning Over Paragraphs (DROP) hinter GPT-4 Turbo jeweils den zweiten Platz. Letzterer testet die Fähigkeit eines Modells, über mehrere Absätze hinweg zu argumentieren.

Insgesamt zeigte GPT-4o keine signifikante Leistung gegenüber GPT-4 Turbo. Die vergleichbaren Fortschritte liegen vor allem in seinen multimodalen Funktionen und seiner höheren Geschwindigkeit.

Wie können Menschen auf GPT-4o zugreifen?

OpenAI stellt GPT-4o sowohl für Nutzer des kostenlosen als auch des Premium-Tarifs an verschiedenen Orten und in diversen Produkten zur Verfügung:

ChatGPT Plus, Team und Enterprise

ChatGPT Free

Desktop- und mobile App

KI-Anwendungen

Microsoft Azure OpenAI Studio

ChatGPT Plus, Teams und Enterprise

Abonnenten der Premium ChatGPT-Services von OpenAI haben in unterschiedlichem Umfang Zugriff auf GPT-4o. ChatGPT Plus-Benutzer können auf GPT-4o alle 3 Stunden bis zu 80 Nachrichten senden, Team-Benutzer erhalten mehr Zugriff. Enterprise-Benutzer haben uneingeschränkten Zugriff auf GPT-4o.

ChatGPT Free

Nutzer der kostenlosen ChatGPT-Stufe können mit GPT-4o als Standardmodell hinter dem Chatbot interagieren, solange die Nachfrage es zulässt. Wenn ein kostenloser Benutzer sein Limit erreicht, wird er auf GPT-4o mini zurückgesetzt.³

Desktop- und mobile Apps

OpenAI hat zusammen mit GPT-4o eine macOS-Desktop-App veröffentlicht, die das neue Modell in das MacBook eines Benutzers integriert. Die mobilen ChatGPT-Apps von OpenAI gewähren je nach Abonnementstufe des Benutzers ebenfalls den Zugriff auf GPT-4o.

KI-Anwendungen

Nutzer von ChatGPT Plus, Teams und Enterprise können benutzerdefinierte GPTs erstellen, über die sie und andere Personen spezielle Versionen von GPT-4o nutzen können, die auf bestimmte Anwendungsfälle zugeschnitten sind. Entwickler können sich auch über APIs mit GPT-4o verbinden, um andere KI-Tools zu erstellen.

Microsoft Azure OpenAI Studio

GPT-4o und GPT-4o mini sind beide in Microsofts Azure OpenAI Studio verfügbar, Teil der Azure Enterprise KI-Plattform von Microsoft. Zum Zeitpunkt der Veröffentlichung fahren Copilot mit GPT-4 Turbo fort, obwohl Microsoft im Mai 2024 angekündigt hat ⁴, dass sein KI-Service bald GPT-4o-Unterstützung erhalten würde.

Was sind die Risiken bei der Verwendung von GPT-4o?

Um den potenziellen Einsatz bei Vishing-Betrug, Deepfakes und anderen Arten von Audio-Betrug einzudämmen, hat OpenAI GPT-4o bei der Markteinführung auf vier voreingestellte Stimmen beschränkt. Aber wie jede genAI-Version ist auch GPT-4o ein unvollkommenes Modell. Zu den Risiken seiner Verwendung gehören:

Halluzinationen: Wie alle generativen KI-Modelle kann auch GPT-4o halluzinieren – wenn es in seinen Daten Muster erkennt, die nicht existieren, so dass es falsche Informationen als Tatsachen darstellt. Es ist niemals ratsam, KI-generierte Inhalte zu verwenden, ohne sie vorher zu überprüfen.

Datenschutzverletzungen: OpenAI speichert weiterhin die Eingaben des Benutzers und trainiert seine Modelle mit diesen. Benutzer, die geschützte Daten in ChatGPT eingeben, finden ihre Daten möglicherweise in den Antworten des Modells an andere Benutzer.

Verstöße gegen geistiges Eigentum: OpenAI schult seine Modelle anhand online verfügbarer Daten, einschließlich urheberrechtlich geschütztem Material wie Nachrichtenartikeln. Modelle können im Rahmen einer Antwort versehentlich urheberrechtlich geschützten Inhalt generieren.

OpenAI hat GPT-4o auf seiner internen Skala als Modell mit mittlerem Risiko eingestuft. Modelle werden anhand von vier Metriken bewertet – Cybersicherheit, CBRN (chemische, biologische, radiologische und nukleare Bedrohungen), Überzeugungskraft und Modellautonomie. OpenAI bewertet die Modelle danach, inwieweit sie dazu beitragen können, Entwicklungen in den einzelnen Bedrohungsbereichen voranzutreiben.

Nach der Beurteilung erhalten die Modelle in jedem Bereich eine Bewertung von Niedrig bis Kritisch und erhalten dann eine Gesamtbewertung, die ihrer höchsten Bedrohungseinstufung entspricht, nachdem alle Maßnahmen zur Risikominderung berücksichtigt wurden.

GPT-4o erhielt in drei von vier categories die Bewertung Niedrig und in der Kategorie „Überzeugung“ eine mittlere Bewertung. Dies bedeutet, dass es „(potenziell interaktive) Inhalte mit einer vergleichbaren Überzeugungskraft erstellen kann wie typische, von Menschen geschriebene Inhalte“.⁵ Theoretisch könnten böswillige Akteure die Software beispielsweise dazu nutzen, Desinformationsartikel und Social-Media-Inhalte zu erstellen.

Fußnoten

1. Hello GPT-4o, OpenAI, 13. Mai 2024

2. GPT-4o: Quality, Performance & Price Analysis, Artificial Analysis, 2024

3. Using ChatGPT's Free Tier - FAQ, OpenAI, 2024

4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o, CNET, 24. Mai 2024

5. Preparedness  Framework  (Beta), OpenAI, 18. Dezember 2023

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Ressourcen

Enterprise 2030: Entwickelt für kontinuierliche Innovation.

Entdecken Sie unsere fünf Prognosen über die erfolgreichsten Unternehmen im Jahr 2030 und die Schritte, die Führungskräfte unternehmen können, um sich KI-Vorteile zu verschaffen.

IBM Granite erkunden

Entdecken Sie IBM Granite, eine Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und optimiert sind, um Ihre KI-Anwendungen zu skalieren. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Große Sprachmodelle erklärt

„Techsplainers“ von IBM schlüsselt die Grundlagen von LLMs auf, von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Episoden helfen Ihnen, die Grundlagen schnell zu erlernen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Entdecken Sie die Power von LLMs

Lesen Sie Artikel, Blogs und Tutorials von IBM Developer, um Ihr Wissen über LLMs zu vertiefen.

Der Leitfaden des CEOs zur Modelloptimierung

Erfahren Sie, wie Sie Teams durch den Einsatz neuester KI- Technologien und -Infrastrukturen zur kontinuierlichen Verbesserung der Modell-Leistung und Steigerung des Wettbewerbsvorsprungs motivieren können.

Ein differenzierter Ansatz für KI Foundation Models

Erkunden Sie den Wert von Foundation Models der Unternehmensklasse, die Vertrauen, Leistung und kosteneffiziente Vorteile in allen Branchen bieten.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI, maschinelles Lernen und Foundation Models zur Verbesserung der Leistung in Ihre Geschäftsabläufe integrieren können.

Verwandte Lösungen

IBM Bob

Beschleunigen Sie die Softwarebereitstellung mit Bob, Ihrem KI-Partner für sichere, absichtsorientierte Entwicklung.

IBM Bob erkunden

IBM watsonx Orchestrate

Mit IBM watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und -Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

Machen Sie den nächsten Schritt

Wo auch immer Sie sich im Entwicklungszyklus befinden, Bob hat die passende Lösung für Sie – mit absichtsorientierten, sicherheitsorientierten, agentenbasierten Reviews, die die Bereitstellung hochwertiger Software beschleunigen.