GPT-4o est un modèle de transformeur génératif pré-entraîné multimodal et multilingue publié en mai 2024 par le développeur d’intelligence artificielle (IA) OpenAI. Il s’agit du grand modèle de langage (LLM) phare de la famille de modèles d’IA GPT-4, qui comprend également GPT-4o mini, GPT-4 Turbo et le modèle GPT-4 original.
Le « o » de GPT-4o signifie omni et indique que GPT-4o est un modèle d’IA multimodal doté de capacités audio et visuelles. En d’autres termes, il peut accepter des jeux de données de prompts mixtes : un mélange d’entrées texte, audio, image et vidéo. GPT-4o est également capable de générer des images. GPT-4o ajoute des capacités d’entrée et de sortie multimédias à l’intelligence GPT-4 de transformeur déjà utilisée dans les autres modèles de sa gamme.
Révélé en mai 2024 dans le cadre des nouveautés du printemps d’OpenAI, le nouveau modèle de ChatGPT peut traduire du langage parlé en temps réel, adapter ses réponses audio pour y inclure un contenu émotionnel et engager des conversations réalistes.
GPT-4o et GPT-4o mini peuvent tous deux être affinés, permettant aux développeurs d’appliquer ces modèles à des cas d’utilisation spécifiques.
GPT-4o mini est une version plus petite et plus économique du modèle GPT-4o, et le modèle d’IA générative le plus rapide de la famille de produits OpenAI. Contrairement aux plus grands modèles de langage (LLM) contenant des dizaines ou des centaines de milliards de paramètres, GPT-4o mini est un modèle petit et léger. Malgré sa taille compacte, il surpasse GPT-3.5 Turbo : il atteint une vitesse similaire pour un coût environ 60 % inférieur.
Comme son grand frère, GPT-4o mini possède des capacités multimodales, prend en charge des langues autres que l’anglais et peut gérer des tâches d’IA classiques telles que le raisonnement, les mathématiques et le codage. Au moment de la publication, GPT-4o mini peut traiter le texte et les images en entrée. D’après OpenAI, la prise en charge du contenu audio et vidéo va suivre.
Les développeurs peuvent accéder à GPT-4o mini via des interfaces de programmation des applications (API) pour un coût de 0,15 USD par million de jetons d’entrée et de 0,60 USD par million de jetons de sortie.
GPT-4o est un modèle phare « tout-en-un » capable de traiter des entrées et des sorties multimodales de manière autonome, dans un réseau neuronal unique. Avec les modèles précédents comme GPT-4 Turbo et GPT-3.5, les utilisateurs devaient utiliser des API OpenAI et d’autres modèles complémentaires pour entrer et générer des types de contenu variés. Bien que GPT-4 Turbo puisse traiter des prompts au format image, il n’est pas capable de traiter l’audio sans l’assistance d’une API.
La nature multimodale de GPT-4o constitue la plus grande percée par rapport à GPT-4 Turbo et c’est sur cette dernière que s’appuient bon nombre de ses avancées :
Conversations audio en temps réel
Capacités liées au ton de la voix
Traitement vidéo intégré
Génération d’images
Efficacité accrue des jetons
La rapidité accrue et les capacités multimodales de GPT-4o lui permettent de converser et de traduire des langues à un rythme plus semblable à celui des humains par rapport à GPT-4 Turbo. Dans une démo vidéo présentée pour l’annonce de sa sortie1, ChatGPT-4o a été montré en train de traduire une conversation en temps réel entre des interlocuteurs anglophones et hispanophones. GPT-4o intègre la prise en charge vocale pour les chatbots dans plus de 50 langues.
Comme il peut traiter les entrées audio par lui-même, la latence (temps nécessaire pour produire une sortie à partir du moment où une entrée est reçue) de GPT-4o est inférieure à celle des modèles précédents. Ce modèle répond à l’entrée audio en 320 millisecondes, un délai comparable au temps de réponse humain typique de 210 millisecondes.
Les précédentes itérations de GPT-4 nécessitaient l’assemblage de plusieurs modèles en un seul pipeline pour fournir un service similaire, portant sa latence à 5,4 secondes. Avant GPT-4o, l’API Whisper d’OpenAI convertissait les prompts audio en texte puis les transmettait à GPT-4 Turbo, et les services de Text to Speech (TTS) reconvertissaient les réponses de GPT en audio.
GPT-4 Turbo était également un modèle plus lent en général. Lors des tests de benchmarking réalisés par l’organisation d’évaluation de l’IA Artificial Analysis2, GPT-4o a atteint une vitesse de 110 jetons par seconde, environ trois fois supérieure à celle de GPT-4 Turbo. Dans le même test, GPT-4o a également surpassé de nombreux concurrents, notamment Claude 3 Opus et Gemini 1.5 Pro.
Avec le précédent pipeline Whisper–GPT–TTS, GPT-4 Turbo se basait sur une transcription textuelle de ce qui était dit pour traiter les entrées audio. La transcription isole le contenu prononcé par l’utilisateur tout en filtrant le bruit de fond, les identités des locuteurs et le ton de la voix, privant ainsi GPT d’une importante quantité de données contextuelles.
En tant que modèle multimodal, GPT-4o peut traiter l’intégralité d’une entrée audio et répondre de manière appropriée en fonction de ce contexte supplémentaire. Son traitement automatique du langage naturel (NLP) amélioré lui permet d’inclure le sentiment, le ton et le contenu émotionnel dans les sorties générées lorsqu’il est utilisé en mode vocal.
GPT-4o gère les entrées basées sur des images et des vidéos en plus du texte et de l’audio. GPT-4o peut se connecter au flux d’une caméra en direct ou enregistrer l’écran d’un utilisateur, puis décrire ce qu’il voit et répondre aux questions. Les utilisateurs peuvent allumer la caméra de leur smartphone et parler avec ChatGPT-4o comme ils le feraient avec un ami ou un collègue.
Auparavant, l’API GPT-4 Vision permettait à GPT-4 Turbo d’analyser le contenu visuel.
Selon le communiqué d’OpenAI, GPT-4o propose des fonctionnalités autonomes de génération d’images. GPT-4 Turbo ne pouvait générer des images qu’en se connectant au modèle DALL-E 3 d’OpenAI. GPT-4 Turbo envoyait un prompt, puis DALL-E créait l’image.
OpenAI a amélioré les capacités de tokenisation de GPT-4 avec GPT-4o. La tokenisation est le processus par lequel les LLM convertissent les mots en données. Chaque jeton représente un mot ou une partie de mot et la ponctuation. Les modèles d’IA convertissent les mots en jetons, puis appliquent des opérations mathématiques complexes pour analyser ces données.
GPT-4o convertit en jetons les langues non romanes comme le chinois, l’hindi et l’arabe beaucoup plus efficacement que ses prédécesseurs. Étant donné qu’OpenAI facture les utilisateurs de l’API par jeton d’entrée ou de sortie, l’efficacité améliorée de GPT-4o avec les scripts non latins le rend plus rentable pour les cas d’utilisation dans ces langues.
En plus de ses nouvelles capacités multimodales, GPT-4o apporte de nombreuses fonctions identiques à celles des itérations précédentes :
Réponse aux questions
Analyse et synthèse de documents
Analyse des sentiments
Analyse des données
Codage
Les connaissances de GPT-4o s’arrêtent en octobre 2023, ce qui en fait le modèle le plus récent d’OpenAI en termes de base de connaissances. L’arrêt des connaissances correspond à la date la plus récente des données d’apprentissage sur lesquelles les modèles ont été entraînés. Les utilisateurs peuvent poser des questions à GPT-4o et recevoir des réponses, avec un risque d’obtenir des hallucinations.
Les utilisateurs peuvent importer des fichiers et demander à ChatGPT de les analyser et de les synthétiser. La fenêtre de contexte de 128 000 jetons de GPT-4o lui permet de traiter de grands jeux de données d’entrée, mais elle n’est pas aussi longue que celle de Claude 3.
La fenêtre de contexte d’un LLM représente le nombre maximum de jetons qu’il peut gérer tout en maintenant la visibilité contextuelle sur toute la séquence d’entrée. Une fenêtre de contexte plus grande permet aux modèles d’IA d’accepter des prompts plus complexes et d’inclure plus d’informations utilisateur lors de la génération de réponses.
GPT-4 a déjà démontré sa capacité concrète à lire des documents via la reconnaissance optique de caractères (OCR) avec l’API GPT-4 Vision.
L’analyse des sentiments est le processus permettant de discerner ce qu’une personne ressent à partir de ses déclarations ou de ses comportements. Les chercheurs utilisent des modèles d’IA pour effectuer une analyse des sentiments à grande échelle, par exemple lors de l’analyse des avis des utilisateurs. En tant que modèle multimodal, GPT-4o peut identifier les sentiments à partir d’entrées audio.
GPT-4o peut traiter des jeux de données complexes et dégager des informations exploitables, comme on le voit avec les plateformes d’analyse en libre-service. Il peut également représenter les données sous forme de graphiques et de diagrammes.
GPT-4o n’est pas le premier LLM à disposer de capacités de codage, mais sa nature multimodale peut simplifier les workflows des programmeurs. Plutôt que de copier et coller du code dans l’interface, les utilisateurs peuvent partager leur écran et laisser GPT-4o analyser leur code, faire des commentaires et générer des extraits de code.
Lors de la présentation de GPT-4o, OpenAI a publié les résultats des tests de benchmarking des LLM comparant son nouveau modèle à celui de ses concurrents. GPT-4 Turbo, GPT-4 à son état initial, Claude 3 Opus d’Anthropic, Llama 3 400B de Meta et Google Gemini 1.5 Pro et Gemini 1.0 Ultra ont été évalués aux côtés de GPT-4o dans plusieurs benchmarks de premier plan.
Parmi les tests effectués, citons le Massive Multitask Language Understanding (MMLU), qui évalue la base de connaissances et les compétences des modèles en matière de résolution de problèmes, et HumanEval, un test de vérification de code. OpenAI n’a pas comparé les performances de GPT-4o à celles des modèles de Google au test Graduate-Level Google-Proof Q&A (GPQA), un examen de science nécessitant un raisonnement approfondi. De même, Llama 3 400B n’a pas été inclus dans le test Multilingual Grade School Math (MGSM), un examen de mathématiques donné en 10 langues.
GPT-4o a pris la première place dans quatre tests sur six, juste derrière Claude 3 Opus au test MGSM et GPT-4 Turbo au test Discrete Reasoning Over Paragraphs (DROP), qui évalue la capacité d’un modèle à raisonner sur plusieurs paragraphes.
Dans l’ensemble, GPT-4o n’a pas démontré de gains de performances significatifs par rapport à GPT-4 Turbo. Comparativement, ses avancées résident principalement dans ses capacités multimodales et sa vitesse accrue.
OpenAI met GPT-4o à la disposition des utilisateurs gratuits et premium à différents emplacements et dans plusieurs produits :
ChatGPT Plus, Team et Enterprise
ChatGPT gratuit
Applications de bureau et applications mobiles
Applications d’IA
Microsoft Azure OpenAI Studio
Les abonnés aux services premium ChatGPT d’OpenAI ont différents niveaux d’accès à GPT-4o. Les utilisateurs Plus peuvent envoyer jusqu’à 80 messages toutes les 3 heures sur GPT-4o, et les utilisateurs Team bénéficient d’un accès étendu au modèle. Les utilisateurs Enterprise ont quant à eux un accès illimité à GPT-4o.
Les utilisateurs du niveau ChatGPT gratuit peuvent interagir avec GPT-4o, le modèle par défaut derrière le chatbot, tant que la demande le permet. Lorsqu’un utilisateur gratuit atteint la limite autorisée, il est redirigé vers GPT-4o mini3.
Parallèlement à GPT-4o, OpenAI a publié une application de bureau macOS qui intègre le nouveau modèle au MacBook de l’utilisateur. Les applications mobiles ChatGPT d’OpenAI permettent également d’accéder à GPT-4o en fonction du niveau d’abonnement de l’utilisateur.
Les utilisateurs de ChatGPT Plus, Team et Enterprise peuvent créer des modèles GPT personnalisés leur permettant, ainsi qu’à d’autres utilisateurs, d’utiliser des versions de GPT-4o adaptées à des cas d’utilisation spécifiques. Les développeurs peuvent également se connecter à GPT-4o via des API pour créer d’autres outils d’IA.
GPT-4o et GPT-4o mini sont disponibles dans Microsoft Azure OpenAI Studio, qui fait partie de la plateforme d’IA d’entreprise de Microsoft Azure. Au moment de la publication, Copilot propose toujours GPT-4 Turbo, mais Microsoft a annoncé en mai 20244 que son service d’IA serait bientôt compatible avec GPT-4o.
Pour restreindre son utilisation potentielle dans les escroqueries par vishing, les deepfakes et d’autres types de fraudes audio, OpenAI a limité le modèle GPT-4o à quatre voix prédéfinies lors de son lancement. Mais comme toute version d’IA générative, GPT-4o est un modèle imparfait. Voici les risques liés à son utilisation :
OpenAI a classé GPT-4o comme un modèle à risque modéré sur son échelle interne. Les modèles sont évalués en fonction de quatre indicateurs de menace : la cybersécurité, les connaissances CBRN (chimiques, biologiques, radiologiques et nucléaires), la persuasion et l’autonomie du modèle. OpenAI évalue les modèles en fonction de leur utilisation possible pour faire progresser les développements dans chacun de ces domaines.
Une fois évalués, les modèles se voient attribuer un score allant de faible à critique dans chaque domaine, puis un score global correspondant à la note de menace la plus élevée après la prise en compte des mesures d’atténuation potentielles.
GPT-4o a obtenu un score faible dans trois des quatre catégories, avec un score moyen pour la persuasion. Cela signifie qu’il « peut créer un contenu (potentiellement interactif) avec une efficacité de persuasion comparable au contenu typique écrit par les humains »5. Par exemple, des acteurs malveillants pourraient théoriquement l’utiliser pour créer des articles et du contenu sur les réseaux sociaux propageant de la désinformation.
1. Hello GPT-4o, OpenAI, 13 mai 2024
2. GPT-4o: Quality, Performance & Price Analysis, Artificial Analysis, 2024
3. Using ChatGPT’s Free Tier - FAQ, OpenAI, 2024
4. Microsoft’s Copilot Embraces the Power of OpenAI’s New GPT-4o, CNET, 24 mai 2024
5. Preparedness Framework (Beta), OpenAI, 18 décembre 2023