GPT-4o d’OpenAI est un modèle unique entraîné de bout en bout sur des données audio, visuelles et textuelles. Il peut accepter un mélange d’entrées audio, image, texte et vidéo, et produire n’importe quelle combinaison de sorties audio, image et texte : le même réseau de neurones traitant toutes les entrées et sorties.



Son homologue plus petit, GPT-4o mini, prend en charge les entrées image et texte, et génère des sorties texte.