GPT-4o è un modello trasformatore generativo pre-addestrato, multimodale e multilingue, rilasciato nel maggio 2024 dallo sviluppatore di intelligenza artificiale (AI) OpenAI. È il modello di linguaggio di grandi dimensioni (LLM) di punta della famiglia di modelli AI GPT-4, che include anche GPT-4o mini, GPT-4 Turbo e il GPT-4 originale.
La "o" di GPT-4o sta per omni e sottolinea che GPT-4o è un modello AI multimodale con funzionalità audio e video. Ciò significa che può accettare set di dati come una combinazione di input di testo, audio, immagini e video. GPT-4o è anche in grado di generare immagini. GPT-4o offre funzionalità di input e output multimediali alla stessa intelligenza GPT-4 basata su trasformatore che alimenta gli altri modelli della sua linea.
Rivelato nel maggio 2024 come parte degli aggiornamenti primaverili di OpenAI, il nuovo modello di ChatGPT era in grado di tradurre la lingua parlata in tempo reale, adattare le risposte audio per includere contenuti emotivi e impegnarsi in conversazioni realistiche.
Sia GPT-4o che GPT-4o mini supportano la messa a punto, consentendo agli sviluppatori di applicare questi modelli a casi d'uso specifici.
GPT-4o mini è un modello GPT-4o più piccolo ed conveniente e il modello di AI generativa più veloce della famiglia di prodotti OpenAI. A differenza dei modelli linguistici di grandi dimensioni (LLM) con decine o centinaia di miliardi di parametri, GPT-4o mini è un modello piccolo e snello. Nonostante le sue dimensioni compatte, supera GPT-3.5 Turbo con una velocità simile e a circa il 60% del costo.
Come il fratello maggiore, GPT-4o mini ha funzionalità multimodali, supporta lingue diverse dall'inglese e può gestire compiti tipici dell'AI come il ragionamento, la matematica e la programmazione. Al momento della pubblicazione, GPT-4o mini è in grado di elaborare input di testo e immagini. OpenAI afferma che il supporto per i contenuti audio e video è in sospeso.
Gli sviluppatori possono accedere a GPT-4o mini tramite Application programming interface (API) al costo di 0,15 USD per milione di token di input e 0,60 centesimi di USD per milione di token di output.
GPT-4o è un modello di punta "tutto in uno", in grado di elaborare input e output multimodali da solo come una singola rete neurale. Con i modelli precedenti, come GPT-4 Turbo e GPT-3.5, gli utenti avevano bisogno delle API OpenAI e di altri modelli di supporto per inserire e generare vari tipi di contenuti. Sebbene GPT-4 Turbo sia in grado di elaborare i prompt di immagini, non è in grado di elaborare l'audio senza l'assistenza dell'API.
La natura multimodale di GPT-4o è la più grande innovazione rispetto a GPT-4 Turbo ed è alla base di molti dei suoi progressi:
Conversazioni audio in tempo reale
Funzionalità del tono di voce
Elaborazione video integrata
Generazione di immagini
Maggiore efficienza dei token
La maggiore velocità e le funzionalità multimodali di GPT-4o gli consentono di interagire in modo conversazionale e tradurre le lingue a un ritmo più simile a quello umano rispetto a GPT-4 Turbo. In un video dimostrativo, che faceva parte del suo annuncio di rilacio1, è stato mostrato ChatGPT-4o mentre traduceva in tempo reale tra persone di lingua inglese e spagnola. GPT-4o offre il supporto vocale per chatbot in oltre 50 lingue.
Dal momento che è in grado di elaborare gli input audio da solo, GPT-4o ha una latenza (ossia il tempo necessario per produrre l'output dal momento in cui viene ricevuto un input) inferiore rispetto ai modelli precedenti. Risponde all'input audio in 320 millisecondi, che è paragonabile al tempo di risposta tipico dell'essere umano, pari a 210 millisecondi.
Le precedenti iterazioni di GPT-4 richiedevano più modelli assemblati in una pipeline per fornire un servizio simile, aumentandone la latenza a 5,4 secondi. Prima di GPT-4o, l'API Whisper di OpenAI convertiva i prompt audio in testo, li inviava a GPT-4 Turbo, poi i servizi di text to speech riconvertivano le risposte di GPT in audio.
GPT-4 Turbo era anche, in generale, un modello più lento. Nei test di benchmark dell'organizzazione di valutazione dell'AI Artificial Analysis2, GPT-4o ha dimostrato una velocità di 110 token al secondo, circa tre volte più veloce di GPT-4 Turbo. Nello stesso test, GPT-4o ha anche superato molti concorrenti, tra cui Claude 3 Opus e Gemini 1.5 Pro.
La precedente pipeline Whisper-GPT-TTS faceva sì che quando GPT-4 Turbo riceveva input audio, esso ricevesse solo una trascrizione testuale di ciò che veniva detto. La trascrizione isola il parlato dell'utente rimuovendo il rumore di fondo, l'identità e il tono di voce del parlante, privando GPT di dati contestuali sostanziali.
Essendo un modello multimodale, GPT-4o è in grado di elaborare l'intero input audio e di rispondere in modo appropriato a questo contesto aggiuntivo. La sua migliore capacità di elaborazione del linguaggio naturale (NLP) gli consente di includere sentimenti, toni ed emozioni nella generazione dell'output quando viene utilizzato in modalità vocale.
Oltre a testo e audio, GPT-4o gestisce l'input di immagini e video. GPT-4o può connettersi al feed live di una telecamera o registrare lo schermo di un utente, quindi descrivere ciò che vede e rispondere alle domande. Gli utenti possono accendere le fotocamere dei loro smartphone e parlare con ChatGPT-4o come farebbero con un amico o un collega.
In precedenza, l'API GPT-4 Vision permetteva a GPT-4 Turbo di analizzare contenuti visivi.
Secondo il comunicato stampa di OpenAI, GPT-4o offre capacità autonome di generazione di immagini. GPT-4 Turbo era in grado di generare immagini solo connettendosi al modello DALL-E 3 di OpenAI. GPT-4 Turbo riceveva un prompt basato su testo, poi DALL-E creava l'immagine.
OpenAI ha migliorato le capacità di tokenizzazione di GPT-4 con GPT-4o. La tokenizzazione è il processo mediante il quale gli LLM convertono le parole in dati. Ogni token rappresenta una parola intera, o una parte di essa, e la punteggiatura. I modelli AI convertono le parole in token, quindi applicano una matematica complessa per analizzare tali dati.
GPT-4o converte le lingue con alfabeto non latino, come il cinese, l'hindi e l'arabo, in token in modo molto più efficiente rispetto ai suoi predecessori. Dal momento che OpenAI addebita agli utenti dell'API il costo di ogni token di input o output, la maggiore efficienza di GPT-4o con gli alfabeti non latini lo rende più conveniente per i casi d'uso in queste lingue.
Oltre alle nuove funzionalità multimodali, GPT-4o offre molte delle stesse funzioni viste nelle iterazioni precedenti:
Risposta alle domande
Analisi e sintesi dei documenti
Analisi del sentiment
Analisi dei dati
Codifica
Con un knowledge cutoff a ottobre 2023, GPT-4o è il modello più attuale di OpenAI in termini di base di conoscenza. Un knowledge cutoff è il punto nel tempo in cui si concludono i dati di addestramento di un modello. Gli utenti possono porre domande a GPT-4o e ricevere risposte, anche se con il rischio di allucinazioni.
Gli utenti possono caricare file e farli analizzare e riassumere da ChatGPT. La finestra di contesto di 128.000 token di GPT-4o, anche se più piccola di quella di Claude 3, gli consente di elaborare set di dati di input di grandi dimensioni.
La finestra di contesto di un LLM rappresenta il numero massimo di token che può mettere in campo mantenendo la consapevolezza contestuale dell'intera sequenza di input. Una finestra di contesto più ampia consente ai modelli AI di accettare prompt più complessi e includere più informazioni dagli utenti durante la generazione delle risposte.
GPT-4 ha già dimostrato la sua capacità concreta di leggere documenti tramite il riconoscimento ottico dei caratteri (OCR) utilizzando l'API GPT-4 Vision.
L'analisi del sentiment è il processo che consente di determinare come una persona si sente in base alle sue affermazioni e ai suoi comportamenti. I ricercatori utilizzano i modelli AI per eseguire l'analisi del sentiment su larga scala, ad esempio quando analizzano le recensioni degli utenti. Essendo un modello multimodale, GPT-4o è in grado di identificare il sentiment dall'input audio.
GPT-4o può elaborare set di dati complessi e distillare informazioni fruibili, come si è visto con le piattaforme di analytics self-service. Può anche rappresentare i dati come grafici e diagrammi.
GPT-4o non è il primo LLM ad avere capacità di codifica, ma la sua natura multimodale può semplificare i workflow per i programmatori. Invece di copiare e incollare il codice nell'interfaccia utente, gli utenti possono condividere i propri schermi e consentire a GPT-4o di analizzare il codice, fornire feedback e generare frammenti di codice.
Quando ha rivelato GPT-4o, OpenAI ha pubblicato i risultati dei test di benchmarking LLM confrontando il loro nuovo modello con quello della concorrenza. GPT-4 Turbo, GPT-4 nella sua versione iniziale, Claude 3 Opus di Anthropic, Llama 3 400B di Meta e Gemini 1.5 Pro e Gemini 1.0 Ultra di Google sono stati testati insieme a GPT-4o in diversi test di benchmarking di rilievo.
I test includevano Massive Multitask Language Understanding (MMLU), che valuta la base di conoscenza e le capacità di risoluzione dei problemi, e HumanEval, un test di verifica del codice. OpenAI non ha testato GPT-4o rispetto ai modelli di Google in Google-Proof Q&A (GPQA) di livello universitario, un esame di scienze che richiede un ragionamento approfondito. Anche Llama 3 400B non è stato incluso nel Multilingual Grade School Math (MGSM), un esame di matematica tenuto in 10 lingue.
GPT-4o si è classificato primo in quattro dei sei test, arrivando secondo dopo Claude 3 Opus nel MGSM e dopo GPT-4 Turbo nel Discrete Reasoning Over Paragraphs (DROP), che testa la capacità di un modello di ragionare su diversi paragrafi.
Nel complesso, GPT-4o non ha dimostrato un aumento significativo delle prestazioni rispetto a GPT-4 Turbo. I suoi progressi comparativi riguardano principalmente le sue capacità multimodali e la maggiore velocità.
OpenAI renderà disponibile GPT-4o sia per gli utenti gratuiti che per quelli premium in varie località e prodotti:
ChatGPT Plus, Team ed Enterprise
ChatGPT Free
App desktop e mobile
Applicazioni AI
Microsoft Azure OpenAI Studio
Gli abbonati ai servizi premium ChatGPT di OpenAI dispongono di diversi livelli di accesso a GPT-4o. Gli utenti ChatGPT Plus possono inviare fino a 80 messaggi ogni 3 ore su GPT-4o, mentre gli utenti Team hanno a disposizione più accessi. Gli utenti Enterprise hanno accesso illimitato a GPT-4o.
Gli utenti della versione gratuita di ChatGPT possono interagire con GPT-4o come modello predefinito per il chatbot finché la domanda lo consente. Quando un utente della versione gratuita raggiunge il limite, viene riportato a GPT-4o mini3.
Insieme a GPT-4o, OpenAI ha rilasciato un'app desktop per macOS che integra il nuovo modello con il MacBook di un utente. Le app mobili ChatGPT di OpenAI consentono anche l'accesso a GPT-4o in base al livello di abbonamento dell'utente.
Gli utenti di ChatGPT Plus, Teams ed Enterprise possono creare GPT personalizzati attraverso i quali loro stessi e altri possono utilizzare versioni differenziate di GPT-4o su misura per specifici casi d'uso. Gli sviluppatori possono anche connettersi a GPT-4o tramite API per creare altri strumenti AI.
GPT-4o e GPT-4o mini sono entrambi disponibili in Azure OpenAI Studio di Microsoft, parte della piattaforma di AI aziendale Azure di Microsoft. Al momento della pubblicazione, Copilot continua a offrire GPT-4 Turbo, anche se Microsoft ha annunciato nel maggio 20244 che il suo servizio AI avrebbe presto ricevuto il supporto per GPT-4o.
Per mitigare il potenziale utilizzo per il vishing, i deepfake e altri tipi di truffe audio, OpenAI ha lanciato GPT-4o limitandolo a quattro voci preimpostate. Ma come con qualsiasi rilascio di genAI, GPT-4o è un modello imperfetto. I rischi connessi al suo utilizzo includono:
OpenAI ha classificato GPT-4o come un modello a medio rischio sulla propria scala interna. I modelli sono valutati in base a quattro metriche di minaccia: cybersecurity, CBRN (minacce chimiche, biologiche, radiologiche e nucleari), persuasione e autonomia del modello. OpenAI valuta i modelli in base al grado in cui è possibile utilizzarli per fare progressi in ogni campo di minaccia.
Una volta valutati, ai modelli viene assegnato un punteggio che va da basso a critico in ogni campo, quindi viene assegnato un punteggio complessivo corrispondente al loro punteggio più alto di minaccia dopo aver preso in considerazione eventuali misure di mitigazione.
GPT-4o ha ottenuto un punteggio basso in tre categorie su quattro, con un punteggio medio in Persuasione. Ciò significa che "può creare contenuti (potenzialmente interattivi) con un'efficacia persuasiva paragonabile ai tipici contenuti scritti dall'uomo".5 Ad esempio, i malintenzionati potrebbero teoricamente utilizzarlo per creare articoli di disinformazione e contenuti sui social media.
1. Hello GPT-4o, OpenAI, 13 maggio 2024
2. GPT-4o: Quality, Performance & Price Analysis, Artificial Analysis, 2024
3. Using ChatGPT's Free Tier - FAQ, OpenAI, 2024
4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o, CNET, 24 maggio 2024
5. Preparedness Framework (Beta), OpenAI, 18 dicembre 2023