Che cos'è GPT-4o?

Autori

Staff writer

Staff Editor, AI Models

IBM Think

Che cos'è GPT-4o?

GPT-4o è un modello trasformatore generativo pre-addestrato, multimodale e multilingue, rilasciato nel maggio 2024 dallo sviluppatore di intelligenza artificiale (AI) OpenAI. È il modello di linguaggio di grandi dimensioni (LLM) di punta della famiglia di modelli AI GPT-4, che include anche GPT-4o mini, GPT-4 Turbo e il GPT-4 originale.

La "o" di GPT-4o sta per omni e sottolinea che GPT-4o è un modello AI multimodale con funzionalità audio e video. Ciò significa che può accettare set di dati come una combinazione di input di testo, audio, immagini e video. GPT-4o è anche in grado di generare immagini. GPT-4o offre funzionalità di input e output multimediali alla stessa intelligenza GPT-4 basata su trasformatore che alimenta gli altri modelli della sua linea.

Rivelato nel maggio 2024 come parte degli aggiornamenti primaverili di OpenAI, il nuovo modello di ChatGPT era in grado di tradurre la lingua parlata in tempo reale, adattare le risposte audio per includere contenuti emotivi e impegnarsi in conversazioni realistiche.

Sia GPT-4o che GPT-4o mini supportano la messa a punto, consentendo agli sviluppatori di applicare questi modelli a casi d'uso specifici.

Che cos'è GPT-4o mini?

GPT-4o mini è un modello GPT-4o più piccolo ed conveniente e il modello di AI generativa più veloce della famiglia di prodotti OpenAI. A differenza dei modelli linguistici di grandi dimensioni (LLM) con decine o centinaia di miliardi di parametri, GPT-4o mini è un modello piccolo e snello. Nonostante le sue dimensioni compatte, supera GPT-3.5 Turbo con una velocità simile e a circa il 60% del costo.

Come il fratello maggiore, GPT-4o mini ha funzionalità multimodali, supporta lingue diverse dall'inglese e può gestire compiti tipici dell'AI come il ragionamento, la matematica e la programmazione. Al momento della pubblicazione, GPT-4o mini è in grado di elaborare input di testo e immagini. OpenAI afferma che il supporto per i contenuti audio e video è in sospeso.

Gli sviluppatori possono accedere a GPT-4o mini tramite Application programming interface (API) al costo di 0,15 USD per milione di token di input e 0,60 centesimi di USD per milione di token di output.

In che modo GPT-4o è diverso da GPT-4 Turbo?

GPT-4o è un modello di punta "tutto in uno", in grado di elaborare input e output multimodali da solo come una singola rete neurale. Con i modelli precedenti, come GPT-4 Turbo e GPT-3.5, gli utenti avevano bisogno delle API OpenAI e di altri modelli di supporto per inserire e generare vari tipi di contenuti. Sebbene GPT-4 Turbo sia in grado di elaborare i prompt di immagini, non è in grado di elaborare l'audio senza l'assistenza dell'API.

La natura multimodale di GPT-4o è la più grande innovazione rispetto a GPT-4 Turbo ed è alla base di molti dei suoi progressi:

Conversazioni audio in tempo reale

Funzionalità del tono di voce

Elaborazione video integrata

Generazione di immagini

Maggiore efficienza dei token

Conversazioni audio in tempo reale

La maggiore velocità e le funzionalità multimodali di GPT-4o gli consentono di interagire in modo conversazionale e tradurre le lingue a un ritmo più simile a quello umano rispetto a GPT-4 Turbo. In un video dimostrativo, che faceva parte del suo annuncio di rilacio¹, è stato mostrato ChatGPT-4o mentre traduceva in tempo reale tra persone di lingua inglese e spagnola. GPT-4o offre il supporto vocale per chatbot in oltre 50 lingue.

Dal momento che è in grado di elaborare gli input audio da solo, GPT-4o ha una latenza (ossia il tempo necessario per produrre l'output dal momento in cui viene ricevuto un input) inferiore rispetto ai modelli precedenti. Risponde all'input audio in 320 millisecondi, che è paragonabile al tempo di risposta tipico dell'essere umano, pari a 210 millisecondi.

Le precedenti iterazioni di GPT-4 richiedevano più modelli assemblati in una pipeline per fornire un servizio simile, aumentandone la latenza a 5,4 secondi. Prima di GPT-4o, l'API Whisper di OpenAI convertiva i prompt audio in testo, li inviava a GPT-4 Turbo, poi i servizi di text to speech riconvertivano le risposte di GPT in audio.

GPT-4 Turbo era anche, in generale, un modello più lento. Nei test di benchmark dell'organizzazione di valutazione dell'AI Artificial Analysis², GPT-4o ha dimostrato una velocità di 110 token al secondo, circa tre volte più veloce di GPT-4 Turbo. Nello stesso test, GPT-4o ha anche superato molti concorrenti, tra cui Claude 3 Opus e Gemini 1.5 Pro.

Funzionalità del tono di voce

La precedente pipeline Whisper-GPT-TTS faceva sì che quando GPT-4 Turbo riceveva input audio, esso ricevesse solo una trascrizione testuale di ciò che veniva detto. La trascrizione isola il parlato dell'utente rimuovendo il rumore di fondo, l'identità e il tono di voce del parlante, privando GPT di dati contestuali sostanziali.

Essendo un modello multimodale, GPT-4o è in grado di elaborare l'intero input audio e di rispondere in modo appropriato a questo contesto aggiuntivo. La sua migliore capacità di elaborazione del linguaggio naturale (NLP) gli consente di includere sentimenti, toni ed emozioni nella generazione dell'output quando viene utilizzato in modalità vocale.

Elaborazione video integrata

Oltre a testo e audio, GPT-4o gestisce l'input di immagini e video. GPT-4o può connettersi al feed live di una telecamera o registrare lo schermo di un utente, quindi descrivere ciò che vede e rispondere alle domande. Gli utenti possono accendere le fotocamere dei loro smartphone e parlare con ChatGPT-4o come farebbero con un amico o un collega.

In precedenza, l'API GPT-4 Vision permetteva a GPT-4 Turbo di analizzare contenuti visivi.

Generazione di immagini

Secondo il comunicato stampa di OpenAI, GPT-4o offre capacità autonome di generazione di immagini. GPT-4 Turbo era in grado di generare immagini solo connettendosi al modello DALL-E 3 di OpenAI. GPT-4 Turbo riceveva un prompt basato su testo, poi DALL-E creava l'immagine.

Maggiore efficienza dei token

OpenAI ha migliorato le capacità di tokenizzazione di GPT-4 con GPT-4o. La tokenizzazione è il processo mediante il quale gli LLM convertono le parole in dati. Ogni token rappresenta una parola intera, o una parte di essa, e la punteggiatura. I modelli AI convertono le parole in token, quindi applicano una matematica complessa per analizzare tali dati.

GPT-4o converte le lingue con alfabeto non latino, come il cinese, l'hindi e l'arabo, in token in modo molto più efficiente rispetto ai suoi predecessori. Dal momento che OpenAI addebita agli utenti dell'API il costo di ogni token di input o output, la maggiore efficienza di GPT-4o con gli alfabeti non latini lo rende più conveniente per i casi d'uso in queste lingue.

Cos'altro può fare GPT-4?

Oltre alle nuove funzionalità multimodali, GPT-4o offre molte delle stesse funzioni viste nelle iterazioni precedenti:

Risposta alle domande

Analisi e sintesi dei documenti

Analisi del sentiment

Analisi dei dati

Codifica

Risposta alle domande

Con un knowledge cutoff a ottobre 2023, GPT-4o è il modello più attuale di OpenAI in termini di base di conoscenza. Un knowledge cutoff è il punto nel tempo in cui si concludono i dati di addestramento di un modello. Gli utenti possono porre domande a GPT-4o e ricevere risposte, anche se con il rischio di allucinazioni.

Analisi e sintesi dei documenti

Gli utenti possono caricare file e farli analizzare e riassumere da ChatGPT. La finestra di contesto di 128.000 token di GPT-4o, anche se più piccola di quella di Claude 3, gli consente di elaborare set di dati di input di grandi dimensioni.

La finestra di contesto di un LLM rappresenta il numero massimo di token che può mettere in campo mantenendo la consapevolezza contestuale dell'intera sequenza di input. Una finestra di contesto più ampia consente ai modelli AI di accettare prompt più complessi e includere più informazioni dagli utenti durante la generazione delle risposte.

GPT-4 ha già dimostrato la sua capacità concreta di leggere documenti tramite il riconoscimento ottico dei caratteri (OCR) utilizzando l'API GPT-4 Vision.

Analisi del sentiment

L'analisi del sentiment è il processo che consente di determinare come una persona si sente in base alle sue affermazioni e ai suoi comportamenti. I ricercatori utilizzano i modelli AI per eseguire l'analisi del sentiment su larga scala, ad esempio quando analizzano le recensioni degli utenti. Essendo un modello multimodale, GPT-4o è in grado di identificare il sentiment dall'input audio.

Analisi dei dati

GPT-4o può elaborare set di dati complessi e distillare informazioni fruibili, come si è visto con le piattaforme di analytics self-service. Può anche rappresentare i dati come grafici e diagrammi.

Codifica

GPT-4o non è il primo LLM ad avere capacità di codifica, ma la sua natura multimodale può semplificare i workflow per i programmatori. Invece di copiare e incollare il codice nell'interfaccia utente, gli utenti possono condividere i propri schermi e consentire a GPT-4o di analizzare il codice, fornire feedback e generare frammenti di codice.

Come si comporta GPT-4o in termini di prestazioni?

Quando ha rivelato GPT-4o, OpenAI ha pubblicato i risultati dei test di benchmarking LLM confrontando il loro nuovo modello con quello della concorrenza. GPT-4 Turbo, GPT-4 nella sua versione iniziale, Claude 3 Opus di Anthropic, Llama 3 400B di Meta e Gemini 1.5 Pro e Gemini 1.0 Ultra di Google sono stati testati insieme a GPT-4o in diversi test di benchmarking di rilievo.

I test includevano Massive Multitask Language Understanding (MMLU), che valuta la base di conoscenza e le capacità di risoluzione dei problemi, e HumanEval, un test di verifica del codice. OpenAI non ha testato GPT-4o rispetto ai modelli di Google in Google-Proof Q&A (GPQA) di livello universitario, un esame di scienze che richiede un ragionamento approfondito. Anche Llama 3 400B non è stato incluso nel Multilingual Grade School Math (MGSM), un esame di matematica tenuto in 10 lingue.

GPT-4o si è classificato primo in quattro dei sei test, arrivando secondo dopo Claude 3 Opus nel MGSM e dopo GPT-4 Turbo nel Discrete Reasoning Over Paragraphs (DROP), che testa la capacità di un modello di ragionare su diversi paragrafi.

Nel complesso, GPT-4o non ha dimostrato un aumento significativo delle prestazioni rispetto a GPT-4 Turbo. I suoi progressi comparativi riguardano principalmente le sue capacità multimodali e la maggiore velocità.

In che modo le persone possono accedere a GPT-4o?

OpenAI renderà disponibile GPT-4o sia per gli utenti gratuiti che per quelli premium in varie località e prodotti:

ChatGPT Plus, Team ed Enterprise

ChatGPT Free

App desktop e mobile

Applicazioni AI

Microsoft Azure OpenAI Studio

ChatGPT Plus, Teams e Enterprise

Gli abbonati ai servizi premium ChatGPT di OpenAI dispongono di diversi livelli di accesso a GPT-4o. Gli utenti ChatGPT Plus possono inviare fino a 80 messaggi ogni 3 ore su GPT-4o, mentre gli utenti Team hanno a disposizione più accessi. Gli utenti Enterprise hanno accesso illimitato a GPT-4o.

ChatGPT Free

Gli utenti della versione gratuita di ChatGPT possono interagire con GPT-4o come modello predefinito per il chatbot finché la domanda lo consente. Quando un utente della versione gratuita raggiunge il limite, viene riportato a GPT-4o mini³.

App desktop e mobili

Insieme a GPT-4o, OpenAI ha rilasciato un'app desktop per macOS che integra il nuovo modello con il MacBook di un utente. Le app mobili ChatGPT di OpenAI consentono anche l'accesso a GPT-4o in base al livello di abbonamento dell'utente.

Applicazioni AI

Gli utenti di ChatGPT Plus, Teams ed Enterprise possono creare GPT personalizzati attraverso i quali loro stessi e altri possono utilizzare versioni differenziate di GPT-4o su misura per specifici casi d'uso. Gli sviluppatori possono anche connettersi a GPT-4o tramite API per creare altri strumenti AI.

Microsoft Azure OpenAI Studio

GPT-4o e GPT-4o mini sono entrambi disponibili in Azure OpenAI Studio di Microsoft, parte della piattaforma di AI aziendale Azure di Microsoft. Al momento della pubblicazione, Copilot continua a offrire GPT-4 Turbo, anche se Microsoft ha annunciato nel maggio 2024⁴ che il suo servizio AI avrebbe presto ricevuto il supporto per GPT-4o.

Quali sono i rischi connessi all'utilizzo di GPT-4o?

Per mitigare il potenziale utilizzo per il vishing, i deepfake e altri tipi di truffe audio, OpenAI ha lanciato GPT-4o limitandolo a quattro voci preimpostate. Ma come con qualsiasi rilascio di genAI, GPT-4o è un modello imperfetto. I rischi connessi al suo utilizzo includono:

Allucinazioni: Come tutti i modelli di AI generativa, GPT-4o può avere allucinazioni quando rileva nei suoi dati schemi inesistenti, che lo portano a presentare informazioni errate come se fossero fattuali. Non è mai consigliabile utilizzare contenuti generati dall'AI senza prima averli controllati o verificati.

Violazioni dei dati: OpenAI continua a memorizzare gli input forniti dagli utenti e ad addestrare i suoi modelli con il loro aiuto. Gli utenti che inseriscono dati protetti in ChatGPT potrebbero vedere i propri dati comparire nelle risposte del modello date ad altri utenti.

Violazioni della proprietà intellettuale: OpenAI addestra i suoi modelli sui dati disponibili online, incluso materiale protetto da copyright come gli articoli di notizie. I modelli possono inavvertitamente generare contenuti protetti da copyright come parte di una risposta.

OpenAI ha classificato GPT-4o come un modello a medio rischio sulla propria scala interna. I modelli sono valutati in base a quattro metriche di minaccia: cybersecurity, CBRN (minacce chimiche, biologiche, radiologiche e nucleari), persuasione e autonomia del modello. OpenAI valuta i modelli in base al grado in cui è possibile utilizzarli per fare progressi in ogni campo di minaccia.

Una volta valutati, ai modelli viene assegnato un punteggio che va da basso a critico in ogni campo, quindi viene assegnato un punteggio complessivo corrispondente al loro punteggio più alto di minaccia dopo aver preso in considerazione eventuali misure di mitigazione.

GPT-4o ha ottenuto un punteggio basso in tre categorie su quattro, con un punteggio medio in Persuasione. Ciò significa che "può creare contenuti (potenzialmente interattivi) con un'efficacia persuasiva paragonabile ai tipici contenuti scritti dall'uomo".⁵ Ad esempio, i malintenzionati potrebbero teoricamente utilizzarlo per creare articoli di disinformazione e contenuti sui social media.

Note a piè di pagina

1. Hello GPT-4o, OpenAI, 13 maggio 2024

2. GPT-4o: Quality, Performance & Price Analysis, Artificial Analysis, 2024

3. Using ChatGPT's Free Tier - FAQ, OpenAI, 2024

4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o, CNET, 24 maggio 2024

5. Preparedness  Framework  (Beta), OpenAI, 18 dicembre 2023