I trasformatori generativi pre-addestrati (GPTs) sono una famiglia di modelli linguistici di grandi dimensioni (LLM) basati su un'architettura di deep learning a trasformatore. Sviluppati da OpenAI, questi foundation model alimentano ChatGPT e altre applicazioni di AI generativa in grado di simulare l'output creato dall'uomo.
La società di ricerca sull'AI OpenAI ha introdotto il primo modello GPT, denominato GPT-1, nel 2018. Da allora, ha rilasciato diversi progressi nella linea GPT di modelli AI. Il modello GPT più recente è GPT-4, uscito all'inizio del 2023. Nel maggio 2024, OpenAI ha annunciato GPT-4o1 multilingue e multimodale, in grado di elaborare input audio, visivi e di testo in tempo reale.
Come foundation model, GPT è stato sottoposto a una successiva messa a punto ed è stato adattato a un'ampia gamma di attività specifiche a valle. Oltre alle applicazioni basate su testo, GPT potenzia le app di intelligenza artificiale (AI) che generano e analizzano immagini attraverso la visione artificiale, scrivono codice, elaborano dati e altro ancora. Queste app si connettono a GPT tramite delle application programming interface (API), che consentono loro di trasmettere i dati avanti e indietro.
I modelli GPT hanno accelerato lo sviluppo dell'AI generativa grazie all'architettura trasformativa, un tipo di rete neurale introdotta nel 2017 nel documento di Google Brain Attention Is All You Need2. I modelli trasformatori, tra cui GPT e BERT, hanno favorito molti importanti sviluppi nell'AI generativa da allora, con il chatbot ChatGPT di OpenAI al centro della scena.
Oltre a OpenAI, altre aziende hanno rilasciato i propri modelli di AI, tra cui Claude di Anthropic, Pi di Inflection e Gemini di Google, precedentemente noto come Bard. Nel frattempo, OpenAI alimenta il servizio di AI Copilot di Microsoft.
La flessibilità dei modelli trasformatori come GPT li presta a un'ampia gamma di casi d'uso. La capacità di GPT di fornire una generazione di testo simile a quella umana lo rende una scelta diffusa per:
I chatbot basati su GPT possono sembrare più umani rispetto alle opzioni di servizio clienti automatizzate standard. Tramite le API, le organizzazioni possono collegare GPT con le app vocali per creare assistenti vocali in grado di rispondere a affermazioni più complesse e fornire servizi di risposta alle domande conversazionali.
Con prompt efficaci, i modelli GPT possono generare contenuti testuali che vanno da brevi testi per i social media a post sul blog completi ed e-mail. Inoltre, gli scrittori possono utilizzare i GPT per delineare o ideare contenuti che poi scrivono da soli, semplificando i workflow per la creazione di contenuti.
L'uso del GPT per generare contenuti destinati direttamente alla pubblicazione potrebbe comportare problemi di proprietà intellettuale, uno dei principali rischi dell'uso del GPT.
Le app basate su GPT possono tradurre la lingua in tempo reale da fonti scritte e audio. In una demo dal vivo3, GPT-4o ha dimostrato la capacità di tradurre in tempo reale in completa autonomia.
GPT può elaborare e riepilogare documenti lunghi, come dichiarazioni legali o rapporti commerciali. Può anche riscrivere il contenuto nello stile specificato dall'utente. Ad esempio, un utente potrebbe fornire un report trimestrale come dati di input e poi richiedere che venga riassunto in punti elenco spiritosi.
GPT è in grado di elaborare grandi volumi di dati in insight facilmente utilizzabili. Attraverso le API, altre app possono utilizzare GPT per creare grafici, diagrammi e altri tipi di visualizzazione dei dati. Le organizzazioni che inseriscono dati interni in GPT potrebbero esporsi a una violazione della cybersecurity o violare le norme sulla protezione dei dati.
I modelli GPT possono apprendere i linguaggi di programmazione e generare frammenti di codice. Gli utenti in genere ottengono risultati migliori quando trattano GPT come un assistente di codifica piuttosto che richiedere la creazione di app complete da zero. Tutti i contenuti generati da GPT, incluso il codice, devono essere esaminati prima dell'uso per garantire l'accuratezza e l'uso corretto.
Nel febbraio 2024, la US National Library of Medicine ha pubblicato un documento che delinea le potenziali applicazioni GPT nel settore sanitario. Queste includono un accesso costante per i pazienti in aree remote e opzioni di assistenza personalizzate. Tuttavia, il documento affronta anche una serie di aspetti negativi, come ad esempio problemi di privacy e i limiti di conoscenza.
I modelli GPT funzionano analizzando una sequenza di input e applicando una matematica complessa per prevedere l'output più probabile. Utilizzano la probabilità per identificare la migliore parola successiva possibile in una frase, in base a tutte le parole precedenti. Essendo un tipo di tecnologia AI di deep learning, i GPT utilizzano elaborazione del linguaggio naturale (NLP) per comprendere le richieste degli utenti e generare risposte pertinenti simili a quelle umane.
Quando un utente inserisce un prompt basato su testo, GPT crea la risposta più probabile in base ai dati di addestramento che comprendono miliardi di fonti di dati di testo disponibili al pubblico che vanno dalle famose opere letterarie al codice open source.
La vastità dei suoi set di dati di addestramento è il modo in cui GPT è in grado di imitare le capacità di comprensione del linguaggio umano. I modelli GPT su larga scala applicano il deep learning al contesto dei processi e attingono conoscenze dal testo pertinente all'interno dei dati di addestramento per prevedere la risposta ottimale.
La potenza dei modelli GPT deriva da due aspetti chiave:
Pre-addestramento generativo che insegna al modello a rilevare modelli nei dati senza etichetta, quindi ad applicarli a nuovi input.
Un'architettura trasformativa che consente al modello di elaborare in parallelo tutte le porzioni di una sequenza di ingresso.
Il pre-addestramento generativo è il processo di addestramento di un modello in linguaggio di grandi dimensioni su dati non etichettati, che insegna al modello a riconoscere vari dati e ad affinare la sua capacità di creare previsioni accurate. I GPT generano nuovi dati applicando i modelli e la struttura dei dati pre-addestramento agli input dell'utente.
Il pre-addestramento generativo è una forma di addestramento non supervisionato, in cui il modello viene alimentato con dati senza etichetta e costretto a dargli un senso da solo. Imparando a rilevare modelli in set di dati senza etichetta, i modelli di machine learning acquisiscono la capacità di trarre conclusioni simili se esposti a nuovi input, come il prompt di un utente in ChatGPT.
I modelli GPT sono addestrati con miliardi o addirittura trilioni di parametri: variabili interne che un modello perfeziona durante il processo di addestramento e che ne determinano il comportamento. Sebbene OpenAI non abbia ancora rivelato dettagli precisi su GPT-4, si stima che il modello contenga circa 1,8 trilioni di parametri4 per un aumento di oltre dieci volte rispetto a GPT-3,5.
I modelli trasformatori sono un tipo di rete neurale specializzata nell'elaborazione del linguaggio naturale: identificazione dell'intento e del significato in un input basato su testo. Possono elaborare dinamicamente gli input e concentrarsi sulle parole più importanti, indipendentemente dalla loro posizione nella frase.
I modelli GPT non comprendono il linguaggio nello stesso modo degli esseri umani, ma elaborano le parole in unità discrete chiamate token, con alcune parole suddivise in più token. Valutando tutti i token contemporaneamente, i trasformatori eccellono nello stabilire dipendenze a lungo raggio: relazioni tra token distanti. GPT si basa sulla comprensione delle dipendenze a lungo raggio per elaborare gli input in modo contestuale.
I modelli di trasformatori elaborano i dati con due moduli noti come codificatori e decodificatori, utilizzando meccanismi di auto-attenzione per stabilire dipendenze e relazioni.
I meccanismi di auto-attenzione sono la caratteristica distintiva dei trasformatori, che consentono loro di elaborare un'intera sequenza di input in una sola volta. I trasformatori possono auto-dirigere la loro "attenzione" verso i token più importanti nella sequenza di input, indipendentemente da dove si trovano.
Al contrario, le vecchie reti neurali ricorrenti (RNN) e le reti neurali convoluzionali (CNN) valutano i dati di input in modo sequenziale o gerarchico. L'auto-attenzione consente ai GPT di elaborare il contesto e rispondere a lungo con un linguaggio che sembra naturale, piuttosto che limitarsi a indovinare la parola successiva in una frase.
La codifica è il processo di mappatura dei token su uno spazio vettoriale virtuale tridimensionale. Si presume che i token codificati vicini nello spazio 3D siano più simili nel significato. Questa vettorizzazione matematica di una sequenza di input è nota come embedding.
I blocchi encoder nella rete di trasformatori assegnano a ciascun incorporamento un peso, che ne determina l'importanza relativa. Nel frattempo, i codificatori di posizione acquisiscono la semantica, consentendo ai modelli GPT di distinguere tra raggruppamenti delle stesse parole ma in ordini diversi, ad esempio "L'uovo è venuto prima della gallina" rispetto a "La gallina è venuta prima dell'uovo".
I decodificatori prevedono la risposta statisticamente più probabile agli embedding preparati dagli encoder. I meccanismi di auto-attenzione consentono al decodificatore di identificare le parti più importanti della sequenza di input, mentre gli algoritmi avanzati determinano l'output che ha maggiori probabilità di essere corretto.
Dal rilascio di GPT nel 2018, OpenAI è rimasta in prima linea nel dibattito in corso sull'AI generativa. Oltre al prodotto di punta ChatGPT, l'azienda ha anche perseguito la generazione di immagini con DALL-E e il video generativo tramite Sora.
OpenAI rilascia il suo modello GPT di debutto. Le sue prestazioni erano impressionanti per l'epoca, servendo da prova di ciò che gli sviluppi successivi avrebbero portato a termine. GPT-1 è stato in grado di rispondere alle domande in modo umano e rispondere alle richieste di generazione di testo, evidenziandone casi d'uso futuri nei chatbot e nella creazione di contenuti.
GPT-1 era relativamente incline ad allucinazioni o confabulazioni, in cui presentava informazioni errate come se fossero reali. Le sue risposte hanno indicato che OpenAI non aveva ancora affinato la capacità di GPT di identificare le dipendenze a lungo raggio e di mettere insieme risposte accurate di forma lunga.
Il modello successivo di OpenAI vantava 1,5 miliardi di parametri, migliorandone le prestazioni. GPT-2 ha avuto più successo del suo predecessore quando si è trattato di mantenere la coerenza nelle risposte più lunghe, suggerendo che il rilevamento delle dipendenze a lungo raggio era molto più consolidato.
GPT-2 è stato rilasciato in più fasi: prima della versione completa, sono stati resi disponibili diversi modelli con capacità limitata. In una dichiarazione5, OpenAI ha spiegato che il rilascio scaglionato è stato reso necessario dalla necessità di mitigare potenziali abusi e altre preoccupazioni etiche. OpenAI ha citato come il modello potrebbe essere utilizzato per impersonare altri utenti online, generare notizie fuorvianti e automatizzare contenuti di cyberbullismo e phishing.
Sebbene il CEO di OpenAI, Sam Altman, abbia più volte chiesto pubblicamente una regolamentazione governativa dell'AI, l'azienda ha esercitato pressioni anche privatamente per rendere meno restrittivo l'AI Act dell'UE6. La formulazione finale della legislazione, approvata dal Parlamento europeo nel giugno 2024, sembra essere in linea con le raccomandazioni dell'azienda.
Con 175 miliardi di parametri, oltre cento volte di più rispetto al suo predecessore, GPT-3 è emerso come uno dei più grandi LLM dell'epoca. Le sue capacità superavano di gran lunga quelle dei modelli precedenti della stessa linea. La versione gratuita di ChatGPT è ancora basata su GPT-3.5, la versione più recente di GPT-3.
Sebbene le prestazioni di GPT-3 ne riflettessero la potenza e le sue maggiori dimensioni, anche le sue esigenze di addestramento sono salite alle stelle. Le risorse informatiche ed energetiche necessarie per formare LLM così grandi hanno destato preoccupazione relativamente alla loro impronta di carbonio e idrica7. In risposta, OpenAI ha sviluppato nuovi metodi di addestramento che ne hanno aumentato l'efficienza.
L'attuale versione di GPT è la più potente di OpenAI, e supera i suoi predecessori sia in termini di qualità dei contenuti che di prevenzione delle distorsioni. È alla base della versione premium di ChatGPT, che offre agli abbonati maggiori funzionalità e prestazioni rispetto alla versione basata su GPT-3.5 versione gratuita del servizio.
Tuttavia, è anche il modello che richiede più risorse nella famiglia GPT: una stima dei costi operativi giornalieri è di 700.000 USD8. Man mano che gli LLM continuano a crescere, persistono i dibattiti sui costi rispetto ai potenziali benefici. Un rapporto pubblicato da Goldman Sachs nel giugno 20249 si è concentrato sui casi d'uso potenzialmente limitati dell'AI generativa rispetto all'aumento dei costi per l'addestramento e la manutenzione dei modelli.
GPT-4 Turbo, l'attuale iterazione del modello, ha un limite di conoscenza di aprile 2023. Ciò significa che i suoi dati di addestramento o la sua base di conoscenze non copre alcun contenuto online rilasciato dopo quel momento.
Presentato nel maggio del 2024, GPT-4o è multilingue e supporta contenuti in numerose lingue diverse dall'inglese. È anche multimodale, in grado di elaborare richieste di immagini, audio e video, generando in risposta testo, immagini e contenuti audio. Secondo OpenAI, GPT-4o è il 50% più economico e due volte più veloce10 nella generazione di testo rispetto a GPT-4 Turbo.
Sebbene i GPT e altri modelli di AI generativa siano stati ampiamente celebrati dai media, il loro uso non è privo di rischi. Le organizzazioni e gli individui che cercano di incorporare i GPT nei loro workflow dovrebbero essere consapevoli dei potenziali rischi, tra cui:
Privacy e riservatezza dei dati
Violazioni della proprietà intellettuale e conflitti di proprietà
Output impreciso
Distorsioni del modello
Tutti i dati inseriti nel GPT sono disponibili per l'elaborazione di altre query e possono essere utilizzati da OpenAI per addestrare altri modelli. Questo aspetto non solo rappresenta un rischio per la sicurezza dei dati riservati, ma mette anche le organizzazioni a rischio di violare gli obblighi contrattuali e legali in materia di protezione dei dati.
OpenAI addestra i suoi modelli su materiali protetti da copyright. Pur difendendo questa scelta come un uso corretto, l'azienda è stata oggetto di azioni legali, tra cui una causa intentata dal New York Times11 nel dicembre 2023. I risultati generati dall'AI possono contenere contenuti protetti da copyright e il loro utilizzo può violare le restrizioni sul diritto d'autore se non vengono preventivamente controllati e modificati da esseri umani.
OpenAI è stato criticato anche quando una delle sue voci su ChatGPT è stata accusata di essere basata su quella dell'attrice Scarlett Johansson12, che ha interpretato il ruolo della voce di un'AI futuristica nel film Lei del 2013. Da allora, OpenAI ha smesso di utilizzare quella particolare voce nei suoi prodotti.
Il risultato generato da GPT non garantisce la correttezza dei fatti. I modelli di AI generativa sono soggetti ad allucinazioni o confabulazioni, in cui gli algoritmi rilevano modelli nei dati che non esistono. Le confabulazioni fanno in modo che i modelli producano contenuti imprecisi, presentati all'utente come se fossero fatti affidabili. Questa tendenza, in relazione a ChatGPT, è stata approfondita in un articolo del 2024 di Hicks e altri13.
La distorsione del modello è una divergenza tra le previsioni di un modello basate sui suoi dati di addestramento e ciò che accade nel mondo reale. GPT è addestrato su enormi quantità di dati su Internet e, poiché questi contenuti sono creati da persone, possono contenere opinioni discriminatorie, a volte intenzionali, spesso no. Man mano che l'AI viene integrata nella polizia, nell'assistenza sanitaria e in altre aree della vita quotidiana, ledistorsioni dell'AI possono avere delle conseguenze nel mondo reale.
Scopri IBM® Granite, la nostra famiglia di modelli AI aperti, performanti e affidabili, personalizzati per le aziende e ottimizzati per scalare le applicazioni AI. Esplora le opzioni relative a lingua, codice, serie temporali e guardrail.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d’uso.
Consulta gli articoli, i blog e i tutorial di IBM Developer per approfondire la tua conoscenza degli LLM.
Scopri come incoraggiare i team a migliorare sempre di più le prestazioni dei modelli e a superare la concorrenza utilizzando le tecniche e le infrastrutture AI più recenti.
Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
1 Hello GPT-4o, OpenAI, 13 maggio 2024
2 Attention Is All You Need, Vaswani et al., 12 giugno 2017
3 Live demo of GPT-4o realtime translation, OpenAI, 13 maggio 2024
4 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE, Patel e Wong, 10 luglio 2023
5 Better language models and their implications, OpenAI, 14 febbraio 2019
6 Exclusive: OpenAI Lobbied the E.U. to Water Down AI Regulation, Perrigo, 20 giugno 2023
7 A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint, Saenko et al., 25 maggio 2023
8 Microsoft Readies AI Chip as Machine Learning Costs Surge, Gardizy & Ma, 18 aprile 2023
9 GenAI: Too Much Spend, Too Little Benefit?, Nathan, Grimberg & Rhodes, 25 giugno 2024
10 Piattaforma OpenAI, OpenAI
11 Case 1:23-cv-11195, Barron et al., 27 dicembre 2023
12 Scarlett Johansson says a ChatGPT voice is ‘eerily similar’ to hers and OpenAI is halting its use, Grantham-Philips, 21 maggio 2024
13 ChatGPT is bullshit, Hicks et al., 8 giugno 2024
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com