My IBM Accedi Iscriviti

Che cos'è un GPT (trasformatore generativo pre-addestrato)?

18 settembre 2024

Autori

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Gather

Che cos'è un GPT (trasformatore generativo pre-addestrato)?

I trasformatori generativi pre-addestrati (GPTs) sono una famiglia di modelli linguistici di grandi dimensioni (LLM) basati su un'architettura di deep learning a trasformatore. Sviluppati da OpenAI, questi foundation model alimentano ChatGPT e altre applicazioni di AI generativa in grado di simulare l'output creato dall'uomo.

La società di ricerca sull'AI OpenAI ha introdotto il primo modello GPT, denominato GPT-1, nel 2018. Da allora, ha rilasciato diversi progressi nella linea GPT di modelli AI. Il modello GPT più recente è GPT-4, uscito all'inizio del 2023. Nel maggio 2024, OpenAI ha annunciato GPT-4o1 multilingue e multimodale, in grado di elaborare input audio, visivi e di testo in tempo reale.

Come foundation model, GPT è stato sottoposto a una successiva messa a punto ed è stato adattato a un'ampia gamma di attività specifiche a valle. Oltre alle applicazioni basate su testo, GPT potenzia le app di intelligenza artificiale (AI) che generano e analizzano immagini attraverso la visione artificiale, scrivono codice, elaborano dati e altro ancora. Queste app si connettono a GPT tramite delle application programming interface (API), che consentono loro di trasmettere i dati avanti e indietro.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché GPT è importante?

I modelli GPT hanno accelerato lo sviluppo dell'AI generativa grazie all'architettura trasformativa, un tipo di rete neurale introdotta nel 2017 nel documento di Google Brain Attention Is All You Need2. I modelli trasformatori, tra cui GPT e BERT, hanno favorito molti importanti sviluppi nell'AI generativa da allora, con il chatbot ChatGPT di OpenAI al centro della scena.

Oltre a OpenAI, altre aziende hanno rilasciato i propri modelli di AI, tra cui Claude di Anthropic, Pi di Inflection e Gemini di Google, precedentemente noto come Bard. Nel frattempo, OpenAI alimenta il servizio di AI Copilot di Microsoft.

AI Academy

Ecco perché i foundation model rappresentano un cambio di paradigma per l'AI

Scopri una nuova classe di modelli AI flessibili e riutilizzabili che possono sbloccare nuove entrate, ridurre i costi e aumentare la produttività, consulta quindi la nostra guida per approfondire.

Casi d'uso di GPT

La flessibilità dei modelli trasformatori come GPT li presta a un'ampia gamma di casi d'uso. La capacità di GPT di fornire una generazione di testo simile a quella umana lo rende una scelta diffusa per:

  • Chatbot e assistenti vocali
  • Creazione di contenuti e generazione di testo
  • Traduzione della lingua
  • Riepilogo e conversione dei contenuti
  • Analisi dei dati
  • Codifica
  • Assistenza sanitaria

Chatbot e assistenti vocali

I chatbot basati su GPT possono sembrare più umani rispetto alle opzioni di servizio clienti automatizzate standard. Tramite le API, le organizzazioni possono collegare GPT con le app vocali per creare assistenti vocali in grado di rispondere a affermazioni più complesse e fornire servizi di risposta alle domande conversazionali.

Creazione di contenuti e generazione di testo

Con prompt efficaci, i modelli GPT possono generare contenuti testuali che vanno da brevi testi per i social media a post sul blog completi ed e-mail. Inoltre, gli scrittori possono utilizzare i GPT per delineare o ideare contenuti che poi scrivono da soli, semplificando i workflow per la creazione di contenuti.

L'uso del GPT per generare contenuti destinati direttamente alla pubblicazione potrebbe comportare problemi di proprietà intellettuale, uno dei principali rischi dell'uso del GPT.

Traduzione della lingua

Le app basate su GPT possono tradurre la lingua in tempo reale da fonti scritte e audio. In una demo dal vivo3, GPT-4o ha dimostrato la capacità di tradurre in tempo reale in completa autonomia.

Sintesi e conversione dei contenuti

GPT può elaborare e riepilogare documenti lunghi, come dichiarazioni legali o rapporti commerciali. Può anche riscrivere il contenuto nello stile specificato dall'utente. Ad esempio, un utente potrebbe fornire un report trimestrale come dati di input e poi richiedere che venga riassunto in punti elenco spiritosi.

Analisi dei dati

GPT è in grado di elaborare grandi volumi di dati in insight facilmente utilizzabili. Attraverso le API, altre app possono utilizzare GPT per creare grafici, diagrammi e altri tipi di visualizzazione dei dati. Le organizzazioni che inseriscono dati interni in GPT potrebbero esporsi a una violazione della cybersecurity o violare le norme sulla protezione dei dati.

Codifica

I modelli GPT possono apprendere i linguaggi di programmazione e generare frammenti di codice. Gli utenti in genere ottengono risultati migliori quando trattano GPT come un assistente di codifica piuttosto che richiedere la creazione di app complete da zero. Tutti i contenuti generati da GPT, incluso il codice, devono essere esaminati prima dell'uso per garantire l'accuratezza e l'uso corretto.

Assistenza sanitaria

Nel febbraio 2024, la US National Library of Medicine ha pubblicato un documento che delinea le potenziali applicazioni GPT nel settore sanitario. Queste includono un accesso costante per i pazienti in aree remote e opzioni di assistenza personalizzate. Tuttavia, il documento affronta anche una serie di aspetti negativi, come ad esempio problemi di privacy e i limiti di conoscenza.

Come funziona GPT?

I modelli GPT funzionano analizzando una sequenza di input e applicando una matematica complessa per prevedere l'output più probabile. Utilizzano la probabilità per identificare la migliore parola successiva possibile in una frase, in base a tutte le parole precedenti. Essendo un tipo di tecnologia AI di deep learning, i GPT utilizzano elaborazione del linguaggio naturale (NLP) per comprendere le richieste degli utenti e generare risposte pertinenti simili a quelle umane.

Quando un utente inserisce un prompt basato su testo, GPT crea la risposta più probabile in base ai dati di addestramento che comprendono miliardi di fonti di dati di testo disponibili al pubblico che vanno dalle famose opere letterarie al codice open source.

La vastità dei suoi set di dati di addestramento è il modo in cui GPT è in grado di imitare le capacità di comprensione del linguaggio umano. I modelli GPT su larga scala applicano il deep learning al contesto dei processi e attingono conoscenze dal testo pertinente all'interno dei dati di addestramento per prevedere la risposta ottimale.

La potenza dei modelli GPT deriva da due aspetti chiave:

  • Pre-addestramento generativo che insegna al modello a rilevare modelli nei dati senza etichetta, quindi ad applicarli a nuovi input.

  • Un'architettura trasformativa che consente al modello di elaborare in parallelo tutte le porzioni di una sequenza di ingresso.

Pre-addestramento generativo

Il pre-addestramento generativo è il processo di addestramento di un modello in linguaggio di grandi dimensioni su dati non etichettati, che insegna al modello a riconoscere vari dati e ad affinare la sua capacità di creare previsioni accurate. I GPT generano nuovi dati applicando i modelli e la struttura dei dati pre-addestramento agli input dell'utente.

Il pre-addestramento generativo è una forma di addestramento non supervisionato, in cui il modello viene alimentato con dati senza etichetta e costretto a dargli un senso da solo. Imparando a rilevare modelli in set di dati senza etichetta, i modelli di machine learning acquisiscono la capacità di trarre conclusioni simili se esposti a nuovi input, come il prompt di un utente in ChatGPT.

I modelli GPT sono addestrati con miliardi o addirittura trilioni di parametri: variabili interne che un modello perfeziona durante il processo di addestramento e che ne determinano il comportamento. Sebbene OpenAI non abbia ancora rivelato dettagli precisi su GPT-4, si stima che il modello contenga circa 1,8 trilioni di parametri4 per un aumento di oltre dieci volte rispetto a GPT-3,5.

modelli trasformatori

I modelli trasformatori sono un tipo di rete neurale specializzata nell'elaborazione del linguaggio naturale: identificazione dell'intento e del significato in un input basato su testo. Possono elaborare dinamicamente gli input e concentrarsi sulle parole più importanti, indipendentemente dalla loro posizione nella frase.

I modelli GPT non comprendono il linguaggio nello stesso modo degli esseri umani, ma elaborano le parole in unità discrete chiamate token, con alcune parole suddivise in più token. Valutando tutti i token contemporaneamente, i trasformatori eccellono nello stabilire dipendenze a lungo raggio: relazioni tra token distanti. GPT si basa sulla comprensione delle dipendenze a lungo raggio per elaborare gli input in modo contestuale.

I modelli di trasformatori elaborano i dati con due moduli noti come codificatori e decodificatori, utilizzando meccanismi di auto-attenzione per stabilire dipendenze e relazioni.

Meccanismi di auto-attenzione

I meccanismi di auto-attenzione sono la caratteristica distintiva dei trasformatori, che consentono loro di elaborare un'intera sequenza di input in una sola volta. I trasformatori possono auto-dirigere la loro "attenzione" verso i token più importanti nella sequenza di input, indipendentemente da dove si trovano.

Al contrario, le vecchie reti neurali ricorrenti (RNN) e le reti neurali convoluzionali (CNN) valutano i dati di input in modo sequenziale o gerarchico. L'auto-attenzione consente ai GPT di elaborare il contesto e rispondere a lungo con un linguaggio che sembra naturale, piuttosto che limitarsi a indovinare la parola successiva in una frase.

Codificatori

La codifica è il processo di mappatura dei token su uno spazio vettoriale virtuale tridimensionale. Si presume che i token codificati vicini nello spazio 3D siano più simili nel significato. Questa vettorizzazione matematica di una sequenza di input è nota come embedding.

I blocchi encoder nella rete di trasformatori assegnano a ciascun incorporamento un peso, che ne determina l'importanza relativa. Nel frattempo, i codificatori di posizione acquisiscono la semantica, consentendo ai modelli GPT di distinguere tra raggruppamenti delle stesse parole ma in ordini diversi, ad esempio "L'uovo è venuto prima della gallina" rispetto a "La gallina è venuta prima dell'uovo".

Decodificatori

I decodificatori prevedono la risposta statisticamente più probabile agli embedding preparati dagli encoder. I meccanismi di auto-attenzione consentono al decodificatore di identificare le parti più importanti della sequenza di input, mentre gli algoritmi avanzati determinano l'output che ha maggiori probabilità di essere corretto.

Una storia di GPT

Dal rilascio di GPT nel 2018, OpenAI è rimasta in prima linea nel dibattito in corso sull'AI generativa. Oltre al prodotto di punta ChatGPT, l'azienda ha anche perseguito la generazione di immagini con DALL-E e il video generativo tramite Sora.

GPT-1, 2018

OpenAI rilascia il suo modello GPT di debutto. Le sue prestazioni erano impressionanti per l'epoca, servendo da prova di ciò che gli sviluppi successivi avrebbero portato a termine. GPT-1 è stato in grado di rispondere alle domande in modo umano e rispondere alle richieste di generazione di testo, evidenziandone casi d'uso futuri nei chatbot e nella creazione di contenuti.

GPT-1 era relativamente incline ad allucinazioni o confabulazioni, in cui presentava informazioni errate come se fossero reali. Le sue risposte hanno indicato che OpenAI non aveva ancora affinato la capacità di GPT di identificare le dipendenze a lungo raggio e di mettere insieme risposte accurate di forma lunga.

GPT-2, 2019

Il modello successivo di OpenAI vantava 1,5 miliardi di parametri, migliorandone le prestazioni. GPT-2 ha avuto più successo del suo predecessore quando si è trattato di mantenere la coerenza nelle risposte più lunghe, suggerendo che il rilevamento delle dipendenze a lungo raggio era molto più consolidato.

GPT-2 è stato rilasciato in più fasi: prima della versione completa, sono stati resi disponibili diversi modelli con capacità limitata. In una dichiarazione5, OpenAI ha spiegato che il rilascio scaglionato è stato reso necessario dalla necessità di mitigare potenziali abusi e altre preoccupazioni etiche. OpenAI ha citato come il modello potrebbe essere utilizzato per impersonare altri utenti online, generare notizie fuorvianti e automatizzare contenuti di cyberbullismo e phishing.

Sebbene il CEO di OpenAI, Sam Altman, abbia più volte chiesto pubblicamente una regolamentazione governativa dell'AI, l'azienda ha esercitato pressioni anche privatamente per rendere meno restrittivo l'AI Act dell'UE6. La formulazione finale della legislazione, approvata dal Parlamento europeo nel giugno 2024, sembra essere in linea con le raccomandazioni dell'azienda.

GPT-3, 2020

Con 175 miliardi di parametri, oltre cento volte di più rispetto al suo predecessore, GPT-3 è emerso come uno dei più grandi LLM dell'epoca. Le sue capacità superavano di gran lunga quelle dei modelli precedenti della stessa linea. La versione gratuita di ChatGPT è ancora basata su GPT-3.5, la versione più recente di GPT-3.

Sebbene le prestazioni di GPT-3 ne riflettessero la potenza e le sue maggiori dimensioni, anche le sue esigenze di addestramento sono salite alle stelle. Le risorse informatiche ed energetiche necessarie per formare LLM così grandi hanno destato preoccupazione relativamente alla loro impronta di carbonio e idrica7. In risposta, OpenAI ha sviluppato nuovi metodi di addestramento che ne hanno aumentato l'efficienza.

GPT-4, 2023

L'attuale versione di GPT è la più potente di OpenAI, e supera i suoi predecessori sia in termini di qualità dei contenuti che di prevenzione delle distorsioni. È alla base della versione premium di ChatGPT, che offre agli abbonati maggiori funzionalità e prestazioni rispetto alla versione basata su GPT-3.5 versione gratuita del servizio.

Tuttavia, è anche il modello che richiede più risorse nella famiglia GPT: una stima dei costi operativi giornalieri è di 700.000 USD8. Man mano che gli LLM continuano a crescere, persistono i dibattiti sui costi rispetto ai potenziali benefici. Un rapporto pubblicato da Goldman Sachs nel giugno 20249 si è concentrato sui casi d'uso potenzialmente limitati dell'AI generativa rispetto all'aumento dei costi per l'addestramento e la manutenzione dei modelli.

GPT-4 Turbo, l'attuale iterazione del modello, ha un limite di conoscenza di aprile 2023. Ciò significa che i suoi dati di addestramento o la sua base di conoscenze non copre alcun contenuto online rilasciato dopo quel momento.

GPT-4o, 2024

Presentato nel maggio del 2024, GPT-4o è multilingue e supporta contenuti in numerose lingue diverse dall'inglese. È anche multimodale, in grado di elaborare richieste di immagini, audio e video, generando in risposta testo, immagini e contenuti audio. Secondo OpenAI, GPT-4o è il 50% più economico e due volte più veloce10 nella generazione di testo rispetto a GPT-4 Turbo.

Rischi dei GPT

Sebbene i GPT e altri modelli di AI generativa siano stati ampiamente celebrati dai media, il loro uso non è privo di rischi. Le organizzazioni e gli individui che cercano di incorporare i GPT nei loro workflow dovrebbero essere consapevoli dei potenziali rischi, tra cui:

  • Privacy e riservatezza dei dati

  • Violazioni della proprietà intellettuale e conflitti di proprietà

  • Output impreciso

  • Distorsioni del modello

Privacy e riservatezza dei dati

Tutti i dati inseriti nel GPT sono disponibili per l'elaborazione di altre query e possono essere utilizzati da OpenAI per addestrare altri modelli. Questo aspetto non solo rappresenta un rischio per la sicurezza dei dati riservati, ma mette anche le organizzazioni a rischio di violare gli obblighi contrattuali e legali in materia di protezione dei dati.

Violazioni della proprietà intellettuale e conflitti di proprietà

OpenAI addestra i suoi modelli su materiali protetti da copyright. Pur difendendo questa scelta come un uso corretto, l'azienda è stata oggetto di azioni legali, tra cui una causa intentata dal New York Times11 nel dicembre 2023. I risultati generati dall'AI possono contenere contenuti protetti da copyright e il loro utilizzo può violare le restrizioni sul diritto d'autore se non vengono preventivamente controllati e modificati da esseri umani.

OpenAI è stato criticato anche quando una delle sue voci su ChatGPT è stata accusata di essere basata su quella dell'attrice Scarlett Johansson12, che ha interpretato il ruolo della voce di un'AI futuristica nel film Lei del 2013. Da allora, OpenAI ha smesso di utilizzare quella particolare voce nei suoi prodotti.

Output impreciso

Il risultato generato da GPT non garantisce la correttezza dei fatti. I modelli di AI generativa sono soggetti ad allucinazioni o confabulazioni, in cui gli algoritmi rilevano modelli nei dati che non esistono. Le confabulazioni fanno in modo che i modelli producano contenuti imprecisi, presentati all'utente come se fossero fatti affidabili. Questa tendenza, in relazione a ChatGPT, è stata approfondita in un articolo del 2024 di Hicks e altri13.

Distorsioni del modello

La distorsione del modello è una divergenza tra le previsioni di un modello basate sui suoi dati di addestramento e ciò che accade nel mondo reale. GPT è addestrato su enormi quantità di dati su Internet e, poiché questi contenuti sono creati da persone, possono contenere opinioni discriminatorie, a volte intenzionali, spesso no. Man mano che l'AI viene integrata nella polizia, nell'assistenza sanitaria e in altre aree della vita quotidiana, ledistorsioni dell'AI possono avere delle conseguenze nel mondo reale.

Soluzioni correlate

Soluzioni correlate

Foundation Model

Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Esplora watsonx.ai Esplora le soluzioni AI
Note a piè di pagina

Hello GPT-4o, OpenAI, 13 maggio 2024

Attention Is All You Need, Vaswani et al., 12 giugno 2017

Live demo of GPT-4o realtime translation, OpenAI, 13 maggio 2024

GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE, Patel e Wong, 10 luglio 2023

Better language models and their implications, OpenAI, 14 febbraio 2019

Exclusive: OpenAI Lobbied the E.U. to Water Down AI Regulation, Perrigo, 20 giugno 2023

A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint, Saenko et al., 25 maggio 2023

Microsoft Readies AI Chip as Machine Learning Costs Surge, Gardizy & Ma, 18 aprile 2023

GenAI: Too Much Spend, Too Little Benefit?, Nathan, Grimberg & Rhodes, 25 giugno 2024

10 Piattaforma OpenAI, OpenAI

11 Case 1:23-cv-11195, Barron et al., 27 dicembre 2023

12 Scarlett Johansson says a ChatGPT voice is ‘eerily similar’ to hers and OpenAI is halting its use, Grantham-Philips, 21 maggio 2024

13 ChatGPT is bullshit, Hicks et al., 8 giugno 2024