I modelli linguistici stimano la probabilità che le parole appaiano in una frase o che la frase stessa esista. In quanto tali, sono elementi costitutivi utili in numerose applicazioni di PNL. Tuttavia, spesso richiedono una quantità eccessiva di dati di addestramento per essere davvero utili per attività e domini specifici.

I grandi modelli linguistici di deep learning sono progettati per affrontare questi problemi pervasivi legati ai dati di addestramento. Vengono pre-addestrati utilizzando una quantità enorme di dati non annotati per fornire un modello di deep learning a uso generale. Ottimizzando questi modelli pre-addestrati, gli utenti a valle possono creare modelli specifici per attività con set di dati di addestramento annotati più piccoli (una tecnica chiamata apprendimento per trasferimento). Questi modelli rappresentano una svolta nella NLP: ora si possono ottenere risultati all'avanguardia con set di dati di addestramento più piccoli.

Fino a poco tempo fa, lo stato dell'arte dei modelli linguistici NLP erano i modelli RNN. Sono utili per attività sequenziate quali la sintesi astratta, la traduzione automatica e la generazione generale del linguaggio naturale. I modelli RNN elaborano le parole in modo sequenziale, nell'ordine in cui appaiono nel contesto, una parola alla volta. Di conseguenza, questi modelli sono difficili da parallelizzare e non funzionano bene nel mantenere le relazioni contestuali attraverso lunghe sequenze di input. Come abbiamo discusso in un post precedente, nella NLP, il contesto è fondamentale.

Il transformer, un modello introdotto nel 2017, aggira questi problemi. I transformer (come BERT e GPT) utilizzano un meccanismo di attenzione, che "presta attenzione" alle parole più utili per prevedere la parola successiva in una frase. Con questi meccanismi di attenzione, i transformer elaborano una sequenza di parole in input tutte insieme e mappano le dipendenze rilevanti tra le parole, indipendentemente dalla distanza tra le parole nel testo. Come risultato, i transformer sono altamente parallelizzabili, possono addestrare modelli molto più grandi a un ritmo più veloce e usano indizi contestuali per risolvere molte delle ambiguità che affliggono il testo.

Anche i singoli transformer hanno vantaggi unici. Fino a quest'anno, BERT è stato il modello di deep learning NLP più popolare, ottenendo risultati all'avanguardia in molti compiti NLP.

Addestrato su 2,5 miliardi di parole, il suo vantaggio principale è l'uso dell'apprendimento bidirezionale per ottenere il contesto delle parole sia dal contesto da sinistra a destra che da quello da destra a sinistra contemporaneamente; l'approccio di addestramento bidirezionale di BERT è ottimizzato per prevedere le parole mascherate (Masked LM) e supera l'addestramento da sinistra a destra dopo un piccolo numero di passaggi di pre-addestramento. Durante il processo di addestramento del modello, il Training Next Phrase Prediction (NSP) permette al modello di comprendere come le frasi si relazionano tra loro, se la frase B debba precedere o seguire la frase A. Di conseguenza, riesce a ottenere più contesto. Ad esempio, può comprendere i significati semantici di banca nelle seguenti frasi: "Quando raggiungi la riva del fiume, alza i remi" e "La banca sta inviando una nuova carta di debito". Per capirlo, usa indizi come il fiume da sinistra a destra e la carta di debito da destra a sinistra.

A differenza dei modelli BERT, i modelli GPT sono unidirezionali. Il principale vantaggio dei modelli GPT è l'enorme volume di dati su cui sono stati pre-addestrati: GPT-3, il modello GPT di terza generazione, è stato addestrato su 175 miliardi di parametri, circa 10 volte la dimensione dei modelli precedenti. Questo modello preaddestrato davvero massiccio consente agli utenti di mettere a punto le attività NLP con pochissimi dati per portare a termine nuove attività. Sebbene i transformer in generale abbiano ridotto la quantità di dati necessari per addestrare i modelli, GPT-3 ha il netto vantaggio rispetto a BERT di richiedere molti meno dati per addestrare i modelli.

Ad esempio, con appena 10 frasi il modello è stato insegnato per scrivere un saggio sul perché gli esseri umani non dovrebbero temere l'AI. (Tuttavia, va sottolineato, la qualità variabile di questi saggi liberi mostra i limiti della tecnologia attuale.)