My IBM Accedi Iscriviti

Cos'è un modello trasformatore?

Cos'è un modello trasformatore?

Un modello trasformativo è un tipo di modello di deep learning introdotto nel 2017. Questi modelli sono diventati rapidamente fondamentali nell'elaborazione del linguaggio naturale (NLP) e sono stati applicati a una vasta gamma di attività nel machine learning e nell'intelligenza artificiale.

Il modello è stato descritto per la prima volta in un documento del 2017 intitolato "Attention is All You Need" di Ashish Vaswani, un team di Google Brain, e un gruppo dell'Università di Toronto. La pubblicazione di questo documento è considerata un punto di svolta nel settore, dato che i trasformatori sono ora ampiamente utilizzati in applicazioni come l'addestramento degli LLM.

Questi modelli sono in grado di tradurre testo e voce quasi in tempo reale. Ad esempio, ci sono app che ora consentono ai turisti di comunicare con le persone del posto nella loro lingua madre. Aiutano i ricercatori a comprendere meglio il DNA e ad accelerare la progettazione dei farmaci. Possono aiutare a rilevare le anomalie e a prevenire le frodi nei settori della finanza e della sicurezza. I trasformatori visivi sono simili a quelli utilizzati per le attività di computer vision.

Il popolare strumento di generazione di testo ChatGPT di OpenAI utilizza architetture trasformative per la previsione, il riepilogo, la risposta alle domande e molto altro, perché consentono al modello di concentrarsi sui segmenti più rilevanti del testo di input. Il "GPT" visualizzato nelle varie versioni dello strumento (ad es. GPT-2, GPT-3) è l'acronimo di "trasformatore generativo pre-addestrato". Gli strumenti di AI generativa basati su testo come ChatGPT beneficiano dei modelli di trasformazione perché possono prevedere più facilmente la parola successiva in una sequenza di testo, sulla base di set di dati ampi e complessi.

Il modello BERT, o Bidirectional Encoder Representations from Transformers, si basa sull'architettura trasformativa. A partire dal 2019, BERT è stato utilizzato per quasi tutti i risultati di ricerca di Google in lingua inglese ed è stato implementato in oltre 70 altre lingue.1

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

In cosa differiscono i modelli trasformativi?

L’innovazione chiave del modello trasformatore consiste nel non dover fare affidamento su reti neurali ricorrenti (RNN) o reti neurali convoluzionali (CNN), approcci alle reti neurali che presentano notevoli inconvenienti. I trasformatori elaborano le sequenze di input in parallelo, rendendole estremamente efficienti per l'addestramento e l'inferenza, perché non è possibile velocizzare le cose semplicemente aggiungendo più GPU. I modelli trasformatori richiedono meno tempo di addestramento rispetto alle precedenti architetture di reti neurali ricorrenti come la memoria a lungo termine (LSTM).

Le RNN e la LSTM risalgono rispettivamente agli anni '20 e agli anni '90. Queste tecniche calcolano ogni componente di un input in sequenza (ad es. parola per parola), quindi il calcolo può richiedere molto tempo. Inoltre, entrambi gli approcci si scontrano con le limitazioni nel mantenere il contesto in presenza di una lunga "distanza" tra le informazioni in un input.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Due grandi innovazioni

I modelli trasformatori introducono due innovazioni principali. Consideriamo queste due innovazioni nel contesto della previsione del testo.

  1. Codifica posizionale: invece di guardare ogni parola nell'ordine in cui appare in una frase, le viene assegnato un numero univoco. In questo modo abbiamo le informazioni sulla posizione di ciascun token (parti dell'input come parole o parti di una sottoparola nell'NLP) nella sequenza, consentendo al modello di considerare le informazioni sequenziali della sequenza.

  2. Auto-attenzione: l'attenzione è un meccanismo che calcola i pesi di ogni parola in una frase in relazione a ogni altra parola della frase stessa, così che il modello possa prevedere le parole che potrebbero essere utilizzate in sequenza. Questa comprensione viene appresa nel tempo, quando il modello viene addestrato su una grande quantità di dati. Il meccanismo di auto-attenzione consente a ciascuna parola di prestare attenzione a tutte le altre parole nella sequenza in parallelo, soppesandone l'importanza per il token corrente. In questo modo, si può dire che i modelli di machine learning possono "apprendere" le regole della grammatica, in base alle probabilità statistiche del modo in cui le parole sono solitamente usate nel linguaggio.

Come funzionano i modelli trasformatori?

I modelli trasformatori funzionano elaborando i dati di input, che possono essere sequenze di token o altri dati strutturati, attraverso una serie di livelli che contengono meccanismi di auto-attenzione e reti neurali feedforward. L’idea alla base del funzionamento dei modelli trasformatori può essere suddivisa in diversi passaggi chiave.

Immaginiamo che tu debba tradurre una frase dall'inglese in francese. Questi sono i passaggi per eseguire questa attività con un modello trasformatore.

  1. Incorporamento dell'input: la frase di input viene trasformata per la prima volta in rappresentazioni numeriche chiamate incorporamenti, che raccolgono il significato semantico dei token nella sequenza di input. Per le sequenze di parole, questi incorporamenti possono essere appresi durante l'addestramento oppure ottenuti da incorporamenti di parole pre-addestrati.

  2. Codifica posizionale: la codifica posizionale viene in genere introdotta come un insieme di valori o vettori aggiuntivi che vengono integrati negli incorporamenti dei token prima di inserirli nel modello trasformativo. Queste codifiche posizionali presentano modelli specifici che codificano le informazioni sulla posizione.

  3. Multi-Head Attention: l'auto-attenzione opera in più "head di attenzione" per cogliere diversi tipi di relazioni tra i token. Le funzioni softmax, un tipo di funzione di attivazione, vengono utilizzate per calcolare i pesi di attenzione nel meccanismo di auto-attenzione.

  4. Normalizzazione dei livelli e connessioni residue: il modello utilizza la normalizzazione dei livelli e le connessioni residue per stabilizzare e velocizzare l'addestramento.

  5. Reti neurali feedforward: l'output del livello di auto-attenzione viene passato attraverso i livelli feedforward. Queste reti applicano trasformazioni non lineari alle rappresentazioni dei token, consentendo al modello di acquisire pattern e relazioni complessi nei dati.

  6. Stack di livelli: in genere, i trasformatori sono costituiti da più livelli impilati uno sopra l'altro. Ciascun livello elabora l'output del livello precedente, perfezionando gradualmente le rappresentazioni. L'impilamento di più livelli consente al modello di acquisire caratteristiche gerarchiche e astratte nei dati.

  7. Livello di output: in attività da sequenza a sequenza come la traduzione automatica neurale, è possibile aggiungere un modulo decoder separato sopra l'encoder per generare la sequenza di output.

  8. Addestramento: i modelli trasformativi vengono addestrati utilizzando l'apprendimento supervisionato, imparando a minimizzare una funzione di perdita che quantifica la differenza tra le previsioni del modello e il ground truth per una data attività. In genere, l'addestramento prevede tecniche di ottimizzazione come Adam o la discesa stocastica del gradiente (SGD).

  9. Inferenza: dopo l'addestramento, il modello può essere utilizzato per l'inferenza sui nuovi dati. Durante l'inferenza, la sequenza di input viene passata attraverso il modello pre-addestrato e il modello genera previsioni o rappresentazioni per l'attività specificata.

Soluzioni correlate

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

1 Google’s BERT Rolls Out Worldwide (link esterno a ibm.com), Search Engine Journal, 9 dicembre 2019