Tag

Cos'è un modello trasformatore?

Giovane studente universitario che legge un libro

Autori

Cole Stryker

Staff Editor, AI Models

IBM Think

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Cos'è un modello trasformatore?

Il modello trasformativo è un tipo di architettura di rete neurale che eccelle nell'elaborazione di dati sequenziali, principalmente associati ai modelli linguistici di grandi dimensioni (LLM). I modelli trasformativi hanno raggiunto prestazioni eccezionali anche in altri campi dell'AI, come ad esempio la computer vision, il riconoscimento vocale e la previsione delle serie temporali.

L'architettura trasformativa è stata descritta per la prima volta nel fondamentale articolo del 2017 "Attention is All You Need" di Vaswani e altri collaboratori, che ora è considerato un vero e proprio spartiacque nel deep learning.

Introdotti originariamente come evoluzione dei modelli sequenza-sequenza basati sulle reti neurali ricorrenti (RNN)utilizzati per la traduzione automatica, i modelli basati sui trasformatori da allora hanno raggiunto progressi all'avanguardia in quasi tutte le discipline dell'apprendimento automatico (ML).

Nonostante la loro versatilità, i modelli di trasformatori sono ancora oggetto di discussione estremamente comune nel contesto dei casi d'uso di elaborazione del linguaggio naturale (NLP), come chatbot, generazione di testo, riepilogo, risposta alle domande e analisi dei sentimenti.

Il modello di encoder-decoder BERT (o Bidirectional Encoder Representations from Transformers), introdotto da Google nel 2019, è stato una pietra miliare nella creazione dei trasformatori e rimane la base della maggior parte delle moderne applicazioni di embedding di parole, dai moderni database vettoriali alla ricerca su Google.

Gli LLM solo con decoder autoregressivo, come il modello GPT-3 (abbreviazione di Generative Pre-trained Transformer) che ha alimentato il lancio di ChatGPT di OpenAI, hanno catalizzato l'era moderna di AI generativa (gen AI).

La capacità dei modelli trasformativi di discernere in modo complesso in che modo ogni parte di una sequenza di dati influenza e si correla con le altre, conferisce loro anche numerosi usi multimodali.

Ad esempio, i trasformatori visivi (ViT) spesso superano le prestazioni delle reti neurali convoluzionali (CNN) nella segmentazione delle immagini, nel rilevamento degli oggetti e nelle attività correlate. L'architettura trasformativa alimenta anche numerosi modelli di diffusione utilizzati per la generazione di immagini, modelli multimodali Text to Speech (TTS) e di linguaggio di visione (VLM).

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Perché i modelli di trasformatori sono importanti?

La caratteristica fondamentale dei modelli trasformativi è il loro meccanismo di auto-attenzione, da cui i modelli di trasformatori derivano la loro incredibile capacità di rilevare le relazioni (o dipendenze) tra ogni parte di una sequenza di input. A differenza delle architetture RNN e CNN che l'hanno preceduta, l'architettura trasformativa utilizza solo strati di attenzione e strati feedforward standard.

I benefici dell'autoattenzione, e in particolare la tecnica di attenzione multitesta utilizzata dai modelli trasformativi per calcolarla, sono quello che consente ai trasformatori di superare le prestazioni degli RNN e delle CNN che, in precedenza, erano state il punto di riferimento.

Prima dell'introduzione dei modelli trasformativi, la maggior parte delle attività di NLP si basava su reti neurali ricorrenti (RNN). Il modo in cui gli RNN elaborano i dati sequenziali è intrinsecamente serializzato: inseriscono gli elementi di una sequenza di input uno alla volta e in un ordine specifico.

Questo ostacola la capacità degli RNN di rilevare le dipendenze a lungo raggio, il che significa che gli RNN possono elaborare in modo efficace solo brevi sequenze di testo.
Questa carenza è stata in qualche modo affrontata con l'introduzione di reti di memoria a lungo breve termine (LSTM), ma rimane un difetto fondamentale delle RNN.

I meccanismi di attenzione, al contrario, possono esaminare un'intera sequenza simultaneamente e prendere decisioni sull'ordine in cui concentrarsi su specifici passaggi di quella sequenza.

Oltre a migliorare significativamente la capacità di comprendere le dipendenze a lungo raggio, questa qualità dei trasformatori consente inoltre la parallelizzazione: la capacità di eseguire contemporaneamente numerose fasi computazionali, anziché in modo serializzato.

Essere adatti al parallelismo consente ai modelli trasformativi di sfruttare appieno la potenza e la velocità offerte dalle GPU, sia durante l'addestramento, sia durante l'inferenza. A sua volta, questa possibilità ha sbloccato l'opportunità di addestrare modelli trasformativi su set di dati di dimensioni senza precedenti attraverso l'apprendimento autosupervisionato.

Soprattutto nel caso dei dati visivi, i trasformatori offrono inoltre alcuni vantaggi rispetto alle reti neurali convoluzionali. Le CNN sono intrinsecamente locali e utilizzano le convoluzioni per elaborare sottoinsiemi più piccoli di dati di input un pezzo alla volta.

Pertanto, anche le CNN faticano a discernere le dipendenze a lungo raggio, come le correlazioni tra parole (nel testo) o pixel (nelle immagini) che non sono vicini l'una all'altra. I meccanismi di attenzione non hanno questa limitazione.

Mixture of Experts | 28 agosto, episodio 70

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda gli ultimi episodi del podcast

Che cos'è l'auto-attenzione?

Conoscere il concetto matematico di attenzione, e più specificamente di auto-attenzione, è fondamentale per comprendere il successo dei modelli trasformativi in così tanti campi. I meccanismi di attenzione sono, in sostanza, algoritmi progettati per determinare a quali parti di una sequenza di dati un modello AI dovrebbe "prestare attenzione" in un determinato momento.

Considera un modello linguistico che interpreta il testo inglese"venerdì, il giudice ha emesso una sentenza. "

La parola che precede "il "suggerisce che"giudice "agisce come sostantivo, nel senso di una persona che presiede un processo legale, e non di un verbo che significa valutare o formulare un'opinione.
Quel contesto per la parola"giudice "suggerisce che""sentenza" "probabilmente si riferisce a una sanzione legale, piuttosto che a una "frase" grammaticale.
La parola ""emesso" "implica inoltre che""sentenza" "si riferisce al concetto giuridico, non a quello grammaticale.
Pertanto, quando si interpreta la parola""sentenza" "il modello dovrebbe prestare particolare attenzione a giudice "e"emesso. "Dovrebbe inoltre prestare attenzione alla parola"il "Può più o meno ignorare le altre parole.

Come funziona l'attenzione di sé?

In generale, i livelli di attenzione di un modello trasformativo valutano e utilizzano il contesto specifico di ciascuna parte di una sequenza di dati in 4 fasi:

Il modello "legge" sequenze di dati non elaborati e li converte in embedding vettoriali, in cui ogni elemento della sequenza è rappresentato dai propri vettori caratteristici che, numericamente, riflettono le qualità come il significato semantico.
Il modello stabilisce somiglianze, correlazioni e altre dipendenze (o la loro mancanza) tra ciascun vettore e ogni altro vettore. Nella maggior parte dei modelli di trasformatori, l'importanza relativa di un vettore rispetto a un altro viene stabilita calcolando il prodotto di punti tra ciascun vettore. Se i vettori sono allineati correttamente, moltiplicandoli insieme si otterrà un valore elevato. Se non sono allineati, il loro prodotto a punti sarà piccolo o negativo.
Questi "punteggi di allineamento" vengono convertiti in pesi di attenzione.Questo si ottiene utilizzando i punteggi di allineamento come input per una funzione di attivazione softmax, che normalizza tutti i valori in un intervallo compreso tra 0 e 1, in modo che la somma totale sia pari a 1. Quindi, per esempio, assegnare un peso di attenzione pari a 0 tra "Vettore A" e "Vettore B" significa che il Vettore B deve essere ignorato quando si fanno previsioni sul Vettore A. Assegnare al Vettore B un peso di attenzione di 1 significa che dovrebbe ricevere il 100% dell'attenzione del modello quando prende decisioni sul Vettore A.
Questi pesi di attenzione vengono utilizzati per evidenziare o attenuare l'influenza di specifici elementi di input in determinati momenti. In altre parole, i pesi di attenzione aiutano i modelli di trasformatori a concentrarsi o a ignorare informazioni specifiche in un momento specifico.

Prima dell'addestramento, un modello trasformativo non "sa" ancora come generare embedding e punteggi di allineamento ottimali. Durante l'addestramento, il modello esegue stime su milioni di esempi tratti dai dati di addestramento e una funzione di perdita quantifica l'errore di ogni previsione.

Attraverso un ciclo iterativo di formulazione di previsioni e quindi di aggiornamento dei pesi del modello tramite retropropagazione e discesa del gradiente, il modello "impara" a generare embedding vettoriali, punteggi di allineamento e pesi di attenzione che portano a risultati accurati come output.

Come funzionano i modelli trasformatori?

I modelli trasformativi come i database relazionali generano vettori di query, chiavi e vettori di valori per ogni parte di una sequenza di dati, e li utilizzano per calcolare i pesi dell'attenzione attraverso una serie di moltiplicazioni di matrici.

I database relazionali sono progettati per semplificare lo storage e il recupero di dati rilevanti: assegnano un identificatore univoco ("chiave") a ciascuna parte di dato e a ogni chiave è associata a un valore corrispondente. Il documento "Attention is All You Need" ha applicato quel framework concettuale all'elaborazione delle relazioni tra ciascun token in una sequenza di testo.

Il vettore di query rappresenta le informazioni che un token specifico sta "cercando". In altre parole, il vettore di query di un token viene utilizzato per elaborare in che modo altri token potrebbero influenzarne il significato, la coniugazione o le connotazioni nel contesto.
I vettori di chiave rappresentano le informazioni contenute in ogni token. L'allineamento tra la query e la chiave viene utilizzato per calcolare i pesi di attenzione che riflettono quanto sono pertinenti nel contesto di quella sequenza di testo.
Il valore (o vettore di valori) "restituisce" le informazioni di ciascun vettore chiave, scalate in base al rispettivo peso di attenzione. I contributi provenienti da chiavi fortemente allineate a una query sono ponderati più pesantemente; i contributi provenienti da chiavi che non sono pertinenti per una query saranno ponderati più vicino allo zero.

Per un LLM, il "database" del modello è il vocabolario dei token che ha appreso dai campioni di testo nei suoi dati di addestramento. Il suo meccanismo di attenzione utilizza le informazioni di questo "database" per capire il contesto del linguaggio.

Tokenizzazione e embedding degli input

Mentre i caratteri ( (lettere, numeri o segni di punteggiatura) sono l'unità di base che noi umani utilizziamo per rappresentare il linguaggio, l'unità linguistica più piccola utilizzata dai modelli AI è un token. A ogni token viene assegnato un numero ID e questi numeri ID (anziché le parole o anche i token stessi) sono il modo in cui gli LLM navigano nel loro "database" del vocabolario. Questa tokenizzazione del linguaggio riduce in modo significativo la potenza di elaborazione necessaria per elaborare il testo.

Per generare query e vettori chiave da inserire nei livelli di attenzione del trasformatore, il modello ha bisogno di un embedding iniziale e senza contesto per ogni token. Questi embedding iniziali dei token possono essere appresi durante l'addestramento o prelevati da un modello di incorporamento di parole pre-addestrato.

Codifica posizionale

L'ordine e la posizione delle parole possono influire in modo significativo sui loro significati semantici. Considerando che la natura serializzata degli RNN preserva intrinsecamente le informazioni sulla posizione di ciascun token, i modelli trasformativi devono aggiungere esplicitamente informazioni sulla posizione affinché il meccanismo di attenzione possa essere preso in considerazione.

Con la codifica posizionale, il modello aggiunge un vettore di valori all'embedding di ogni token, derivato dalla sua posizione relativa, prima che l'input entri nel meccanismo di attenzione. Più i 2 token sono vicini, più simili saranno i loro vettori posizionali e quindi più il loro punteggio di allineamento aumenterà aggiungendo informazioni sulla posizione. Pertanto, il modello impara ad accordare maggiore attenzione ai token circostanti.

Generazione di vettori di query, chiave e valore

Quando sono state aggiunte informazioni sulla posizione, ogni embedding di token aggiornato viene utilizzato per generare tre nuovi vettori. Questi vettori di query, chiave e valore vengono generati passando gli embedding di token attraverso ciascuno dei tre livelli di reti neurali feedforward paralleli che precedono il primo livello di attenzione. Ogni sottoinsieme parallelo di quello strato lineare ha una matrice di pesi unica, appresa attraverso un preaddestramento autosupervisionato su un enorme set di dati di testo.

Gli embedding vengono moltiplicati per la matrice di peso W_Q per ottenere i vettori di query (Q), che hanno dimensioni d_k
Gli embedding vengono moltiplicati per la matrice dei pesi W_K per ottenere il vettore chiave (K), anch'esso con dimensioni d_k
Gli embedding vengono moltiplicati per la matrice dei pesi W_V per ottenere i vettori di valori (V), con dimensioni d_v

Calcolo dell'auto-attenzione

La funzione principale del meccanismo di attenzione del trasformatore è di assegnare pesi di attenzione accurati agli abbinamenti del vettore di query di ciascun token con i vettori chiave di tutti gli altri token nella sequenza. Una volta raggiunto, puoi pensare a ogni token $x$ che ora ha un corrispondente vettore di pesi di attenzione, in cui ogni elemento di quel vettore rappresenta la misura in cui qualche altro token dovrebbe influenzarlo.

Il vettore di valore di ogni altro token viene ora moltiplicato per il rispettivo peso di attenzione.
Tutti questi vettori di valore ponderati in base all'attenzione vengono sommati insieme. Il vettore risultante rappresenta le informazioni contestuali aggregate fornite al token $x$ da tutti gli altri token nella sequenza.
Infine, il vettore risultante di modifiche ponderate in base all'attenzione di ciascun token viene aggiunto al token $x$ embedding vettoriale di codifica post-posizionale originale.

In sostanza, $x$ l'embedding vettoriale è stato aggiornato per riflettere meglio il contesto fornito dagli altri token nella sequenza.

Attenzione multitesta

Per catturare i numerosi modi multiformi in cui i token possono relazionarsi tra loro, i modelli trasformativi implementano l'attenzione multitesta su più blocchi di attenzione.

Prima di essere immessi nel primo strato feedforward, gli embedding dei token di input originali vengono suddivisi in sottoinsiemi di dimensioni uguali h . Ogni elemento dell'embedding viene inserito in una delle h di pesi Q, K e V , ognuna delle quali è chiamata rispettivamente head di query , head di chiave o head di valore. Gli output dei vettori generati da ciascuna di queste triplette parallele di head di query, chiave e valore vengono quindi inseriti in un sottoinsieme corrispondente del livello di attenzione successivo, chiamato head di attenzione.

Nei livelli finali di ciascun blocco di attenzione, gli output di questi circuiti h in parallelo vengono infine di nuovo concatenati insieme prima di essere inviati al livello feedforward successivo. Nella pratica, l'addestramento del modello fa in modo che ogni circuito apprenda da pesi diversi che catturano un aspetto separato dei significati semantici.

Connessioni residue e normalizzazione degli strati

In alcune situazioni, trasmettere l'output di embedding aggiornato contestualmente tramite il blocco di attenzione potrebbe comportare una perdita inaccettabile di informazioni dalla sequenza originale.

Per risolvere questo problema, i modelli trasformativi spesso bilanciano le informazioni contestuali fornite dal meccanismo di attenzione con il significato semantico originale di ciascun token. Dopo che i sottoinsiemi dell'embedding del token aggiornati in base all'attenzione sono stati tutti riconcatenati insieme, l'embedding aggiornato viene quindi aggiunto all'embedding originale (con codifica in posizione) del token. L'embedding originale del token è fornito da una connessione residua tra quel livello e un livello precedente della rete.

Il vettore risultante viene inserito in un altro livello lineare di feedforward, in cui viene normalizzato a una dimensione costante prima di essere passato al blocco di attenzione successivo. Insieme, queste misure aiutano a preservare la stabilità nell'addestramento e a garantire che il significato originale del testo non vada perso man mano che i dati si spostano in profondità nelle reti neurali.

Generazione di output

Alla fine, il modello dispone di informazioni contestuali sufficienti per informare i suoi output finali. La natura e la funzione del livello di output dipenderanno dall'attività specifica per cui è stato progettato il modello trasformativo.

Negli LLM autoregressivi, l'ultimo livello utilizza una funzione softmax per determinare la probabilità che la parola successiva corrisponda a ciascun token del suo vocabolario "database". A seconda degli specifici iperparametri di campionamento, il modello utilizza tali probabilità per stabilire il token successivo della sequenza di output.

Modelli Transformer nell'elaborazione del linguaggio naturale (NLP)

I modelli trasformativi sono più comunemente associati alla PNL, essendo stati originariamente sviluppati per casi d'uso della traduzione automatica. In particolare, l'architettura trasformativa ha dato origine ai Large Language Models (modelli linguistici di grandi dimensioni, LLM) che hanno catalizzato l'avvento dell'AI generativa.

La maggior parte degli LLM che il pubblico conosce meglio, dai modelli closed source come la serie GPT di OpenAI e i modelli Claude Claude di Anthropic ai modelli open source come Meta Llama o IBM® Granite® sono LLM che utilizzano solo decoder autoregressivi.

Gli LLM autoregressivi sono progettati per la generazione di testo, che si estende naturalmente anche ad attività adiacenti come il riepilogo e la risposta alle domande. Sono addestrati tramite l'apprendimento autosupervisionato, in cui al modello viene fornita la prima parola di un passaggio di testo e ha il compito di prevedere in modo iterativo la parola successiva fino alla fine della sequenza.

Le informazioni fornite dal meccanismo di autoattenzione consentono al modello di estrarre il contesto dalla sequenza di input e mantenere la coerenza e la continuità del suo output.

I modelli linguistici mascherati (MLM) codificatori-decodificatori, come BERT e i suoi numerosi derivati, rappresentano l'altro principale ramo evolutivo degli LLM basati su trasformatori. Durante l'addestramento, a un MLM viene fornito un campione di testo con alcuni token mascherati,nascosti, e incaricati di completare le informazioni mancanti.

Sebbene questa metodologia di addestramento sia meno efficace per la generazione di testo, aiuta i MLM a eccellere in attività che richiedono informazioni contestuali solide come la traduzione, la classificazione dei testi e l'apprendimento dell'embedding.

Modelli di trasformatori in altri campi

Sebbene i modelli trasformativi siano stati originariamente progettati e continuino ad essere principalmente associati ai casi d'uso del linguaggio naturale, possono essere utilizzati in quasi tutte le situazioni che coinvolgono dati sequenziali. Questo ha portato allo sviluppo di modelli basati su trasformatori in altri campi, dalla messa a punto degli LLM nei sistemi multimodali ai modelli di previsione di serie temporali dedicati e VIT per la computer vision.

Alcune modalità di dati sono più naturalmente adatte alla rappresentazione sequenziale compatibile con i trasformatori rispetto ad altre. Le serie temporali, i dati audio e video sono intrinsecamente sequenziali, mentre i dati delle immagini non lo sono. Nonostante ciò, i ViT e altri modelli basati sull'attenzione hanno raggiunto risultati all'avanguardia per numerose attività di computer vision, tra cui la scrittura di didascalie delle immagini, il rilevamento delle immagini, la segmentazione delle immagini e la risposta visiva alle domande.

Per utilizzare modelli trasformativi per dati non convenzionalmente considerati "sequenziali" è necessaria una soluzione concettuale per rappresentare tali dati come una sequenza. Ad esempio, per utilizzare i meccanismi di attenzione per comprendere i dati visivi, i VIT utilizzano le embedding delle patch per rendere i dati delle immagini interpretabili come sequenze.

Innanzitutto, un'immagine viene suddivisa in una serie di patch. Ad esempio, un'immagine di 224x224 pixel può essere suddivisa in 256 patch da 14x14 pixel, riducendo drasticamente il numero di passaggi computazionali necessari per elaborare l'immagine.
Successivamente, uno strato di proiezione lineare mappa ogni patch su un embedding.
Le informazioni sulla posizione vengono aggiunte a ciascuno di questi embedding di patch, in modo simile alla codifica posizionale descritta in precedenza in questo articolo.
Questi embeddings di patch ora possono funzionare essenzialmente come una sequenza di embedding di token, consentendo all'immagine di essere interpretata da un meccanismo di attenzione.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Risorse

Reti neurali da zero

Ottieni una comprensione approfondita delle reti neurali, delle loro funzioni di base e dei fondamenti per costruirne una.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

AI in Action 2024

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.

La guida del CEO all'AI generativa

Scopri come i CEO possono trovare il giusto equilibrio tra il valore che l'AI generativa può creare, gli investimenti che richiede e i rischi che introduce.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live

Note a piè di pagina

¹ Google’s BERT Rolls Out Worldwide (link esterno a ibm.com), Search Engine Journal, 9 dicembre 2019