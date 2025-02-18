L'auto-attenzione è un tipo di meccanismo di attenzione utilizzato nei modelli di apprendimento automatico. Questo meccanismo viene utilizzato per valutare l'importanza dei token o delle parole in una sequenza di input per comprendere meglio le relazioni tra di essi. È una parte cruciale dei modelli di trasformatori, una potente architettura di intelligenza artificiale essenziale per le attività di elaborazione del linguaggio naturale (NLP). L'architettura trasformativa è la base per la maggior parte dei moderni modelli linguistici di grandi dimensioni (LLM).

Il meccanismo di auto-attenzione è stato introdotto mediante il trasformatore, un modello di architettura di reti neurali proposto dai ricercatori. L'obiettivo dell'architettura proposta era affrontare le sfide dei modelli tradizionali di apprendimento automatico che utilizzano reti neurali a convoluzione (CNN) e reti neurali ricorrenti (RNN).1

I modelli sequenziali tradizionali seguono la stessa architettura encoder-decoder dei modelli di trasformatore, ma elaborano i dati step-by-step o sequence-to-sequence (seq2seq). Questa funzione rappresenta una sfida per la parallelizzazione, ovvero la capacità di ridurre i tempi di calcolo e migliorare la generazione di output calcolando contemporaneamente i pesi di attenzione su tutte le parti della sequenza di input.



L'auto-attenzione ha svolto un ruolo chiave nell'avanzamento degli LLM, consentendo la parallelizzazione all'interno degli esempi di formazione. Questo metodo è utile perché maggiore è la lunghezza della sequenza, maggiori sono i vincoli di memoria che limitano l'invio in batch tra gli esempi di training. Utilizzando l'auto-attenzione, i dati di addestramento degli LLM possono essere suddivisi in batch ed elaborati contemporaneamente su più GPU.1 L'auto-attenzione riduce la potenza di calcolo necessaria per addestrare modelli di machine learning con batching efficiente elaborato in parallelo.

L'attenzione personale non solo contribuisce a distribuire il carico computazionale in modo efficiente, ma abilita anche la capacità di elaborare i pesi dell'attenzione in modo simultaneo. Questa capacità consente al modello di concentrarsi sulle parti rilevanti di una sequenza di input per prevedere dinamicamente l'importanza di ogni elemento all'interno di una sequenza. L'attenzione personale è utile per attività di NLP come la traduzione automatica, l'analisi del sentiment e il riepilogo.