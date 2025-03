L'importante articolo "Attention is All You Need" ha illustrato il meccanismo di attenzione utilizzando la terminologia di un database relazionale: query,chiavi e valori. I database relazionali sono progettati per semplificare lo storage e il recupero di dati rilevanti: assegnano un identificatore univoco ("chiave") a ciascun dato e ogni chiave è associata a un valore corrispondente. Nell'NLP, il "database" di un modello è il vocabolario dei token che ha appreso dal suo set di dati di addestramento.

L'enorme influenza dell'articolo "Attention is All You Need" ha fatto sì che anche i precedenti meccanismi di attenzione venissero spesso descritti retroattivamente in questi termini. In generale, questa concezione dell'attenzione implica l'interazione tra tre tipi di rappresentazioni vettoriali per ogni token in una sequenza.

Il vettore di query rappresenta le informazioni che un determinato token sta cercando.

I vettori di chiave rappresentano le informazioni contenute in ogni token. L'allineamento tra query e chiave viene utilizzato per calcolare i pesi di attenzione.

Il valore (o vettore di valore) applica le informazioni ponderate in base all'attenzione dai vettori di chiave. I contributi provenienti da chiavi fortemente allineate a una query sono ponderati più pesantemente; i contributi provenienti da chiavi che non sono rilevanti per una query saranno ponderati più vicino allo zero.

Le varianti specifiche del meccanismo di attenzione si differenziano principalmente nel modo in cui i vettori vengono codificati, da come vengono calcolati i punteggi di allineamento e da come vengono applicati i pesi di attenzione per fornire al modello informazioni pertinenti.