Pada lapisan perhatian, vektor Q, K dan V digunakan untuk menghitung skor keselarasan antara setiap token pada setiap posisi dalam sebuah urutan. Skor penyelarasan tersebut kemudian dinormalisasi menjadi bobot perhatian menggunakan fungsi softmax.
Untuk setiap token x dalam sebuah urutan, skor perataan dihitung dengan menghitung dot product dari vektor kueri token tersebut, Qx, dengan vektor kunci K dari setiap token lainnya: dengan kata lain, dengan mengalikan keduanya. Jika hubungan yang berarti antara 2 token tercermin dalam kemiripan antara vektor masing-masing, mengalikannya bersama-sama akan menghasilkan nilai yang besar. Jika kedua vektor tidak sejajar, mengalikannya akan menghasilkan nilai yang kecil atau negatif. Sebagian besar model transformator menggunakan varian yang disebut perhatian produk titik berskala, di mana QK diskalakan-yaitu, dikalikan dengan untuk meningkatkan stabilitas pelatihan.
Skor penyelarasan kunci kueri ini kemudian diketik ke dalam fungsi softmax. Softmax menormalkan semua input ke nilai antara 0 dan 1 sehingga semuanya berjumlah 1. Hasil dari fungsi softmax adalah bobot perhatian, masing-masing mewakili bagian (dari 1) perhatian tokenyang harus dibayarkan ke masing-masing token lainnya. Jika bobot perhatian token mendekati 0, maka akan diabaikan. Bobot perhatian 1 berarti token menerima seluruh perhatian xdan yang lainnya akan diabaikan.
Akhirnya, vektor nilai untuk setiap token dikalikan dengan bobot perhatiannya. Kontribusi berbobot perhatian dari setiap token sebelumnya dirata-ratakan dan ditambahkan ke penyematan vektor asli untuk token x. Dengan ini, penyematan token xsekarang diperbarui untuk mencerminkan konteks yang disediakan oleh token lain dalam urutan yang relevan dengannya.
Vektor penyematan yang diperbarui kemudian dikirim ke lapisan linier berikutnya dengan matriks bobotnya sendiri, WZ, vektor konteks dinormalisasi agar memiliki jumlah dimensi yang konsisten sebelum diteruskan ke lapisan perhatian selanjutnya. Setiap lapisan perhatian berikutnya menangkap nuansa kontekstual yang lebih mendalam.