Mekanisme perhatian Badhanau dirancang khusus untuk penerjemahan mesin. Mekanisme ini menggunakan RNN dua arah untuk mengkodekan setiap token input, memproses urutan input dalam arah maju dan mundur, serta menggabungkan hasil. Pendekatan ini sangat berguna ketika, misalnya, bahasa asli dan bahasa terjemahan memiliki konvensi pengurutan yang berbeda untuk kata benda dan kata sifat.
Pada setiap langkah waktu dalam proses penerjemahan, keadaan tersembunyi decoder berfungsi sebagai vektor kueri, sementara keadaan tersembunyi encoder di setiap langkah dalam kalimat sumber berperan sebagai vektor kunci.
Skor keselarasan kemudian dihitung oleh neural networks sederhana, yaitu lapisan perhatian, yang dilatih bersama model lainnya. Lapisan perhatian ini terdiri atas tiga subset bobot model yang dapat dipelajari: bobot kueri untuk status tersembunyi decoder (“Wq”), bobot kunci untuk status tersembunyi encoder (“Wk”) , dan bobot nilai untuk menskalakan hasil akhir (“wv”). Bobot ini adalah “pengetahuan” model: dengan menyesuaikan nilai spesifik dari bobot tersebut selama pelatihan untuk meminimalkan fungsi kerugian, model belajar membuat terjemahan yang akurat.
Pada setiap langkah, perhatian aditif bekerja sebagai berikut:
- Vektor kueri (dikalikan dengan Wq) ditambahkan ke vektor kunci (dikalikan dengan Wk). Jika keduanya selaras, menggabungkan keduanya akan menghasilkan nilai yang besar. Jika keduanya tidak relevan satu sama lain, menggabungkan keduanya akan menghasilkan nilai yang kecil atau nilai negatif.
- Angka yang dihasilkan diinput ke a fungsi aktivasi, yang memetakan semua input ke angka antara -1 dan 1.
- Hasil dari fungsi tersebut kemudian dikalikan dengan nilai bobot wv. Ini menghasilkan skor penyelarasan antara vektor kueri dan vektor kunci tersebut.
- Skor penyelarasan kemudian dimasukkan ke dalam fungsi softmax yang menghasilkan bobot perhatian untuk vektor utama tersebut.
Vektor konteks yang digunakan decoder untuk menghasilkan terjemahan dihitung sebagai jumlah berbobot dari setiap vektor kunci. Salah satu keunggulan perhatian aditif adalah kemampuannya menangani vektor kueri dan vektor kunci dengan panjang yang sama