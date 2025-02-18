Perhatian diri adalah jenis mekanisme perhatian yang digunakan dalam model machine learning. Mekanisme ini digunakan untuk menimbang pentingnya token atau kata dalam urutan input untuk lebih memahami hubungan di antara mereka. Ini adalah bagian penting dari model transformator, arsitektur kecerdasan buatan yang efektif, yang penting untuk tugas pemrosesan bahasa alami (NLP). Arsitektur transformator adalah dasar untuk sebagian besar model bahasa besar (LLM) modern.

Mekanisme perhatian diri diperkenalkan melalui transformator, model arsitektur neural networks yang diusulkan oleh para peneliti. Tujuan dari arsitektur yang diusulkan adalah untuk mengatasi tantangan model machine learning tradisional yang menggunakan neural networks konvolusi (CNN) dan recurrent neural networks (RNN).1

Model sekuensial tradisional mengikuti arsitektur encoder-decoder yang seperti model transformator, tetapi memproses data langkah demi langkah atau sesuai urutan (seq2seq). Fungsi ini menimbulkan tantangan untuk paralelisasi, yaitu kemampuan untuk mengurangi waktu komputasi dan meningkatkan output pembuatan dengan menghitung bobot perhatian di semua bagian urutan input secara bersamaan.



Perhatian diri memainkan peran kunci dalam kemajuan LLM dengan memungkinkan paralelisasi dalam contoh pelatihan. Metode ini berguna karena semakin panjang suatu panjang urutan, semakin banyak batasan memori yang membatasi pengelompokan di seluruh contoh pelatihan. Dengan menggunakan perhatian diri, data pelatihan LLM dapat dibagi menjadi beberapa kelompok dan diproses secara bersamaan pada beberapa GPU.1 Perhatian diri mengurangi daya komputasi yang diperlukan untuk melatih model machine learning dengan pengelompokan yang efisien yang diproses secara paralel.

Tidak hanya memberikan kontribusi untuk mendistribusikan beban komputasi secara efisien, tetapi mekanisme ini juga memungkinkan kemampuan untuk memproses bobot perhatian secara bersamaan. Kemampuan ini memungkinkan model untuk berfokus pada bagian yang relevan dari urutan input untuk secara dinamis memprediksi pentingnya setiap elemen dalam urutan. Perhatian diri baik untuk tugas-tugas NLP seperti penerjemahan mesin, analisis sentimen, dan peringkasan.