Apa itu perhatian diri?

Ilustrasi abstrak garis titik-titik merah pada latar belakang biru

Penyusun

AI Advocate & Technology Writer

Apa itu perhatian diri?

Perhatian diri adalah jenis mekanisme perhatian yang digunakan dalam model machine learning. Mekanisme ini digunakan untuk menimbang pentingnya token atau kata dalam urutan input untuk lebih memahami hubungan di antara mereka. Ini adalah bagian penting dari model transformator, arsitektur kecerdasan buatan yang efektif, yang penting untuk tugas pemrosesan bahasa alami (NLP). Arsitektur transformator adalah dasar untuk sebagian besar model bahasa besar (LLM) modern.

Mekanisme perhatian diri diperkenalkan melalui transformator, model arsitektur neural networks yang diusulkan oleh para peneliti. Tujuan dari arsitektur yang diusulkan adalah untuk mengatasi tantangan model machine learning tradisional yang menggunakan neural networks konvolusi (CNN) dan recurrent neural networks (RNN).¹

Model sekuensial tradisional mengikuti arsitektur encoder-decoder yang seperti model transformator, tetapi memproses data langkah demi langkah atau sesuai urutan (seq2seq). Fungsi ini menimbulkan tantangan untuk paralelisasi, yaitu kemampuan untuk mengurangi waktu komputasi dan meningkatkan output pembuatan dengan menghitung bobot perhatian di semua bagian urutan input secara bersamaan.

Perhatian diri memainkan peran kunci dalam kemajuan LLM dengan memungkinkan paralelisasi dalam contoh pelatihan. Metode ini berguna karena semakin panjang suatu panjang urutan, semakin banyak batasan memori yang membatasi pengelompokan di seluruh contoh pelatihan. Dengan menggunakan perhatian diri, data pelatihan LLM dapat dibagi menjadi beberapa kelompok dan diproses secara bersamaan pada beberapa GPU.¹ Perhatian diri mengurangi daya komputasi yang diperlukan untuk melatih model machine learning dengan pengelompokan yang efisien yang diproses secara paralel.

Tidak hanya memberikan kontribusi untuk mendistribusikan beban komputasi secara efisien, tetapi mekanisme ini juga memungkinkan kemampuan untuk memproses bobot perhatian secara bersamaan. Kemampuan ini memungkinkan model untuk berfokus pada bagian yang relevan dari urutan input untuk secara dinamis memprediksi pentingnya setiap elemen dalam urutan. Perhatian diri baik untuk tugas-tugas NLP seperti penerjemahan mesin, analisis sentimen, dan peringkasan.

Bagaimana cara kerja perhatian diri?

Perhatian diri dalam model machine learning mirip dengan konsep perilaku manusia karena keduanya melibatkan fokus pada elemen yang relevan dalam konteks yang lebih besar untuk memproses informasi secara akurat. Dalam psikologi, ini adalah tentang berfokus pada pikiran atau perilaku Anda sendiri, sedangkan dalam pembelajaran mendalam, ini adalah tentang berfokus pada bagian yang relevan dari urutan input.

Arsitektur transformator mencakup lapisan perhatian diri di mana proses perhatian terintegrasi. Langkah-langkahnya dijelaskan seperti yang disajikan dalam makalah oleh Ashish Vaswani et al. yang memperkenalkan lapisan perhatian diri "Perhatian adalah yang Anda Butuhkan."

Menanamkan urutan input

Urutan input adalah serangkaian titik data yang divektorisasi ke penanaman, atau representasi numerik, yang dapat digunakan machine learning untuk menghitung skor perhatian yang diperlukan untuk menghasilkan urutan output.

Dalam penerjemahan mesin, kalimat akan dianggap sebagai urutan input, di mana setiap bagian dari kalimat dianggap sebagai titik data atau token input. Token diubah menjadi penanaman yang bertindak sebagai unit semantik yang dapat diproses oleh model.² Penanaman digunakan untuk menghitung bobot perhatian yang membantu model memprioritaskan (atau memperhatikan) data input yang paling relevan.

Menghasilkan vektor untuk fungsi perhatian

Model menggunakan penanaman ini untuk menghasilkan tiga vektor kunci untuk setiap token: kueri (Q), kunci (K), dan nilai (V). Semua nilai ini akan digunakan untuk membantu model membuat kecocokan semantik terkuat dalam kalimat input.

Perkalian matriks dilakukan untuk mendapatkan vektor kueri, kunci, dan nilai. Mekanisme perhatian menghitung jumlah tertimbang dari nilai berdasarkan matriks bobot masing-masing komponen kueri, kunci, dan nilai, serta input yang ditanam.¹ Proses ini dikenal sebagai transformasi linier.

Menghitung skor perhatian

Setelah penanaman diubah, skor perhatian untuk setiap elemen dalam urutan dihitung. Skor perhatian diperoleh dengan mengambil skor perhatian perkalian titik berskala antara vektor kueri dan vektor kunci. Bobot perhatian ini menunjukkan seberapa besar fokus (atau perhatian) yang harus diberikan oleh token tertentu kepada token lain dalam sebuah urutan.

Selanjutnya, skor perhatian diskalakan oleh akar kuadrat dari dimensionalitas vektor kunci. Proses ini membantu menstabilkan gradien dan mencegahnya tumbuh terlalu besar untuk dihitung secara efisien saat dimensionalitas vektor meningkat.

Mengubah skor perhatian menjadi probabilitas

Skor perhatian yang diperoleh melalui perkalian titik dari vektor kueri dan vektor kunci ditransformasikan ke dalam probabilitas menggunakan fungsi softmax. Proses ini disebut normalisasi.

Dengan probabilitas yang dinormalisasi ini, blok perhatian softmax memungkinkan arsitektur transformator memiliki kemampuan untuk mengevaluasi pentingnya tiap elemen input selama pembuatan output.³ Probabilitas ini digunakan untuk menemukan kepentingan relatif dari setiap elemen dalam urutan. Model perhatian menggunakan bobot yang dinormalisasi ini untuk memutuskan bagian input mana yang akan difokuskan.

Akhirnya, bobot perhatian yang diperoleh dari proses ini berkontribusi pada jumlah tertimbang akhir dari vektor nilai. Semakin tinggi skor perhatian, semakin banyak bobot perhatian yang dimiliki urutan tersebut. Ini berarti urutan itu akan memiliki lebih banyak pengaruh pada output akhir dari jumlah tertimbang vektor nilai.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Model perhatian meningkatkan pemahaman konteks

Model perhatian efektif dalam menangkap ketergantungan rentang jauh terlepas dari jarak antara setiap elemen, atau token, dalam suatu urutan. Perhatian multiheaded adalah perpanjangan penting dari perhatian diri yang meningkatkan fungsionalitas utama ini dengan memperhatikan elemen yang berbeda dalam kumpulan data input secara bersamaan. Model dapat memperhatikan aspek atau hubungan yang berbeda dalam data sekaligus, memungkinkan lebih banyak konteks yang dapat ditarik antara dependensi atau token.

Model dua arah awal seperti representasi encoder dua arah dari transformator (BERT) meningkatkan pemahaman konteks dengan memungkinkan model untuk mempertimbangkan informasi dari urutan maju dan mundur. Dalam perhatian dua arah, model ini bertujuan untuk memahami arti sebuah kata berdasarkan kata-kata di sekitarnya.⁴

Model GPT memopulerkan perhatian diri, menyoroti manfaat jendela konteks yang diperluas untuk tugas-tugas generatif. Kemampuan untuk memproses lebih banyak informasi sekaligus mengarah pada peningkatan akurasi dan pemahaman.

Model AI menggunakan perhatian diri untuk memproses urutan input yang panjang secara efisien, bertukar informasi perhatian dalam skala besar, sekaligus mengurangi penggunaan memori.⁵ Perhatian diri memungkinkan model untuk mendapatkan pemahaman kontekstual yang lebih dalam dengan menggunakan jendela konteks di dalam model. Semakin besar jendela konteks, semakin besar jumlah token yang dapat diperhatikan model pada satu waktu.

Contoh penggunaan

Tugas NLP: Mekanisme perhatian diri meningkatkan kemampuan linguistik model machine learning dengan memungkinkan analisis yang efisien dan lengkap atas seluruh teks. Riset telah menunjukkan kemajuan dalam klasifikasi sentimen.⁶ Model dapat melakukan tugas-tugas NLP dengan baik karena lapisan perhatian memungkinkannya untuk menghitung hubungan antara kata-kata terlepas dari jarak di antara mereka.⁷

Visi komputer: Penggunaan mekanisme perhatian diri tidak hanya untuk tugas NLP. Ini dapat digunakan untuk berfokus pada bagian-bagian tertentu dari gambar. Perkembangan dalam model pengenalan gambar menunjukkan bahwa perhatian diri merupakan komponen penting untuk meningkatkan ketahanan dan generalisasi.⁸

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Catatan kaki

1. “Attention Is All You Need,” Ashish Vaswani et al., Prosiding dari Konferensi Internasional ke-31 tentang Sistem Pemrosesan Informasi Neural, arXiv:1706.03762v7, direvisi pada 2 Agustus 2023.

2. “Tokenization,” esai, dalam Introduction to Information Retrieval, Christopher Manning, Prabhakar Raghavan, dan Hinrich Schutze, 2008.

3. “Rethinking Softmax: Self-Attention with Polynomial Activations,” Hemanth Saratchandran et al., Australian Institute of Machine Learning, University of Adelaide, arXiv:2410.18613v1, 24 Oktober 2024.

4. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” Jacob Devlin et al., arXiv:1810.04805v2, direvisi pada 24 Mei 2019.

5. “Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective,” Zhiyuan Zeng et al., arXiv:2412.14135, 18 Desember 2024.

6. “Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification,” Weijiang Li et al., Neurocomputing Vol 387, 28 April 2020.

7. “Parallel Scheduling Self-attention Mechanism: Generalization and Optimization,” Mingfei Yu dan Masahiro Fujita, arXiv:2012.01114v1, 2 December 2020.

8. “Exploring Self-attention for Image Recognition,” Hengshuang Zhao, Jiaya Jia dan Vladlen Koltun, Prosiding dari konferensi IEEE/CVF tentang visi komputer dan pengenalan pola, 2020.

Sumber daya

Apa itu penyematan vektor?

Topik terkait

Memulai

Apa mekanisme perhatian?

Topik terkait

Memulai

Apa yang dimaksud dengan model transformer?

Topik terkait

Memulai

Apa itu kumpulan data?

Topik terkait

Memulai

Solusi terkait

IBM® watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai

Pesan demo langsung