Apa yang dimaksud dengan Model Transformer?

Penyusun

Staff Editor, AI Models

IBM Think

Senior Staff Writer, AI Models

IBM Think

Apa yang dimaksud dengan model transformator?

Model transformator adalah jenis arsitektur jaringan neural yang unggul dalam memproses data sekuensial, yang paling menonjol terkait dengan model bahasa besar (LLM). Model transformator juga telah mencapai kinerja elit di bidang kecerdasan buatan (AI) lainnya, seperti visi komputer, pengenalan suara, dan forecasting.

Arsitektur transformator pertama kali dijelaskan dalam makalah seminal tahun 2017 "Attention is All You Need" oleh Vaswani dan lainnya, yang sekarang dianggap sebagai momen penting dalam pembelajaran mendalam.

Awalnya diperkenalkan sebagai evolusi dari model sequence-to-sequence berbasis jaringan neural berulang (RNN)yang digunakan untuk terjemahan mesin, model berbasis transformator telah mencapai kemajuan mutakhir di hampir setiap disiplin machine learning (ML).

Terlepas dari keserbagunaannya, model transformator masih paling sering dibahas dalam konteks contoh penggunaan pemrosesan bahasa alami (NLP), seperti chatbots, pembuatan teks, peringkasan, penjawab pertanyaan, dan analisis sentimen.

Model encoder-decoder BERT (atau Bidirectional Encoder Representations from Transformers), yang diperkenalkan oleh Google pada tahun 2019, merupakan tonggak utama dalam pembentukan transformer dan tetap menjadi dasar dari sebagian besar aplikasi penyematan kata modern, mulai dari database vektor modern ke penelusuran Google.

LLM khusus decoder autoregresif, seperti model GPT-3 (kependekan dari Generative Pre-Trained Transformer) yang mendukung peluncuran ChatGPT OpenAI, mengkatalisis era modern AI generatif (gen AI).

Kemampuan model transformator untuk membedakan secara rumit bagaimana setiap bagian dari urutan data mempengaruhi dan berkorelasi dengan yang lain juga memberikan banyak penggunaan multimodal.

Misalnya, vision transformer (ViT) sering kali melebihi kinerja jaringan neural konvolusional (CNN) pada segmentasi gambar, deteksi objek, dan tugas terkait. Arsitektur transformator juga mendukung banyak model difusi yang digunakan untuk pembuatan gambar, multimodal Text to Speech (TTS) dan model bahasa visi (VLM).

Bergabunglah dengan lebih dari 100.000 pelanggan yang membaca berita terbaru di bidang teknologi

Dapatkan informasi terbaru tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan seterusnya dengan Buletin Think, yang disampaikan dua kali seminggu. Lihat Pernyataan Privasi IBM®.

Mengapa model transformator penting?

Fitur utama dari model transformator adalah mekanisme perhatian diri mereka, dari mana model transformator memperoleh kemampuan mengesankan mereka untuk mendeteksi hubungan (atau dependensi) antara setiap bagian dari urutan input. Tidak seperti arsitektur RNN dan CNN yang mendahuluinya, arsitektur transformator hanya menggunakan lapisan perhatian dan lapisan feedforward standar.

Manfaat perhatian diri, dan khususnya teknik perhatian multi-kepala yang digunakan model transformator untuk menghitungnya, adalah apa yang memungkinkan transformator untuk melebihi kinerja RNN dan CNN yang sebelumnya canggih.

Sebelum pengenalan model transformator, sebagian besar tugas NLP mengandalkan jaringan neural berulang atau neural networks (RNN). Cara RNN memproses data sekuensial secara inheren diserialisasi: mereka menyerap elemen-elemen dari urutan input satu per satu dan dalam urutan tertentu.

Hal ini menghalangi kemampuan RNN untuk menangkap ketergantungan jarak jauh, yang berarti RNN hanya dapat memproses urutan teks pendek secara efektif.
Kekurangan ini agak diatasi dengan pengenalan jaringan memori jangka pendek (LSTM), tetapi tetap menjadi kelemahan mendasar RNN.

Mekanisme perhatian, sebaliknya, dapat memeriksa seluruh urutan secara bersamaan dan membuat keputusan tentang bagaimana dan kapan untuk fokus pada langkah-langkah tertentu dari urutan tersebut.

Selain secara signifikan meningkatkan kemampuan untuk memahami ketergantungan jarak jauh, kualitas transformer ini juga memungkinkan paralelisasi: kemampuan untuk melakukan banyak langkah komputasi sekaligus, daripada secara serial.

Sangat cocok untuk paralelisme memungkinkan model transformator untuk mengambil keuntungan penuh dari kekuatan dan kecepatan yang ditawarkan oleh GPU selama pelatihan dan inferensi. Kemungkinan ini, pada gilirannya, membuka peluang untuk melatih model transformator pada kumpulan data besar yang belum pernah terjadi sebelumnya melalui pembelajaran yang diawasi sendiri.

Terutama untuk data visual, transformator juga menawarkan beberapa keunggulan dibandingkan neural networks. CNN pada dasarnya bersifat lokal, menggunakan konvolusi untuk memproses subset data input yang lebih kecil satu per satu.

Oleh karena itu, CNN juga kesulitan untuk melihat ketergantungan jarak jauh, seperti korelasi antara kata (dalam teks) atau piksel (dalam gambar) yang tidak saling berdekatan. Mekanisme perhatian tidak memiliki batasan ini.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Apa itu perhatian diri?

Memahami konsep matematis dari perhatian, dan lebih khusus lagi perhatian diri, sangat penting untuk memahami keberhasilan model transformator di berbagai bidang. Mekanisme perhatian, pada dasarnya, adalah algoritma yang dirancang untuk menentukan bagian mana dari urutan data yang harus “diperhatikan” model AI pada saat tertentu.

Pertimbangkan model bahasa yang menafsirkan teks bahasa Inggris "on Friday, the judge issued a sentence. "

Kata sebelumnya “the ” menunjukkan bahwa “judge ” bertindak sebagai kata benda—seperti, orang yang memimpin persidangan hukum—ketimbang kata kerja yang berarti menilai atau membentuk opini.
Konteks tersebut untuk kata “judge ” menunjukkan bahwa “sentence " mungkin mengacu pada hukuman hukum, bukan "kalimat" tata bahasa.
Kata "issued “lebih lanjut menyiratkan bahwa”sentence ” mengacu pada konsep hukum, bukan konsep tata bahasa.
Oleh karena itu, ketika menafsirkan kata “sentence ,” model harus memperhatikan “judge " dan "issued. " Ini juga harus memperhatikan kata "the .” Bisa juga kurang atau lebih mengabaikan kata-kata lain.

Bagaimana cara kerja perhatian diri?

Secara umum, lapisan perhatian model transformator menilai dan menggunakan konteks spesifik dari setiap bagian dari urutan data dalam 4 langkah:

Model ini "membaca" urutan data mentah dan mengubahnya menjadi embedding vektor, di mana setiap elemen dalam urutan tersebut diwakili oleh vektor fiturnya sendiri yang secara numerik mencerminkan kualitas seperti makna semantik.
Model tersebut menentukan kesamaan, korelasi, dan ketergantungan lainnya (atau ketiadaan kesamaan) antara setiap vektor dan setiap vektor lainnya. Pada sebagian besar model transformator, kepentingan relatif satu vektor terhadap vektor lainnya ditentukan dengan menghitung perkalian titik antara setiap vektor. Jika vektor selaras dengan baik, mengalikannya bersama-sama akan menghasilkan nilai yang besar. Jika tidak selaras, hasil perkalian titiknya akan kecil atau negatif.
"Skor keselarasan" ini dikonversi menjadi bobot perhatian .Hal ini dicapai dengan menggunakan skor penyelarasan sebagai input ke aktivasi softmax , yang menormalkan semua nilai ke kisaran antara 0-1 sehingga semuanya berjumlah total 1. Jadi, misalnya, memberikan bobot perhatian 0 antara "Vektor A" dan "Vektor B" berarti bahwa Vektor B harus diabaikan ketika membuat prediksi tentang Vektor A. Menetapkan Vektor B dengan bobot perhatian 1 berarti bahwa Vektor B harus menerima 100% perhatian model ketika membuat keputusan tentang Vektor A.
Bobot perhatian ini digunakan untuk menekankan atau mengurangi pengaruh elemen input tertentu pada waktu tertentu. Dengan kata lain, bobot perhatian membantu model transformator untuk fokus atau mengabaikan informasi tertentu pada saat tertentu.

Sebelum pelatihan, model transformator belum "tahu" bagaimana cara menghasilkan menanamkan vektor dan skor alignment yang optimal. Selama pelatihan, model membuat prediksi pada jutaan contoh yang diambil dari data pelatihannya, dan fungsi kerugian mengukur kesalahan dari setiap prediksi.

Melalui siklus berulang dalam membuat prediksi dan kemudian memperbarui bobot model melalui propagasi balik dan penurunan gradien, model "belajar" untuk menghasilkan menanamkan vektor, skor penyelarasan, dan bobot perhatian yang menghasilkan output yang akurat.

Bagaimana cara kerja model transformator?

Model transformator seperti database relasional menghasilkan vektor kueri, kunci,dan nilai untuk setiap bagian dari urutan data, dan menggunakannya untuk menghitung bobot perhatian melalui serangkaian perkalian matriks.

Basis data relasional dirancang untuk menyederhanakan penyimpanan dan pengambilan data dengan memberikan pengenal unik (atau “kunci”) untuk setiap data, yang mana tiap kunci kemudian dikaitkan dengan nilai yang sesuai. Makalah "Attention is All You Need" menerapkan kerangka kerja konseptual itu untuk memproses hubungan antara setiap token dalam urutan teks.

Vektor kueri mewakili informasi yang “dicari” oleh token tertentu. Dengan kata lain, vektor kueri token digunakan untuk menghitung bagaimana token lain dapat memengaruhi makna, konjugasi, atau konotasinya dalam konteks.
Vektor kunci mewakili informasi yang terkandung dalam setiap token. Penyelarasan antara kueri dan kunci digunakan untuk menghitung bobot perhatian yang mencerminkan seberapa relevan kueri dan kunci tersebut dalam konteks urutan teks tersebut.
Nilai (atau vektor nilai) "mengembalikan" informasi dari setiap vektor kunci, diskalakan berdasarkan bobot perhatian masing-masing. Kontribusi dari kunci yang sangat selaras dengan kueri akan diberi bobot lebih besar; kontribusi dari kunci yang tidak relevan dengan kueri akan diberi bobot mendekati nol.

Untuk LLM, “database” model adalah kosakata token yang telah dipelajari dari sampel teks dalam data pelatihannya. Mekanisme perhatiannya menggunakan informasi dari “database” ini untuk memahami konteks bahasa.

Tokenisasi dan penyematan input

Sementara karakter—huruf, angka, atau tanda baca—adalah unit dasar yang digunakan manusia untuk mewakili bahasa, unit bahasa terkecil yang digunakan model AI adalah token. Setiap token diberi nomor ID, dan nomor ID ini (bukan kata-kata atau bahkan token itu sendiri) adalah cara LLM menavigasi "basis data" kosakata mereka. Tokenisasi bahasa secara signifikan mengurangi daya komputasi yang diperlukan untuk memproses teks.

Untuk menghasilkan kueri dan vektor kunci untuk dimasukkan ke lapisan perhatian transformator, model memerlukan penyematan vektor awal tanpa konteks untuk setiap token. Penyematan token awal ini dapat dipelajari selama pelatihan atau diambil dari model embedding kata yang telah dilatih sebelumnya.

Pengodean posisi

Urutan dan posisi kata-kata dapat secara signifikan mempengaruhi makna semantiknya. Sedangkan sifat serial dari RNN secara inheren mempertahankan informasi tentang posisi setiap token, model transformator harus secara eksplisit menambahkan informasi posisi untuk dipertimbangkan oleh mekanisme perhatian.

Dengan pengodean posisi, model menambahkan vektor nilai ke setiap penyematan token, yang berasal dari posisi relatifnya, sebelum input memasuki mekanisme perhatian. Semakin dekat kedua token tersebut, semakin mirip vektor posisinya dan, oleh karena itu, skor penyelarasannya akan semakin meningkat dari penambahan informasi posisi. Dengan demikian, model tersebut belajar untuk lebih memperhatikan token di dekatnya.

Menghasilkan vektor kueri, kunci, dan nilai

Ketika informasi posisi telah ditambahkan, setiap token yang diperbarui digunakan untuk menanamkan tiga vektor baru. Vektor kueri, kunci , dan nilai ini dihasilkan dengan melewatkan penyematan token asli melalui setiap tiga lapisan jaringan neural umpan maju paralel yang mendahului lapisan perhatian pertama. Setiap subset paralel dari lapisan linier tersebut memiliki matriks bobot yang unik, yang dipelajari melalui prapelatihan mandiri pada kumpulan data teks yang sangat besar.

Penyematan dikalikan dengan matriks bobot W_Q untuk menghasilkan vektor kueri (Q), yang memiliki dimensi d_k
Penyematan dikalikan dengan matriks bobot W_K untuk menghasilkan vektor kunci (K), juga dengan dimensi d_k
Penyematan dikalikan dengan matriks bobot W_V untuk menghasilkan vektor nilai (V), dengan dimensi d_v

Diagram sederhana dari mekanisme perhatian transformator: penyematan vektor asli untuk token kalimat input dikalikan dengan matriks bobot W, K, dan V untuk menghasilkan vektor W, K dan V masing-masing.

Diagram mekanisme atensi model transformator

Menghitung perhatian diri

Fungsi utama mekanisme perhatian transformator adalah untuk memberikan bobot perhatian yang akurat pada pasangan vektor kueri setiap token dengan vektor kunci dari semua token lain dalam urutan. Ketika tercapai, Anda dapat memikirkan setiap token $x$ yang memiliki vektor bobot perhatian yang sesuai, di mana setiap elemen dari vektor tersebut mewakili sejauh mana beberapa token lain harus mempengaruhinya.

Vektor nilai masing-masing token sekarang dikalikan dengan bobot perhatiannya masing-masing.
Vektor nilai tertimbang perhatian ini semuanya dijumlahkan bersama. Vektor yang dihasilkan mewakili informasi kontekstual agregat yang diberikan ke token $x$ oleh semua token lain dalam urutan.
Akhirnya, vektor perubahan tertimbang perhatian yang dihasilkan dari setiap token ditambahkan ke token $x$ penyematan asli, vektor encoding pasca-posisi.

Intinya, $x$ penyematan vektor telah diperbarui untuk lebih mencerminkan konteks yang disediakan oleh token lain dalam urutan.

Perhatian multi-kepala

Untuk menangkap berbagai cara token dapat berhubungan satu sama lain, model transformator mengimplementasikan perhatian multi kepala di beberapa blok perhatian.

Sebelum dimasukkan ke dalam lapisan feedforward pertama, setiap penyematan token input asli dibagi menjadi h subset berukuran sama. Setiap bagian dari penyematan dimasukkan ke dalam salah satu dari h matriks paralel dengan bobot Q, K, dan V , yang masing-masing disebut kepala kueri , kepala kunci, atau kepala nilai. Vektor yang dihasilkan oleh masing-masing triplet paralel dari kueri, kunci dan kepala nilai kemudian dimasukkan ke dalam subbagian dari layer perhatian berikutnya, yang disebut kepala perhatian.

Diagram perhatian multi-kepala yang disederhanakan menjadi terkenal di "Attention is All You Need"

Di lapisan akhir dari setiap blok perhatian, output dari sirkuit paralel h ini akhirnya digabungkan kembali sebelum dikirim ke lapisan feedforward berikutnya. Dalam praktiknya, hasil pelatihan model di setiap sirkuit mempelajari bobot yang berbeda yang menangkap aspek makna semantik yang terpisah.

Hasil "Z" dari setiap kepala perhatian digabungkan bersama. Dalam contoh ini, h = 8.

Sambungan sisa dan normalisasi lapisan

Dalam beberapa situasi, meneruskan output penyematan yang diperbarui secara kontekstual oleh blok perhatian dapat mengakibatkan hilangnya informasi yang tidak dapat diterima dari urutan aslinya.

Untuk mengatasi hal ini, model transformator sering menyeimbangkan informasi kontekstual yang disediakan oleh mekanisme perhatian dengan makna semantik asli dari setiap token. Setelah subset yang diperbarui dengan perhatian dari penyematan token telah digabungkan kembali, vektor yang diperbarui kemudian ditambahkan ke penyematan vektor asli token (dikodekan posisi). Penyematan token asli dipasok oleh koneksi residual antara lapisan itu dan lapisan jaringan sebelumnya.

Vektor yang dihasilkan dimasukkan ke dalam lapisan feedforward linier lainnya, di mana vektor tersebut dinormalisasi kembali ke ukuran konstan sebelum diteruskan ke blok perhatian berikutnya. Bersama-sama, langkah-langkah ini membantu menjaga stabilitas dalam pelatihan dan membantu memastikan bahwa makna asli teks tidak hilang saat data pindah lebih dalam ke jaringan neural.

Menghasilkan hasil

Akhirnya, model memiliki cukup informasi kontekstual untuk menginformasikan output akhirnya. Sifat dan fungsi output akan bergantung pada tugas spesifik yang dirancang untuk model transformator.

Pada LLM autoregresif, lapisan terakhir menggunakan fungsi softmax untuk menentukan probabilitas bahwa kata berikutnya akan cocok dengan setiap token di dalam "basis data" kosa katanya. Bergantung pada hyperparameter sampling spesifik, model menggunakan probabilitas tersebut untuk menentukan token berikutnya dari output.

Model transformator dalam pemrosesan bahasa alami (NLP)

Model transformator paling sering dikaitkan dengan NLP, awalnya dikembangkan untuk contoh penggunaan terjemahan mesin. Terutama, arsitektur transformator memunculkan model bahasa besar (LLM) yang mengkatalisasi munculnya AI generatif.

Sebagian besar LLM yang paling dikenal masyarakat, dari model sumber tertutup seperti seri GPT OpenAI dan model Claude Anthropic hingga model sumber terbuka termasuk Meta Llama atau IBM Granite, adalah LLM dekoder autoregresif saja.

Autoregressive LLM dirancang untuk pembuatan teks, yang juga meluas secara alami ke tugas-tugas yang berdekatan seperti meringkas dan menjawab pertanyaan. Mereka dilatih melalui pembelajaran yang diawasi sendiri, di mana model ini diberikan kata pertama dari sebuah bagian teks dan ditugaskan untuk memprediksi kata berikutnya secara berulang-ulang hingga akhir urutan.

Informasi yang diberikan oleh mekanisme perhatian diri memungkinkan model untuk mengekstrak konteks dari urutan input dan mempertahankan koherensi dan kontinuitas dari output.

Model bahasa yang disembunyikan pengkode-dekoder (MLM), seperti BERT dan banyak turunannya, mewakili cabang evolusi utama lainnya dari LLM berbasis transformator. Dalam pelatihan, MLM diberikan sampel teks dengan beberapa token yang disembunyikan—tersembunyi—dan ditugaskan untuk menyelesaikan informasi yang hilang.

Meskipun metodologi pelatihan ini kurang efektif untuk pembuatan teks, metodologi ini membantu MLM unggul dalam tugas-tugas yang membutuhkan informasi kontekstual yang kuat, seperti penerjemahan, klasifikasi teks, dan penyematan.

Model transformator di bidang lain

Meskipun model transformator awalnya dirancang untuk contoh penggunaan, dan akan terus dikaitkan paling menonjol dengan contoh penggunaan bahasa alami, mereka dapat digunakan di hampir semua situasi yang melibatkan data berurutan. Hal ini telah mengarah pada pengembangan model berbasis transformator di bidang lain, mulai dari menyempurnakan LLM menjadi sistem multimodal hingga model forecasting seri waktu khusus dan ViTs untuk visi komputer.

Beberapa modalitas data lebih cocok secara alami untuk representasi sekuensial ramah transformator daripada yang lain. Data seri waktu, audio dan video secara inheren berurutan, sedangkan data gambar tidak. Meskipun demikian, ViT dan model berbasis perhatian lainnya telah mencapai hasil canggih untuk banyak tugas visi komputer, termasuk teks gambar, deteksi objek, segmentasi gambar, dan menjawab pertanyaan visual.

Untuk menggunakan model transformator untuk data yang tidak secara konvensional dianggap sebagai "berurutan" memerlukan solusi konseptual untuk merepresentasikan data tersebut sebagai sebuah urutan. Misalnya, untuk menggunakan mekanisme perhatian untuk memahami data visual, ViTs menggunakan penyematan patch untuk membuat data gambar dapat ditafsirkan sebagai urutan.

Pertama, gambar dibagi menjadi array patch. Contohnya, gambar 224x224 piksel dapat dibagi lagi menjadi 256 patch 14x14 piksel, yang secara dramatis mengurangi jumlah langkah komputasi yang diperlukan untuk memproses gambar.
Selanjutnya, lapisan proyeksi linier memetakan setiap patch ke penyematan vektor.
Informasi posisi ditambahkan ke masing-masing penyematan tambalan ini, serupa dengan pengodean posisi yang dijelaskan sebelumnya dalam artikel ini.
Penyematan ini sekarang pada dasarnya dapat berfungsi sebagai urutan penyematan token, memungkinkan gambar untuk ditafsirkan oleh mekanisme perhatian.

Buka kekuatan AI generatif dan ML

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa yang dimaksud dengan model transformer?