Apa itu Penyematan Vektor?

Penyusun

Senior Staff Writer, AI Models

IBM Think

Staff Editor, AI Models

IBM Think

Apa itu penyematan vektor?

Penyematan vektor adalah representasi numerik dari titik data yang menggambarkan berbagai jenis data, termasuk data nonmatematis seperti kata atau gambar, sebagai array angka yang dapat diproses oleh machine learning (ML) model.

Model kecerdasan buatan (AI), dari algoritme regresi linier sederhana hingga jaringan neural rumit yang digunakan dalam pembelajaran mendalam, beroperasi melalui logika matematika. Data apa pun yang digunakan oleh model AI, termasuk data yang tidak terstruktur seperti teks, audio, atau gambar, harus dinyatakan secara numerik. Penyematan vektor adalah cara mengubah titik data yang tidak terstruktur menjadi array angka yang masih mengungkap makna asli data tersebut.

Model pelatihan untuk menghasilkan representasi vektor dari titik data yang sesuai secara bermakna dengan fitur dunia nyata mereka memungkinkan kita membuat asumsi yang berguna tentang bagaimana penyematan vektor berhubungan satu sama lain. Secara intuitif, semakin mirip dua titik data dunia nyata, semakin mirip pula penyematan vektornya. Fitur atau kualitas yang dimiliki oleh dua titik data harus tercermin dalam kedua penyematan vektornya. Titik data yang berbeda harus memiliki penyematan vektor yang berbeda.

Berbekal asumsi logis seperti itu, penyematan vektor dapat digunakan sebagai input untuk model yang melakukan tugas-tugas dunia nyata yang berguna melalui operasi matematika yang membandingkan, mengubah, menggabungkan, mengurutkan, atau memanipulasi representasi numerik tersebut.

Mengekspresikan titik data sebagai vektor juga memungkinkan interoperabilitas berbagai jenis data, yang bertindak sebagai semacam bahasa pengantar antara format data yang berbeda dengan merepresentasikannya dalam ruang penyematan yang sama. Misalnya, asisten suara smartphone “menerjemahkan” input audio pengguna ke dalam penyematan vektor, yang pada gilirannya menggunakan penyematan vektor untuk pemrosesan bahasa alami (NLP) dari input itu.

Dengan demikian, menanamkan vektor mendukung hampir semua machine learning, memberdayakan model yang digunakan di bidang NLP dan visi komputer, dan berfungsi sebagai blok bangunan mendasar AI generatif.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Apa itu vektor?

Vektor termasuk dalam kategori tensor yang lebih besar. Dalam machine learning (ML), “tensor” digunakan sebagai istilah umum untuk array angka, atau array dari array angka, dalam ruang berdimensi n, yang berfungsi seperti perangkat pembukuan matematika untuk data.

Perlu diperhatikan bahwa kata-kata tertentu digunakan secara berbeda dalam konteks ML dibandingkan dengan bahasa sehari-hari atau pengaturan matematika lainnya. "Vektor" itu sendiri, misalnya, memiliki konotasi yang lebih spesifik dalam fisika—di mana biasanya mengacu pada kuantitas dengan besaran dan arah—dibandingkan dengan ML.

Demikian juga, kata “dimensi” memiliki implikasi yang berbeda dalam ML, tergantung pada konteksnya. Ketika menggambarkan tensor, ini mengacu pada berapa banyak array yang mengandung tensor. Saat mendeskripsikan vektor, itu mengacu pada berapa banyak komponen—angka individu—yang terkandung dalam vektor itu. Istilah analog seperti “urutan” atau “derajat” dapat membantu mengurangi ambiguitas.

Skalar adalah tensor berdimensi nol, yang berisi satu angka. Misalnya, sistem pemodelan data cuaca mungkin merepresentasikan suhu tinggi satu hari (dalam Celsius) dalam bentuk skalar sebagai 33.33 .
Vektor adalah tensor satu dimensi (atau tingkat pertama atau urutan pertama), yang berisi beberapa skalar dari jenis data yang sama. Sebagai contoh, model cuaca dapat merepresentasikan suhu rendah, rata-rata, dan tinggi pada satu hari dalam bentuk vektor sebagai (25, 30, 33) . Setiap komponen skalar adalah fitur—yang merupakan dimensi—dari vektor, yang sesuai dengan fitur cuaca hari itu.
Tuple adalah tensor tingkat pertama yang berisi skalar lebih dari satu jenis data. Misalnya, nama, usia, dan tinggi seseorang (dalam inci) dapat direpresentasikan dalam bentuk tupel sebagai (Jane, Smith, 31, 65) .
Matriks adalah tensor dua dimensi (atau tingkat kedua atau urutan kedua), yang berisi beberapa vektor dengan jenis data yang sama. Ini dapat divisualisasikan secara intuitif sebagai grid skalar dua dimensi di mana setiap baris atau kolom adalah vektor. Misalnya, model cuaca itu mungkin menggambarkan keseluruhan bulan Juni sebagai matriks 3x30, yang tiap barisnya merupakan vektor fitur yang menggambarkan suhu terendah, rata-rata, dan tertinggi untuk setiap harinya.
Tensor dengan tiga dimensi atau lebih, seperti tensor 3 dimensi yang digunakan untuk merepresentasikan gambar warna dalam algoritma visi komputer, disebut sebagai array multidimensi atau tensor berdimensi N.

Berbagai transformasi langsung juga dapat diterapkan pada matriks atau tensor berdimensi n lainnya untuk merepresentasikan data di dalamnya dalam bentuk vektor. Misalnya, matriks 4x4 dapat diratakan menjadi vektor 16 dimensi; tensor 3 dimensi dari gambar piksel 4x4 dapat diratakan menjadi vektor 48 dimensi. Penyematan sebagian besar mengambil bentuk vektor dalam ML modern.

Vektor versus penyematan:

Meskipun istilah tersebut sering digunakan secara bergantian dalam ML, “vektor” dan “penyematan” belum tentu sama.

Penyematan adalah representasi numerik dari data yang menangkap kualitas yang relevan dengan cara yang dapat diproses oleh algoritme ML. Data disematkan dalam ruang berdimensi n.

Secara teori, data tidak harus disematkan sebagai vektor, secara khusus. Contohnya, beberapa jenis data dapat disematkan dalam bentuk tuple.¹ Tetapi dalam praktiknya, penyematan sebagian besar mengambil bentuk vektor dalam ML modern.

Sebaliknya, vektor dalam konteks lain, seperti fisika, belum tentu merupakan penyematan. Tetapi dalam ML, vektor biasanya disematkan dan penyematan biasanya adalah vektor.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Bagaimana cara kerja penyematan vektor?

Penyematan vektor mengubah titik data, seperti kata, kalimat, atau gambar, menjadi array angka berdimensi nyang mewakili karakteristik titik data tersebut, yaitu fitur-fiturnya. Hal ini dicapai dengan melatih model penyematan pada kumpulan data besar yang relevan dengan tugas yang sedang dikerjakan atau dengan menggunakan model yang telah dilatih sebelumnya.

Untuk memahami penyematan vektor, diperlukan penjelasan mengenai beberapa konsep utama:

Bagaimana penyematan vektor mewakili data.
Bagaimana penyematan vektor dapat dibandingkan.
Bagaimana model dapat digunakan untuk menghasilkan penyematan vektor.

Cara penyematan vektor merepresentasikan data

Dalam machine learning, “dimensi” data tidak mengacu pada dimensi ruang fisik yang akrab dan intuitif. Dalam ruang vektor, setiap dimensi sesuai dengan fitur data individu, dengan cara yang sama seperti panjang, lebar, dan kedalaman adalah masing-masing fitur objek dalam ruang fisik.

Penyematan vektor biasanya berurusan dengan data dimensi tinggi karena, dalam praktiknya, sebagian besar informasi nonnumerik dimensi tinggi. Misalnya, bahkan gambar hitam-putih kecil 28x28 piksel sederhana dari digit tulisan tangan dari kumpulan data MNIST dapat direpresentasikan sebagai vektor 784 dimensi di mana setiap dimensi sesuai dengan piksel individu yang nilai skala abu-abunya berkisar dari 0 (untuk hitam) hingga 1 (untuk putih).

Namun demikian, tidak semua dimensi data tersebut mengandung informasi yang berguna. Dalam contoh MNIST kami, angka yang sesungguhnya hanya mewakili sebagian kecil gambar: sisanya adalah latar belakang kosong, atau "derau". Lebih akurat untuk mengatakan bahwa kita “menyematkan representasi gambar ke ruang 784 dimensi” daripada mengatakan bahwa kita “merepresentasikan 784 fitur berbeda dari gambar”.

Oleh karena itu, penyematan vektor yang efisien pada data berdimensi tinggi sering kali memerlukan pengurangan dimensi: kompresi data berdimensi tinggi ke ruang berdimensi lebih rendah yang menghilangkan informasi yang tidak relevan atau berlebihan.

Pengurangan dimensi meningkatkan kecepatan dan efisiensi model, meskipun dengan potensi pengorbanan dalam akurasi atau presisi, karena vektor yang lebih kecil membutuhkan daya komputasi yang lebih sedikit untuk operasi matematika. Ini juga dapat membantu mengurangi risiko overfitting data pelatihan. Metode pengurangan dimensi yang berbeda, seperti autoencoder, convolutions, analisis komponen utama, dan T-distributed Stochastic Neighbor Embedding (t-SNE), paling cocok untuk berbagai jenis data dan tugas.

Sedangkan dimensi data vektor gambar relatif objektif dan intuitif, menentukan fitur yang relevan dari beberapa modalitas data seperti makna semantik dan hubungan kontekstual bahasa, lebih abstrak atau subjektif. Dalam kasus seperti itu, fitur spesifik yang diwakili oleh dimensi penyematan vektor dapat ditetapkan melalui rekayasa fitur manual atau, lebih umum di era pembelajaran mendalam, ditentukan secara implisit melalui proses melatih model untuk membuat prediksi yang akurat.

Cara membandingkan penyematan vektor

Logika inti dari penyematan vektor adalah bahwa penyematan berdimensi ndari titik data yang serupa harus dikelompokkan secara berdekatan dalam ruang berdimensi n. Namun, penyematan dapat memiliki lusinan, ratusan atau bahkan ribuan dimensi. Hal ini jauh melampaui ruang 2 atau 3 dimensi di mana pikiran kita secara intuitif dapat memvisualisasikan benda-benda yang "dekat" satu sama lain.

Sebagai gantinya, salah satu dari beberapa ukuran matematis dapat digunakan untuk menyimpulkan kemiripan atau kedekatan relatif dari berbagai menanamkan vektor yang berbeda. Ukuran kemiripan terbaik untuk situasi tertentu sangat bergantung pada sifat data dan untuk apa perbandingan tersebut digunakan.

Jarak Euclidian mengukur jarak garis lurus rata-rata antara titik-titik yang sesuai dari vektor yang berbeda. Perbedaan antara dua vektor n-dimensional a dan b dihitung dengan terlebih dahulu menambahkan kuadrat dari perbedaan antara masing-masing komponen yang sesuai—jadi,(a₁–b₁)² + (a₂–b₂)² + ... (a_n–b_n)² —dan kemudian mengambil akar kuadrat dari jumlah itu. Karena jarak Euclidian sensitif terhadap besaran, ini berguna untuk data yang mencerminkan hal-hal seperti ukuran atau jumlah. Nilai berkisar dari 0 (untuk vektor identik) hingga ∞.
Jarak kosinus, juga disebut kesamaan kosinus, adalah ukuran yang dinormalisasi dari kosinus sudut antara dua vektor. Jarak kosinus berkisar antara -1 hingga 1, di mana 1 mewakili vektor yang identik, 0 mewakili vektor ortogonal (atau tidak berhubungan), dan -1 mewakili vektor yang sepenuhnya berlawanan. Cosine similarity digunakan secara luas dalam tugas-tugas NLP karena secara alami menormalkan besaran vektor, yang membuatnya kurang sensitif terhadap frekuensi relatif kata-kata dalam data pelatihan daripada jarak Euclidian.
Produk titik, secara aljabar, adalah jumlah produk dari komponen yang sesuai dari setiap vektor. Secara geometris, ini adalah versi jarak kosinus yang tidak dinormalisasi yang juga mencerminkan frekuensi atau besarnya.

Metrik kesamaan untuk menyematkan vektor

Rumus matematika dan visualisasi metrik kesamaan vektor umum.

Menyematkan model

Model penyematan yang terpisah mungkin merupakan penawaran yang telah dilatih sebelumnya atau dilatih dari awal pada tugas atau data pelatihan tertentu . Setiap bentuk data biasanya mendapat manfaat dari arsitektur neural network tertentu, tetapi penggunaan algoritma khusus untuk tugas tertentu sering kali merupakan praktik terbaik, bukan aturan eksplisit.

Dalam beberapa skenario, proses menanamkan adalah bagian terintegrasi dari Neural Networks yang lebih besar. Misalnya, dalam convolutional neural network (CNN) encoder-decoder yang digunakan untuk tugas seperti segmentasi gambar, optimasi seluruh jaringan untuk membuat prediksi yang tepat melibatkan pelatihan lapisan encoder untuk menghasilkan penyematan vektor yang efektif dari gambar input.

Model terlatih
Untuk banyak contoh penggunaan dan bidang studi, model terlatih dapat memberikan penyematan yang berguna yang dapat berfungsi sebagai input untuk model khusus atau basis data vektor. Model sumber terbuka umumnya dilatih pada kumpulan data pelatihan yang besar dan luas untuk mempelajari penyematan yang berguna untuk banyak tugas hilir, seperti few-shot learning atau zero-shot learning.

Untuk data teks, model penyematan kata sumber terbuka dasar seperti Word2Vec Google atau Global Vectors (GLove) Universitas Stanford dapat dilatih dari awal, tetapi juga ditawarkan dalam varian yang terlatih dengan data teks publik seperti Wikipedia dan Common Crawl. Demikian pula, model bahasa besar (LLM) encoder-decoder yang sering digunakan untuk penyematan, seperti BERT dan berbagai variannya, telah dilatih pada jumlah teks yang cukup besar.

Untuk tugas-tugas visi komputer, model klasifikasi gambar yang sudah terlatih seperti ImageNet, ResNet atau VGG dapat diadaptasi untuk penyematan hasil dengan hanya menghapus lapisan prediksi akhir yang terhubung sepenuhnya.

Model penyematan khusus
Beberapa contoh penggunaan, terutama yang melibatkan konsep esoterik atau kelas data baru, mendapat manfaat dari fine tuning model terlatih atau pelatihan model penyematan yang sepenuhnya disesuaikan.

Domain hukum dan medis adalah contoh menonjol dari bidang yang sering mengandalkan kosakata, basis pengetahuan, atau citra esoteris dan sangat khusus, yang tidak mungkin dimasukkan dalam data pelatihan model yang lebih umum. Melengkapi pengetahuan dasar tentang model yang telah dilatih sebelumnya melalui pelatihan lebih lanjut tentang contoh khusus domain dapat membantu model menghasilkan penyematan yang lebih efektif.

Meskipun hal ini juga dapat dicapai melalui perancangan arsitektur jaringan neural yang dibuat khusus atau melatih arsitektur yang dikenal dari awal, hal itu memerlukan sumber daya dan pengetahuan kelembagaan yang mungkin berada di luar jangkauan sebagian besar organisasi atau penghobi.

Penyematan vektor untuk gambar

Penyematan gambar mengubah informasi visual menjadi vektor numerik dengan menggunakan nilai piksel gambar yang sesuai dengan komponen vektor. Mereka biasanya mengandalkan CNN, meskipun beberapa tahun terakhir ini semakin banyak model visi komputer yang menggunakan jaringan neural berbasis transformer.²

Gambar dengan skema warna RGB secara numerik direpresentasikan sebagai matriks tiga dimensi, di mana ketiga matriks tersebut sesuai dengan nilai merah, hijau dan biru masing-masing piksel. Gambar RGB biasanya 8-bit, yang berarti setiap nilai warna untuk piksel dapat berkisar dari 0 hingga 256 (atau 2⁸). Seperti yang dijelaskan sebelumnya, gambar hitam-putih secara numerik direpresentasikan sebagai matriks piksel dua dimensi di mana setiap piksel memiliki nilai antara 0 dan 1.

Diagram gambar yang direpresentasikan sebagai matriks piksel

Sebuah gambar yang direpresentasikan sebagai matriks piksel tiga dimensi

Konvolusi menggunakan filter numerik 2 dimensi, yang disebut kernel, untuk mengekstrak fitur dari gambar. Bobot kernel yang paling kondusif untuk mengekstraksi fitur yang relevan adalah parameter yang dapat dipelajari selama pelatihan model. Konvolusi ini menghasilkan peta fitur gambar.

Bila perlu, padding digunakan untuk mempertahankan ukuran asli input dengan menambahkan lapisan ekstra nol ke baris dan kolom luar array. Sebaliknya, pooling, yang pada dasarnya meringkas fitur visual dengan hanya mengambil nilai minimum, maksimum atau rata-rata, dapat digunakan untuk pengurangan dimensi lebih lanjut.

Akhirnya, representasi terkompresi kemudian diratakan menjadi vektor.

Pencarian gambar

Salah satu aplikasi intuitif penyematan gambar adalah pencarian gambar: sistem yang mengambil data gambar sebagai input dan mengembalikan gambar lain dengan penyematan vektor yang serupa, seperti aplikasi smartphone yang mengidentifikasi spesies tanaman dari sebuah foto.

Eksekusi yang lebih kompleks adalah pencarian gambar multimodal, mengambil teks sebagai input dan mengembalikan gambar yang terkait dengan teks tersebut. Hal ini tidak dapat dicapai dengan mengambil penyematan teks dari model bahasa dan menggunakannya sebagai input ke model visi komputer yang terpisah. Sebagai gantinya, kedua model menanamkan harus dilatih secara eksplisit untuk berkorelasi satu sama lain.

Salah satu algoritme terkemuka yang digunakan untuk penyematan gambar dan teks adalah contrastive language-image pretraining (CLIP), yang awalnya dikembangkan oleh OpenAI. CLIP dilatih pada kumpulan data tanpa label yang sangat besar dari lebih dari 400 juta pasangan keterangan gambar yang diambil dari internet. Pasangan ini digunakan untuk bersama-sama melatih penyandi gambar dan penyandi teks dari awal, menggunakan contrastive loss (kehilangan kontras) untuk memaksimalkan kemiripan kosinus antara penyematan gambar dan penyematan teks yang terkait.

Pembuatan gambar

Aplikasi penting lainnya untuk penyematan gambar adalah pembuatan gambar: pembuatan gambar baru.

Salah satu metode untuk menghasilkan gambar baru dari menanamkan gambar menggunakan variational autoencoder (VAE). VAE mengkodekan dua vektor penempatan data input yang berbeda:vektor rata-rata dan vektor standar deviasi. Dengan mengambil sampel secara acak dari distribusi probabilitas yang diwakili oleh penanaman vektor ini, VAE dapat menggunakan jaringan decoder-nya untuk menghasilkan variasi data masukan tersebut.

Metode pembuatan gambar berbasis penyemmatan yang lebih menonjol, khususnya pada tahun-tahun belakangan ini, menggunakan algoritma CLIP yang sudah disebutkan sebelumnya. Model sintesis gambar seperti DALL-E, Midjourney, dan Stable Diffusion menggunakan perintah teks sebagai masukan, menggunakan CLIP untuk menanamkan representasi vektor dari teks tersebut; penyematan vektor yang sama kemudian digunakan untuk merekonstruksi gambar baru oleh model difusi.

Penyematan vektor untuk NLP

Penyematan teks kurang mudah. Mereka harus secara numerik mewakili konsep abstrak seperti makna semantik, konotasi variabel, dan hubungan kontekstual antara kata dan frasa. Cukup mewakili kata-kata dalam bentuk hurufnya, cara penyematan gambar mewakili visual dalam hal nilai pikselnya, tidak akan menghasilkan penyematan yang berarti.

Sementara sebagian besar model visi komputer dilatih menggunakan pembelajaran yang diawasi konvensional , model penyematan untuk NLP memerlukan pembelajaran yang diawasi mandiri pada sejumlah besar data pelatihan untuk secara memadai menangkap banyak potensi makna bahasa dalam konteks yang berbeda.

Penyematan yang dihasilkan memberdayakan banyak tugas yang biasanya dikaitkan dengan AI generatif, mulai dari terjemahan bahasa hingga chatbot percakapan, rangkuman dokumen, hingga layanan penjawab pertanyaan.

Model penyematan teks

Model yang digunakan untuk menghasilkan penyematan vektor untuk data teks sering kali tidak sama dengan model yang digunakan untuk menghasilkan teks yang sebenarnya.

LLM populer yang biasa digunakan untuk pembuatan teks dan tugas AI generatif lainnya, seperti ChatGPT atau Llama, adalah model autoregresif khusus decoder, yang juga disebut model bahasa kausal. Dalam latihan, mereka disajikan dengan kata pertama dari sampel teks dan ditugaskan untuk terus memprediksi kata berikutnya hingga akhir urutan. Meskipun hal itu cukup untuk belajar menghasilkan teks yang koheren, itu tidak optimal untuk mempelajari penyematan vektor terpisah yang berguna.

Sebaliknya, penyematan teks biasanya bergantung pada masked language model seperti representasi encoder dua arah dari transformer (BERT), yang pertama kali dirilis pada tahun 2018. Dalam pelatihan, model encoder-decoder ini diberikan urutan teks dengan kata-kata tertentu yang disembunyikan-disembunyikan-danditugaskan untuk melengkapi bagian yang kosong. Latihan ini memberikan penghargaan kepada penyematan yang menangkap informasi dengan lebih baik tentang kata atau kalimat tertentu dan bagaimana kata atau kalimat tersebut terkait dengan konteks di sekitarnya. Word2vec mengikuti tugas pelatihan yang mirip, meskipun dengan arsitektur neural network 2 lapis yang lebih sederhana.

Pada Juni 2024, BERT tetap menjadi model bahasa yang paling populer di Hugging Face, setelah diunduh lebih dari 60 juta kali pada bulan sebelumnya.³ Beberapa varian BERT telah disesuaikan dengan jenis penyematan bahasa dan skenario tertentu:

SBERT: Juga dikenal sebagai BERT kalimat dan transformator kalimat, SBERT adalah varian dari BERT dengan struktur Siamese neural network yang diadaptasi, disesuaikan dengan pasangan kalimat untuk meningkatkan kemampuannya dalam mengodekan penyematan kalimat.
DistilBERT: Varian BERT yang ringan, dibuat melalui penyulingan pengetahuan dari model dasar BERT menjadi model yang lebih kecil yang berjalan 60% lebih cepat dengan tetap mempertahankan lebih dari 95% kinerja BERT berdasarkan beberapa metrik.⁴
RoBERTa: Singkatan dari pendekatan prapelatihan BERT yang dioptimalkan dengan kuat, RoBERTa menyempurnakan prosedur pelatihan BERT untuk mengoptimalkan kinerjanya.

Jenis penyematan teks

Penyematan vektor dapat digunakan untuk merepresentasikan berbagai data bahasa alami.

Penyematan kata
Penyematan kata bertujuan untuk menangkap tidak hanya makna semantik dari kata-kata individual, tetapi juga hubungan kontekstualnya dengan kata-kata lain yang sering digunakan bersama. Dengan demikian, penyematan kata dapat digeneralisasi dengan baik ke konteks baru dan bahkan kata-kata langka atau yang sebelumnya tidak terlihat.

GloVe, model penyematan kata yang populer, dilatih pada “matriks ko-okurensi kata-kata global”, menyimpulkan makna semantik dan hubungan semantik dari seberapa sering kata-kata tertentu digunakan berdekatan satu sama lain. Misalnya, makna dapat diturunkan dari bagaimana “es” dan “uap” bertepatan dengan “air” pada frekuensi yang kira-kira sama, tetapi bertepatan dengan “padat” dan “gas” pada tingkat yang sangat berbeda.⁵

Cara dimensi vektor penyisipan kata secara implisit menangkap hubungan ini memungkinkan kita untuk memanipulasinya secara matematis dengan cara yang berguna dan intuitif. Dalam skema penanaman kata yang dikonfigurasi dengan baik, mengurangkan vektor untuk “pria” dari vektor untuk “raja” dan menambahkan vektor untuk “wanita” pada dasarnya akan menghasilkan vektor untuk “ratu.”

Penyematan kalimat
Penyematkan kalimat menyematkan makna semantik dari seluruh frasa atau kalimat, dan bukan kata-kata individual. Kalimat tersebut biasanya dibuat dengan SBERT atau varian pengubah kalimat lainnya.

Penyematan kalimat dapat menyematkan representasi dari pertanyaan pengguna, untuk digunakan dalam mesin pencari atau aplikasi penjawab pertanyaan.
Dalam penerjemahan mesin, penyematan vektor dari sebuah kalimat dalam satu bahasa dapat digunakan untuk menghasilkan kalimat dalam bahasa yang berbeda dengan penyematan vektor yang serupa.
Penyematan kalimat sering digunakan dalam analisis sentimen. Pengklasifikasi dapat dilatih pada contoh berlabel dari setiap kategor sentimen atau dengan menggunakan pembelajaran terawasi, kemudian mengklasifikasikan sampel baru dengan mencocokkan penyematan vektor mereka dengan penyematan yang dipelajari untuk setiap kelas. Analisis sentimen juga dapat dilakukan melalui zero-shot learning, di mana penyematan untuk kalimat tertentu dibandingkan dengan penyematan kata dari kategorisasi tertentu.

Penyematan dokumen
Penyematan dokumen sering digunakan untuk mengklasifikasikan dokumen atau halaman web untuk diindeks di mesin pencari atau basis data vektor. Model umum untuk penyematan dokumen termasuk varian BERT, Doc2vec (yang merupakan perluasan dari model Word2vec) atau model penyematan sumber terbuka lainnya seperti Instructor (tautan berada di luar ibm.com).

Jenis penyematan vektor lainnya

Meskipun data gambar dan teks cenderung mendapat perhatian paling besar, terutama untuk contoh penggunaan AI generatif, berbagai macam modalitas data dapat memperoleh manfaat dari penyematan vektor.

Penyematan audio digunakan untuk berbagai aplikasi, mulai dari asisten suara, sistem rekomendasi lagu, hingga sistem pengenalan musik seperti Shazam. Mereka mewakili suara melalui sifat numerik dari data bentuk gelombangnya. Audio dapat disematkan menggunakan recurrent neural network (RNN), CNN, atau arsitektur berbasis transformator.
Penyematan produk sering kali digunakan untuk mendukung sistem rekomendasi untuk platform e-commerce. Itu biasanya dibuat dengan algoritma pembelajaran tak terawasi.
Penanaman graf dapat digunakan untuk memodelkan dan merepresentasikan struktur hubungan yang kompleks seperti jaringan sosial atau sistem biologis. Dimensi vektor penyematan grafik mewakili cara berbagai node dan edge sistem terhubung.

Basis data vektor

Basis data tradisional jarang dioptimalkan untuk mengerjakan data dimensi tinggi yang umum untuk penyematan vektor. Basis data vektor seperti IBM® watsonx.data™ adalah solusi canggih yang dirancang untuk mengatur dan mengambil objek data dalam ruang vektor dimensi tinggi.

Pencarian vektor

Manfaat utama dari solusi basis data vektor yang efektif adalah untuk mengoptimalkan efisiensi dan keakuratan operasi pencarian vektor: menemukan, menyortir, dan mengambil data dan dokumen relevan melalui kesamaan semantik dari masing-masing penanaman vektor dengan istilah pencarian Anda.

Jenis pencarian kesamaan ini biasanya dilakukan melalui algoritma tetangga terdekat yang menyimpulkan hubungan antara titik data berdasarkan kedekatannya dalam ruang vektor berdimensi tinggi.

Pencarian semantik
Pencarian semantik menggunakan penyematan vektor untuk mendukung pencarian yang melampaui pencocokan kata kunci sederhana. Misalnya, mengembalikan hasil untuk “apel” dan “jeruk” meskipun kueri aslinya adalah “buah.” 

Retrieval augmented generation (RAG)

Jenis pencarian semantik ini juga digunakan untuk memungkinkan retrieval augmented generation (RAG), kerangka kerja yang digunakan untuk melengkapi basis pengetahuan LLM tanpa harus menjalani lebih banyak penyetelan.

Dalam RAG, pencarian vektor digunakan untuk mensurvei sumber data eksternal, yaitu sumber data yang bukan merupakan bagian dari data pelatihan model dasar dan yang informasinya tidak dapat tercermin dalam hasil LLM, untuk mengambil informasi yang relevan, kemudian menggunakan informasi tersebut untuk menambah respons yang dihasilkan oleh LLM.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu penyematan vektor?

Penyusun

Apa itu penyematan vektor?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Apa itu vektor?

Vektor versus penyematan:

Decoding AI: Rangkuman Berita Mingguan

Bagaimana cara kerja penyematan vektor?

Cara penyematan vektor merepresentasikan data

Cara membandingkan penyematan vektor

Menyematkan model

Penyematan vektor untuk gambar

Pencarian gambar

Pembuatan gambar

Penyematan vektor untuk NLP

Model penyematan teks

Jenis penyematan teks

Jenis penyematan vektor lainnya

Basis data vektor

Pencarian vektor

Retrieval augmented generation (RAG)

Sumber daya