Apa yang dimaksud dengan model bahasa visi (VLM)?

Apa yang dimaksud dengan model bahasa visi (VLM)?

Vision language model (VLM) adalah model kecerdasan buatan (AI) yang memadukan visi komputer dan kemampuan pemrosesan bahasa alami (NLP).

VLM belajar memetakan hubungan antara data teks dan data visual seperti gambar atau video, yang memungkinkan model ini menghasilkan teks dari input visual atau memahami prompt bahasa alami dalam konteks informasi visual.

VLM, juga disebut sebagai model bahasa visual, menggabungkan model bahasa besar (LLM) dengan model visi atau algoritme machine learning (ML).

Sebagai sistem AI multimodal, VLM mengambil teks dan gambar atau video sebagai input dan menghasilkan teks sebagai output, biasanya dalam bentuk deskripsi gambar atau video, yang menjawab pertanyaan tentang gambar atau mengidentifikasi bagian dari gambar atau objek dalam video.

Elemen model bahasa visi

Model bahasa visi biasanya terdiri dari 2 komponen utama:

  • Encoder bahasa

  • Encoder visi

Encoder bahasa

Encoder bahasa menangkap makna semantik dan asosiasi kontekstual antara kata dan frasa dan mengubahnya menjadi penyematan teks untuk diproses model AI.

Sebagian besar VLM menggunakan arsitektur neural networks yang dikenal sebagai model transformator untuk encoder bahasa mereka. Contoh transformator termasuk BERT (Bidirectional Encoder Representations from Transformers) Google, salah satu model dasar pertama yang mendukung banyak LLM saat ini, dan generative pretrained transformer (GPT) OpenAI .

Berikut adalah ikhtisar singkat tentang arsitektur transformator:

  • Enkoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input.

  • Mekanisme perhatian diri memungkinkan transformer untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya.

  • Dekoder menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.

Encoder visi

Encoder visi mengekstrak sifat visual penting seperti warna, bentuk, dan tekstur dari input gambar atau video dan mengubahnya menjadi menanamkan penyematan yang dapat diproses oleh model machine learning.

Versi VLM yang lebih awal menggunakan algoritme pembelajaran mendalam seperti convolutional neural networks untuk ekstraksi fitur. Model bahasa visi yang lebih modern menggunakan vision transformer (ViT), yang menerapkan elemen-elemen model bahasa berbasis transformer.

ViT memproses gambar menjadi patch dan memperlakukannya sebagai urutan, mirip dengan token dalam transformator bahasa. Vision transformer kemudian mengimplementasikan perhatian mandiri di seluruh patch ini untuk menciptakan representasi berbasis transformer dari gambar input.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Melatih model bahasa visi

Strategi pelatihan untuk model bahasa visi melibatkan penyelarasan dan penggabungan informasi dari encoder visi dan bahasa sehingga VLM dapat belajar untuk menghubungkan gambar dengan teks dan membuat keputusan pada 2 modalitas secara bersamaan.

Pelatihan VLM biasanya menggunakan perpaduan pendekatan:

  • Pembelajaran kontrastif

  • Masking

  • Pelatihan model generatif

  • Model yang telah dilatih sebelumnya

Pembelajaran kontrastif

Pembelajaran kontras memetakan penyematan gambar dan teks dari kedua encoder ke dalam ruang penyematan gabungan atau bersama. VLM dilatih pada kumpulan data pasangan gambar-teks dan belajar untuk meminimalkan jarak antara penyematan pasangan yang cocok dan memaksimalkannya untuk pasangan yang tidak cocok.

Algoritme pembelajaran kontrastif yang umum adalah CLIP (Contrastive Language-Image Pretraining). CLIP dilatih pada 400 juta pasangan gambar-keterangan yang diambil dari internet dan menunjukkan akurasi klasifikasi zero-shot yang tinggi.1

Masking

Masking adalah teknik pelatihan lain di mana model bahasa visual belajar memprediksi bagian yang dikaburkan secara acak dari teks atau gambar input. Dalam pemodelan bahasa tertutup, VLM belajar mengisi kata-kata yang hilang dalam keterangan teks yang diberikan gambar yang tidak disamarkan.

Sementara itu, dalam pemodelan gambar bertopeng, VLM belajar merekonstruksi piksel tersembunyi dalam gambar yang diberi keterangan yang tidak bertopeng.

Contoh model yang menggunakan masking adalah FLAVA (Foundational Language And Vision Alignment). FLAVA menggunakan transformator visi sebagai encoder gambar dan arsitektur transformator untuk encoder bahasa dan encoder multimodal.

Encoder multimodal menerapkan mekanisme perhatian silang untuk mengintegrasikan informasi tekstual dan visual. Pelatihan FLAVA mencakup pemodelan tertutup bersama dengan pembelajaran kontrastif.1

Pelatihan model generatif

Pelatihan model generatif untuk VLM memerlukan pembelajaran untuk menghasilkan data baru. Pembuatan teks-ke-gambar menghasilkan gambar dari input, sedangkan pembuatan gambar-ke-teks menghasilkan teks—seperti keterangan, deskripsi gambar, atau ringkasan—dari gambar input.

Contoh model teks-ke-gambar yang populer termasuk model difusi, seperti Imagen Google, Midvoyage, DALL-E OpenAI (dimulai dengan DALL-E 2) dan Stable Diffusion Stability AI.

Model yang telah dilatih sebelumnya

Melatih model bahasa visi sejak awal dapat memakan banyak sumber daya dan menghabiskan banyak biaya, sehingga VLM dapat dibangun dari model yang sudah terlatih.

LLM dan encoder visi yang telah dilatih sebelumnya dapat digunakan, dengan lapisan jaringan pemetaan tambahan yang menyelaraskan atau memproyeksikan representasi visual gambar ke ruang input LLM.

LLava (Large Language and Vision Assistant) adalah contoh VLM yang dikembangkan dari model yang telah dilatih sebelumnya. Model multimodal ini menggunakan Vicuna LLM dan CLIP ViT sebagai encoder visi, dengan output yang digabungkan ke dalam ruang dimensi bersama menggunakan proyektor linier.1

Mengumpulkan data pelatihan berkualitas tinggi untuk VLM bisa jadi membosankan, tetapi ada kumpulan data yang ada yang dapat digunakan untuk prapelatihan, pengoptimalan, dan penyempurnaan untuk tugas-tugas hilir yang lebih spesifik.

Misalnya, ImageNet berisi jutaan gambar beranotasi, sementara COCO memiliki ribuan gambar berlabel untuk teks skala besar, deteksi objek, dan segmentasi. Demikian pula, kumpulan data LAION terdiri dari miliaran pasangan gambar-teks multibahasa.

Akademi AI

Bangkitnya AI generatif untuk bisnis

Pelajari tentang sejarah kebangkitan AI generatif dan apa pengaruhnya bagi bisnis.

Contoh penggunaan model bahasa visi

VLM dapat menjembatani kesenjangan antara informasi visual dan linguistik. Yang sebelumnya membutuhkan 2 model AI terpisah untuk setiap modalitas sekarang dapat digabungkan menjadi 1 model.

VLM dapat digunakan untuk berbagai tugas bahasa visi:

  • Teks dan ringkasan

  • Pembuatan gambar

  • Pencarian dan pengambilan gambar

  • Segmentasi gambar

  • Deteksi objek

  • Menjawab pertanyaan visual (VQA)

Keterangan dan ringkasan

Model bahasa visi dapat menghasilkan keterangan atau deskripsi gambar yang terperinci. Mereka juga dapat meringkas video dan informasi visual dalam dokumen, seperti gambar medis untuk pengaturan perawatan kesehatan atau bagan perbaikan peralatan di fasilitas manufaktur.

Pembuatan gambar

Generator teks-ke-gambar seperti DALL-E, Imagen, Midjourney dan Stable Diffusion dapat membantu dalam menciptakan karya seni atau gambar untuk menyertai konten tertulis. Bisnis juga dapat menggunakan alat ini selama fase desain dan pembuatan prototipe, untuk membantu memvisualisasikan ide-ide produk.

Pencarian dan pengambilan gambar

VLM dapat mencari melalui galeri gambar yang besar atau basis data video dan mengambil foto atau video yang relevan berdasarkan kueri bahasa alami. Hal ini dapat meningkatkan pengalaman pengguna bagi pembeli di situs web e-commerce, misalnya, membantu mereka menemukan barang tertentu atau menavigasi katalog yang luas.

Segmentasi gambar

Model bahasa visual dapat mempartisi gambar menjadi beberapa segmen berdasarkan fitur spasial yang telah dipelajari dan diekstrak dari gambar. VLM kemudian dapat menyediakan deskripsi teks dari segmen tersebut.

Ini juga dapat menghasilkan kotak pembatas untuk melokalkan objek atau memberikan bentuk anotasi lain seperti label atau penyorotan berwarna untuk menentukan bagian gambar yang berkaitan dengan kueri.

Ini dapat bermanfaat untuk pemeliharaan prediktif, misalnya, membantu menganalisis gambar atau video lantai pabrik untuk deteksi potensi cacat peralatan secara waktu nyata.

Deteksi objek

Model bahasa visi dapat mengenali dan mengklasifikasikan objek dalam gambar dan memberikan deskripsi kontekstual seperti posisi objek relatif terhadap elemen visual lainnya.

Deteksi objek dapat digunakan dalam robotika, misalnya, memungkinkan robot untuk lebih memahami lingkungan mereka dan memahami instruksi visual.

Menjawab pertanyaan visual (VQA)

VLM dapat menjawab pertanyaan tentang gambar atau video, untuk menunjukkan keterampilan penalaran visual mereka. Ini dapat membantu analisis gambar atau video dan bahkan dapat diperluas ke aplikasi AI agen .

Di sektor transportasi, misalnya, agen AI dapat ditugaskan untuk menganalisis video inspeksi jalan dan mengidentifikasi bahaya seperti rambu-rambu jalan yang rusak, lampu lalu lintas yang rusak, dan jalan berlubang.

Kemudian, mereka dapat diperintahkan untuk membuat laporan pemeliharaan yang menguraikan lokasi dan deskripsi bahaya tersebut.

Contoh VLM

Model bahasa visi berkembang dengan cepat, dengan potensi untuk menjadi seluas LLM canggih saat ini.

Berikut adalah beberapa contoh VLM populer:

  • DeepSeek-VL2

  • Gemini 2.0 Flash

  • GPT-4o

  • Llama 3.2

  • NVLM

  • Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2 adalah model bahasa visi sumber terbuka dengan 4,5 miliar parameter dari perusahaan rintisan AI asal Tiongkok, DeepSeek. DeepSeek-VL2 terdiri dari encoder visi, adaptor bahasa visi, dan DeepSeekMoE LLM, yang menggunakan arsitektur Kombinasi Para Pakar (MoE).

DeepSeek-VL2 memiliki varian kecil dengan 1 miliar parameter dan varian kecil dengan 2,8 miliar parameter.2

Gemini 2.0 Flash

Gemini 2.0 Flash adalah bagian dari rangkaian model  Google Gemini. Modalitas input termasuk audio, gambar, teks dan video, dengan output teks saja. Fitur pembuatan gambar akan segera hadir.

GPT-4o

GPT-4o OpenAI adalah model tunggal yang dilatih secara menyeluruh di seluruh data audio, visi, dan teks. GPT-4o dapat menerima kombinasi input audio, gambar, teks dan video dan menghasilkan kombinasi output audio, gambar dan teks, dengan neural networks yang sama yang memproses semua input dan output.

Rekannya yang lebih kecil, GPT-4o mini, mendukung input gambar dan teks dan menghasilkan output teks.

Llama 3.2

Model sumber terbuka Llama 3.2 mencakup 2 VLM dalam 11 dan 90 miliar ukuran parameter. Input dapat berupa kombinasi teks dan gambar, dengan output teks saja.3

Menurut Meta, arsitektur VLM terdiri dari encoder gambar ViT, adaptor video, dan adaptor gambar.4 Adaptor gambar yang dilatih secara terpisah memiliki serangkaian lapisan perhatian silang yang memasukkan representasi encoder gambar ke dalam LLM Llama 3.1 yang telah dilatih sebelumnya.3

NVLM

NVLM adalah keluarga model multimoda dari NVIDIA. NVLM-D merupakan model khusus dekoder yang memasukkan token gambar langsung ke dekoder LLM. NVLM-X menggunakan perhatian silang untuk memproses token gambar dan lebih efisien untuk menangani gambar dengan resolusi tinggi.

NVLM-H menggunakan arsitektur hybrid yang menggabungkan pendekatan khusus decoder dan pendekatan perhatian silang, sehingga meningkatkan efisiensi komputasi dan kemampuan penalaran.5

Qwen 2.5-VL

Qwen 2.5-VL adalah model bahasa visi andalan perusahaan komputasi cloud Tiongkok Alibaba Cloud. Muncul dalam ukuran parameter 3, 7 dan 72 miliar.

Model ini menggunakan encoder visi ViT dan Qwen 2.5 LLM. Model ini dapat memahami video selama lebih dari satu jam dan dapat menavigasi antarmuka desktop dan smartphone.

Tolok ukur model bahasa visi

Seperti LLM, VLM juga memiliki tolok ukur mereka sendiri. Setiap tolok ukur mungkin memiliki papan peringkatnya sendiri, tetapi ada juga papan peringkat independen seperti Papan Peringkat OpenVLM yang dihosting di Hugging Face yang memberi peringkat model bahasa visi sumber terbuka berdasarkan berbagai metrik.

Berikut adalah beberapa tolok ukur umum untuk model bahasa visual:

  • MathVista adalah tolok ukur untuk penalaran matematika visual.

  • MMBench memiliki kumpulan pertanyaan pilihan ganda yang mencakup beberapa dimensi evaluasi, termasuk pelokalan objek, pengenalan karakter optik (OCR), dan banyak lagi.

  • MMMU (Massive Multidiscipline Multimodal Understanding) berisi tantangan pilihan ganda multimodal di berbagai subjek untuk mengukur pengetahuan, persepsi, dan keterampilan penalaran.

  • ●MM-Vet menilai integrasi berbagai kemampuan VLM, seperti pembuatan bahasa, kesadaran spasial, dan banyak lagi.

  • OCRBench berfokus pada kemampuan OCR VLM. Terdiri dari 5 komponen: VQA berorientasi dokumen, pengenalan ekspresi matematika tulisan tangan, ekstraksi informasi kunci, pengenalan teks dan VQA yang berpusat pada teks scene.

  • VQA adalah salah satu tolok ukur VLM paling awal. Kumpulan data mencakup pertanyaan terbuka tentang gambar. Turunan VQA lainnya termasuk GQA (penjawaban pertanyaan pada grafik adegan gambar), OK-VQA (memerlukan pengetahuan dari luar untuk menjawab pertanyaan visual), ScienceQA (penjawaban pertanyaan sains) dan TextVQA (penalaran visual berdasarkan teks dalam gambar).

Pembandingan VLM dapat memakan waktu, tetapi beberapa alat dapat membantu menyederhanakan prosesnya. VLMEvalKit adalah toolkit penilaian sumber terbuka yang memungkinkan evaluasi satu perintah untuk VLM. Rangkaian penilaian lainnya adalah LMMs-Eval, yang juga menyediakan antarmuka baris perintah untuk evaluasi.

Tantangan VLM

Seperti halnya sistem AI lainnya, VLM masih perlu menghadapi risiko AI. Perusahaan harus mengingat hal ini ketika mereka mempertimbangkan untuk mengintegrasikan model bahasa visi ke dalam alur kerja internal mereka atau mengimplementasikannya untuk aplikasi komersial.

Berikut adalah beberapa tantangan yang berkaitan dengan VLMs:

  • Bias

  • Biaya dan kompleksitas

  • Generalisasi

  • Halusinasi

Bias

Model bahasa visual dapat belajar dari bias yang mungkin ada pada data dunia nyata yang menjadi tempat mereka dilatih atau dari model yang telah dilatih sebelumnya. Menggunakan beragam sumber data dan menggabungkan pengawasan manusia selama proses dapat membantu mengurangi bias.

Biaya dan kompleksitas

Model visi dan model bahasa sudah rumit dengan sendirinya, jadi menggabungkan keduanya dapat lebih meningkatkan kerumitannya. Kompleksitas ini menyebabkan perlunya lebih banyak sumber daya, sehingga menyulitkan penerapan VLM dalam skala besar. Perusahaan harus siap berinvestasi dalam sumber daya yang dibutuhkan untuk mengembangkan, melatih, dan menerapkan model ini.

Generalisasi

VLM mungkin akan mengalami kesulitan dalam hal generalisasi, yang merupakan kemampuan model untuk beradaptasi dan membuat prediksi yang akurat pada data baru yang belum pernah dilihat sebelumnya.

Kumpulan data yang seimbang yang menyertakan outlier atau kasus tepi dan menggunakan pembelajaran zero-shot dapat memungkinkan VLM untuk beradaptasi dengan konsep baru atau kombinasi gambar-teks yang tidak lazim.

Tolok ukur LiveXiv IBM untuk tugas pemahaman dokumen visual juga dapat membantu. LiveXiv adalah tolok ukur dinamis yang diperbarui secara otomatis setiap bulan, yang menilai VLM pada pertanyaan dan gambar yang mungkin belum pernah mereka lihat sebelumnya.

Halusinasi

Model bahasa visi dapat rentan terhadap halusinasi AI. Memvalidasi hasil model ini merupakan langkah penting untuk memastikan keakuratan faktanya.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

Semua tautan berada di luar ibm.com

1 Pengantar Pemodelan Bahasa Visi, arXiv, 27 Mei 2024.

2 DeepSeek-VL2: Model Bahasa-Visi Kombinasi Para Pakar untuk Pemahaman Multimodal Tingkat Lanjut, GitHub, 13 Desember 2024.

3 Model Information, GitHub, 30 September 2024.

4 The Llama 3 Herd of Models , arXiv, 23 November 2024.

5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 Oktober 2024.