Diterbitkan: 15 Juli 2024
Kontributor: Cole Stryker

Apa itu AI multimodal?

AI multimodal mengacu pada model machine learning yang mampu memproses dan mengintegrasikan informasi dari berbagai modalitas atau jenis data. Modalitas ini dapat mencakup teks, gambar, audio, video, dan bentuk input sensorik lainnya.

Tidak seperti model AI tradisional yang biasanya dirancang untuk menangani satu jenis data, AI multimodal menggabungkan dan menganalisis berbagai bentuk input data untuk mencapai pemahaman yang lebih komprehensif dan menghasilkan output yang lebih kuat.

Sebagai contoh, model multimodal dapat menerima foto pemandangan sebagai input dan menghasilkan ringkasan tertulis tentang karakteristik tempat tersebut. Atau, menerima ringkasan tertulis dari suatu pemandangan dan menghasilkan gambar berdasarkan deskripsi itu. Kemampuan untuk bekerja di berbagai modalitas memberikan model ini kemampuan yang kuat.

OpenAI meluncurkan ChatGPT pada November 2022, yang dengan cepat menempatkan AI generatif di peta. ChatGPT adalah AI unimodal, dirancang untuk menerima input teks, dan menghasilkan output teks dengan menggunakan pemrosesan bahasa alami (NLP).

AI multimodal membuat gen AI lebih kuat dan berguna dengan memungkinkan berbagai jenis input dan output. Dall-e, misalnya, adalah implementasi multimodal awal Open AI untuk model GPT-nya, tetapi GPT-4o juga memperkenalkan kemampuan multimodal pada ChatGPT.

Model AI multimodal dapat menggabungkan informasi dari berbagai sumber data dan lintas media untuk memberikan pemahaman yang lebih komprehensif dan bernuansa tentang data. Hal ini memungkinkan AI untuk membuat keputusan yang lebih terinformasi dan menghasilkan output yang lebih akurat.

Dengan memanfaatkan modalitas yang berbeda, sistem AI multimodal dapat mencapai akurasi dan ketangguhan yang lebih tinggi dalam tugas-tugas seperti pengenalan gambar, penerjemahan bahasa, dan pengenalan suara. Integrasi berbagai jenis data membantu menangkap lebih banyak konteks dan mengurangi ambiguitas. Sistem AI multimodal lebih tahan terhadap kebisingan dan data yang hilang. Jika satu modalitas tidak dapat diandalkan atau tidak tersedia, sistem dapat mengandalkan modalitas lain untuk mempertahankan kinerja.

AI multimodal meningkatkan interaksi manusia-komputer dengan memungkinkan antarmuka yang lebih alami dan intuitif untuk pengalaman pengguna yang lebih baik. Misalnya, asisten virtual dapat memahami dan merespons perintah suara dan isyarat visual, sehingga interaksi menjadi lebih lancar dan efisien.

Bayangkan sebuah chatbot yang dapat berbicara dengan Anda tentang kacamata Anda dan membuat rekomendasi ukuran berdasarkan foto yang Anda bagikan, atau aplikasi identifikasi burung yang dapat mengenali gambar burung tertentu, dan mengonfirmasi identifikasinya dengan 'mendengarkan' klip audio nyanyiannya. AI yang dapat beroperasi di berbagai dimensi sensorik dapat memberikan pengguna output yang lebih bermakna, dan lebih banyak cara untuk berinteraksi dengan data.

Cara kerja AI multimodal

Kecerdasan buatan adalah bidang yang berkembang pesat di mana kemajuan terbaru dalam algoritma pelatihan untuk membangun model dasar diterapkan pada penelitian multimodal. Disiplin ilmu ini telah melihat inovasi multimodal sebelumnya seperti pengenalan suara audio-visual dan pengindeksan konten multimedia, yang telah berkembang sebelum kemajuan dalam pembelajaran mendalam dan ilmu data membuka jalan bagi gen AI.

Saat ini, praktisi menggunakan AI multimodal dalam semua jenis contoh penggunaan, mulai dari menganalisis gambar medis dalam layanan kesehatan hingga menggunakan visi komputer bersama input sensorik lainnya dalam kendaraan otonom yang didukung AI.

Sebuah makalah tahun 2022 dari Carnegie Mellon menjelaskan tiga karakteristik AI multimodal: heterogenitas, koneksi, dan interaksi.1 Heterogenitas mengacu pada kualitas, struktur, dan representasi modalitas yang beragam. Deskripsi teks tentang suatu peristiwa akan sangat berbeda dalam hal kualitas, struktur dan representasi dari sebuah foto peristiwa yang sama.

Koneksi mengacu pada informasi yang saling melengkapi yang dibagikan di antara modalitas yang berbeda. Koneksi ini dapat tercermin dalam kesamaan statistik atau dalam korespondensi semantik. Terakhir, interaksi mengacu pada bagaimana modalitas yang berbeda berinteraksi ketika mereka disatukan.

Tantangan rekayasa inti untuk AI multimodal terletak pada pengintegrasian dan pemrosesan beragam jenis data secara efektif untuk membuat model yang dapat memanfaatkan kekuatan masing-masing modalitas sekaligus mengatasi keterbatasan masing-masing. Para penulis makalah tersebut juga mengajukan beberapa tantangan: representasi, penyelarasan, penalaran, generasi, pemindahan, dan kuantifikasi.

  • Representasi mengacu pada cara merepresentasikan dan meringkas data multimodal untuk merefleksikan heterogenitas dan interkoneksi antar modalitas. Praktisi menggunakan jaringan neural (misalnya, CNN untuk gambar, transformer untuk teks) untuk mengekstrak fitur, dan menggunakan ruang penyisipan bersama atau mekanisme perhatian untuk pembelajaran representasi.

  • Penyelarasan bertujuan untuk mengidentifikasi koneksi dan interaksi antar elemen. Sebagai contoh, para insinyur menggunakan teknik untuk penyelarasan temporal dalam data video dan audio, penyelarasan spasial untuk gambar dan teks.

  • Penalaran bertujuan untuk menyusun pengetahuan dari bukti multimodal, biasanya melalui beberapa langkah inferensial.

  • Generasi melibatkan pembelajaran proses generatif untuk menghasilkan modalitas mentah yang mencerminkan interaksi, struktur, dan koherensi lintas modalitas.

  • Pemindahan bertujuan untuk mentransfer pengetahuan antar modalitas. Teknik pembelajaran transfer lanjutan dan ruang penyematan bersama memungkinkan pengetahuan ditransfer lintas modalitas.

  • Kuantifikasi melibatkan studi empiris dan teoritis untuk memahami pembelajaran multimodal agar dapat mengevaluasi kinerja mereka dengan lebih baik dalam model multimodal.

    Model multimodal menambahkan lapisan kompleksitas pada model bahasa besar (LLM), yang didasarkan pada transformer, yang dibangun di atas arsitektur encoder-decoder dengan mekanisme perhatian untuk memproses data secara efisien. AI multimodal menggunakan teknik fusi data untuk mengintegrasikan berbagai modalitas. Penggabungan ini dapat digambarkan sebagai awal (ketika modalitas dikodekan ke dalam model untuk menciptakan ruang representasi umum), tengah (ketika modalitas digabungkan pada tahap praproses yang berbeda), dan akhir (ketika beberapa model memproses modalitas yang berbeda dan menggabungkan hasilnya).

Tren AI multimodal

Multimodal AI adalah bidang yang berkembang pesat, dengan beberapa tren utama yang membentuk pengembangan dan penerapannya. Berikut adalah beberapa tren penting:

Model terpadu

GPT-4 V(ision) dari OpenAI, Gemini dari Google, dan model terpadu lainnya dirancang untuk menangani teks, gambar, dan tipe data lainnya dalam satu arsitektur. Model-model ini dapat memahami dan menghasilkan konten multimodal dengan lancar.

Interaksi lintas modal yang ditingkatkan

Mekanisme perhatian dan transformer canggih digunakan untuk menyelaraskan dan memadukan data dari format yang berbeda dengan lebih baik, sehingga menghasilkan output yang lebih koheren dan akurat secara kontekstual.

Pemrosesan multimodal real time

Penerapan dalam pengemudian otonom dan augmented reality, misalnya, membutuhkan AI untuk memproses dan mengintegrasikan data dari berbagai sensor (kamera, LIDAR, dan lainnya) secara real-time untuk membuat keputusan seketika.

Augmentasi data multimodal

Para peneliti menghasilkan data sintetis yang menggabungkan berbagai modalitas (misalnya, deskripsi teks dengan gambar yang sesuai) untuk menambah kumpulan data pelatihan dan meningkatkan kinerja model.

Sumber terbuka dan kolaborasi

Inisiatif seperti Hugging Face dan Google AI menyediakan alat bantu AI sumber terbuka, mendorong lingkungan kolaboratif bagi para peneliti dan pengembang untuk memajukan bidang ini.

 

Ambil langkah selanjutnya

Melatih, memvalidasi, melakukan tuning, dan menerapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1 https://arxiv.org/abs/2209.03430 (tautan berada di luar ibm.com), 7 September 2022.