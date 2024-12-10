Dalam tutorial ini, Anda akan menemukan cara menerapkan model multimodal Pixtral 12B Mistral AI yang sekarang tersedia di watsonx.ai untuk tugas multimodal seperti teks gambar dan jawaban pertanyaan visual.
Pada bulan September 2024, Mistral AI meluncurkan Pixtral 12B, model bahasa besar (LLM) sumber terbuka di bawah lisensi Apache 2.0.
Dengan 12 miliar parameter, model multimodal dibangun di atas Nemo 12B LLM dari Mistral AI. Pixtral 12B memiliki dua komponen: enkoder visi untuk menandai gambar dan dekoder transformator multimodal untuk memprediksi token teks berikut yang diberikan urutan teks dan gambar. Enkoder visi memiliki 400 juta parameter dan mendukung ukuran gambar variabel.
Model ini unggul dalam berbagai contoh penggunaan, termasuk memahami grafik, diagram, bagan, dan dokumen dalam resolusi tinggi, yang dapat digunakan untuk menjawab pertanyaan dokumen, mengikuti instruksi atau Generasi dengan dukungan pengambilan data (RAG) tugas. Selain itu, Pixtral 12B memiliki jendela konteks 128.000 token, yang memungkinkan konsumsi beberapa gambar secara bersamaan.
Dalam hal tolok ukur, Pixtral 12B mengungguli berbagai model, termasuk Qwen2-VL, Gemini-1.5 Flash 8B, dan Claude-3 Haiku. Untuk tolok ukur tertentu, termasuk DocVQA (ANLS) dan vQAV2 (VQA Match), model ini mengungguli GPT-4o dan Claude-3.5 Soneta dari OpenAI.
Selain dapat menjalankan Pixtral 12B di watsonx.ai, model ini juga tersedia melalui Hugging Face, di Le Chat, chatbot percakapan Mistral, atau melalui titik akhir API melalui La Plateforme Mistral.
Lihat video YouTube Teknologi IBM ini yang akan memandu Anda melalui petunjuk penyiapan berikut pada langkah 1 dan 2.
Meskipun Anda dapat memilih dari beberapa alat, tutorial ini paling cocok untuk Jupyter Notebook. Jupyter Notebook banyak digunakan dalam ilmu data untuk menggabungkan kode dengan berbagai sumber data seperti teks, gambar, dan visualisasi data.
Tutorial ini memandu Anda melalui cara mengatur akun IBM untuk menggunakan Jupyter Notebook.
Masuk ke watsonx.ai menggunakan akun IBM Cloud Anda. Harap dicatat bahwa Pixtral 12B saat ini hanya tersedia di wilayah IBM Europe Frankfurt dan London.
Buat proyek watsonx.ai.
Anda bisa mendapatkan ID proyek dari dalam proyek Anda. Klik tab Kelola . Kemudian, salin ID proyek dari bagian Detail di halaman Umum . Anda memerlukan ID ini untuk tutorial ini.
Buat Jupyter Notebook.
Langkah ini akan membuka lingkungan notebook tempat Anda dapat menyalin kode dari tutorial ini untuk menerapkan penyetelan prompt sendiri. Sebagai alternatif, Anda dapat mengunduh notebook ini ke sistem lokal Anda dan mengunggahnya ke proyek watsonx.ai Anda sebagai aset. Aplikasi Jupyter Notebook ini bersama dengan kumpulan data yang digunakan dapat ditemukan di GitHub.
Untuk menghindari konflik ketergantungan paket Python, kami sarankan menyiapkan lingkungan virtual.
Kita membutuhkan beberapa pustaka dan modul untuk tutorial ini. Pastikan untuk mengimpor yang berikut ini; jika tidak diinstal, Anda dapat menyelesaikan masalah ini dengan instalasi pip cepat.
Input WATSONX_EU_APIKEY dan WATSONX_EU_PROJECT_ID yang Anda buat pada langkah 1 dan 2 setelah menjalankan sel berikut. Kita juga akan mengatur URL yang berfungsi sebagai titik akhir API.
Kita dapat menggunakan kelas kredensial untuk mengenkapsulasi kredensial yang telah dilewati.
Dalam tutorial ini, kita akan bekerja dengan beberapa gambar untuk aplikasi AI multimodal seperti teks gambar dan deteksi objek. Gambar yang akan kami gunakan dapat diakses menggunakan URL berikut. Kita dapat menyimpan URL ini dalam daftar untuk mengkodekannya secara berulang.
Untuk mendapatkan pemahaman yang lebih baik tentang input data kami, mari tampilkan gambarnya.
Output:
url_image_0
url_image_1
url_image_2
url_image_3
Untuk mengkodekan gambar-gambar ini dengan cara yang dapat dicerna untuk LLM, kita akan mengkodekan gambar ke byte yang kemudian kita dekode ke representasi UTF-8.
Sekarang gambar kita dapat diteruskan ke LLM, mari kita atur fungsi untuk panggilan API watsonx kita. Fungsi augment_api_request_body mengambil kueri pengguna dan gambar sebagai parameter dan menambah isi permintaan API. Kita akan menggunakan fungsi ini di setiap iterasi.
Mari kita membuat instance antarmuka model menggunakan kelas ModeLinference. Dalam tutorial ini, kita akan menggunakan model mistralai/pixtral-12b.
Sekarang, kita dapat merunut melalui gambar-gambar kita untuk melihat deskripsi teks yang dihasilkan oleh model sebagai respons terhadap pertanyaan, “Apa yang terjadi dalam gambar ini?”
Output:
Gambar mengilustrasikan bidang bunga yang semarak mekar penuh di bawah langit biru jernih, dengan matahari bersinar terang, menciptakan pemandangan yang tenang dan indah.
Dalam gambar, seseorang duduk di meja, menggunakan laptop sambil memegang kartu kredit. Ada beberapa apel dalam mangkuk di atas meja di sebelah laptop.
Seseorang berdiri di samping mobil yang tertutup salju tebal, memegang payung merah untuk melindungi diri dari hujan salju.
Gambar mengilustrasikan alur kerja untuk memproses dan menyimpan data, kemungkinan untuk machine learning atau analisis data. Dimulai dengan memuat data sumber (seperti dokumen HTML atau XML), mengubah data menjadi format yang sesuai, menanamkan ke dalam vektor, menyimpan vektor-vektor ini dalam penyimpanan vektor, dan akhirnya mengambil data bila diperlukan.
Model Pixtral 12B berhasil memuat teks setiap gambar dengan detail yang signifikan.
Sekarang kita telah memamerkan kemampuan model untuk membuat teks gambar pada langkah sebelumnya, mari kita ajukan model beberapa pertanyaan yang memerlukan deteksi objek. Mengenai gambar kedua yang mengilustrasikan wanita yang sedang belanja online, kami akan bertanya kepada model "Apa yang ada di tangan wanita itu?"
Output: Wanita itu memegang kartu kredit di tangannya.
Model dengan benar mengidentifikasi objek di tangan wanita itu. Sekarang, mari kita tanyakan tentang masalah dalam gambar mobil yang tertutup salju.
Output: Mobil kemungkinan terjebak di salju yang dalam, sehingga sulit atau tidak dapat bergerak.
Tanggapan ini menyoroti nilai yang dimiliki AI multimodal untuk domain seperti asuransi. Model itu mampu mendeteksi masalah dengan mobil yang terjebak di salju. Ini bisa menjadi alat yang ampuh untuk meningkatkan waktu pemrosesan klaim asuransi.
Selanjutnya, mari kita tanyakan kepada model tentang langkah-langkah dalam gambar diagram alir.
Output: Diagram menggambarkan proses yang melibatkan beberapa langkah: "Load", "Transform", "Embed", "Store", dan "Retrieve". Urutan ini kemungkinan mewakili alur kerja untuk memproses dan menyimpan data, mengubahnya menjadi vektor tertanam untuk penyimpanan dan pengambilan yang efisien.
Hebat! Model mampu membedakan objek dalam gambar mengikuti permintaan pengguna. Kami mendorong Anda untuk mencoba lebih banyak pertanyaan untuk lebih menunjukkan kinerja model.
Dalam tutorial ini, Anda menggunakan model Pixtral 12B untuk melakukan operasi multimodal termasuk teks gambar dan jawaban pertanyaan visual.
Untuk mencoba model multimodal lainnya, lihat tutorial ini tentang model multimodal Llama 3.2 dari Meta di watsonx.ai.
Pelajari bagaimana CEO dapat menyeimbangkan nilai generatif AI yang dapat diciptakan dengan investasi yang dibutuhkan dan risiko yang ditimbulkannya.
Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.
Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.
Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.