IBM® mengumumkan ketersediaan beberapa model Llama 3.2 di watsonx.ai, Studio perusahaan IBM® untuk pengembang AI, menyusul peluncuran koleksi model bahasa besar multibahasa (LLM) Llama 3.2 yang telah dipra-latih dan disesuaikan dengan instruksi di MetaConnect awal hari ini.
Terutama, Llama 3.2 menandai terjun pertama Meta ke AI multimodal: rilis mencakup dua model, dalam ukuran 11B dan 90B, yang dapat mengambil gambar sebagai input. Model Llama 3.2 90B Vision dan 11B Vision yang telah disetel dengan instruksi kini tersedia di watsonx.ai melalui SaaS.
Juga hadir di watsonx.ai adalah model Llama terkecil sejauh ini: dua LLM text-in, text-out berukuran 1B dan 3B. Semua model Llama 3.2 mendukung panjang konteks yang panjang (hingga 128K token) dan dioptimalkan untuk inferensi yang cepat dan efisien melalui attention kueri yang dikelompokkan. Meta telah menetapkan bahwa bahasa Inggris, Jerman, Prancis, Italia, Portugis, Hindi, Spanyol, dan Thailand secara resmi didukung, namun mencatat bahwa Llama 3.2 dilatih—dan pengembang dapat melakukan penyempurnaan model Llama 3.2—untuk bahasa tambahan di luar 8 bahasa tersebut.
Penambahan terbaru dari Meta ini melengkapi luasnya perpustakaan model dasar yang tersedia di watsonx.ai , selaras dengan strategi terbuka dan multi-model IBM® menuju AI generatif.
“Dengan membuat model Llama 3.2 terbaru kami tersedia di watsonx, jauh lebih banyak perusahaan dapat memperoleh manfaat dari inovasi ini dan menerapkan model terbaru kami tanpa repot, sesuai persyaratan mereka sendiri, dan di seluruh lingkungan hybrid cloud,” ujar Ahmad Al-Dahle, Kepala Gen AI, Meta. “Di Meta, kami percaya bahwa sangat penting untuk menyesuaikan solusi AI dengan kebutuhan spesifik setiap organisasi dan memberdayakan mereka untuk menskalakan penerapan Llama dengan mudah. Kemitraan kami dengan IBM®, sebuah organisasi yang berbagi komitmen kami terhadap keterbukaan, keselamatan, keamanan, kepercayaan, dan transparansi, memungkinkan kami melakukan hal tersebut.”
Baca terus untuk mengetahui detail lebih lanjut tentang koleksi Llama 3.2, termasuk kemampuan multimodal terbaru, peluang penerapan baru di perangkat mobile dan perangkat edge lainnya, fitur keselamatan yang diperbarui, dan berbagai hal lainnya.
Tidak seperti pendahulu LLM khusus teks dalam seri Llama, Llama 3.2 11B, dan Llama 3.2 90B telah memperluas kemampuannya untuk mencakup contoh penggunaan gambar masuk, teks keluar, seperti pemahaman tingkat dokumen, interpretasi bagan dan grafik, serta teks pada gambar. Pengembang kini memiliki akses ke model penalaran visual yang kuat, mendekati kemampuan canggih model tertutup, sekaligus menawarkan fleksibilitas penuh dan kemampuan penyesuaian model terbuka.
LLM visi multimodal Llama 3.2 yang baru dapat menalar gambar beresolusi tinggi hingga 1120x1120 piksel, memungkinkan penggunaannya untuk tugas-tugas visi komputer termasuk klasifikasi, deteksi dan identifikasi objek, transkripsi gambar-ke-teks (termasuk tulisan tangan) melalui pengenalan karakter optik (OCR), tanya jawab kontekstual, ekstraksi dan pemrosesan data, perbandingan gambar, serta bantuan visual pribadi.
Pendekatan multimodalitas ini memiliki 3 manfaat utama.
Kedua model ini berkinerja baik pada tolok ukur multimodal umum untuk model bahasa visual (VLM), mendekati skor tertinggi untuk model terbuka dan sering menyaingi model tertutup yang canggih. Misalnya, Llama 3.2 90B-Vision yang disetel dengan instruksi menyamai GPT-4o OpenAI dalam pemahaman grafik (ChartQA) dan mengungguli Claude 3 Opus Anthropic serta Gemini 1.5 Pro Google dalam menafsirkan diagram ilmiah (AI2D).1
Demikian juga, Llama 3.2 11B-Vision mencapai skor tolok ukur kompetitif untuk kelas beratnya, mengalahkan Gemini 1.5 Flash 8B pada visual dokumen Q&A (DocVQA), mengungguli Claude 3 Haiku dan Claude 3 Sonnet di AI2D, ChartQA, dan penalaran matematika visual (MathVista), serta menyaingi Pixtral 12B dan Qwen2-VL 7B pada visual umum Q&A (VQAV2).2
Koleksi Llama 3.2 juga mencakup varian dengan parameter 1B dan 3B, mewakili model Llama terkecil.
Ukuran model yang kecil serta persyaratan komputasi dan memori yang sederhana memungkinkan Llama dijalankan secara lokal pada sebagian besar perangkat keras, termasuk perangkat mobile dan perangkat edge lainnya. Hal ini memberi Llama 3.2 1B dan Llama 3.2 3B potensi untuk memicu gelombang inovasi dalam aplikasi lokal dan AI agen. Meskipun ada banyak keuntungan dari model ringkas dan berkinerja tinggi seperti ini, dua yang mungkin paling penting adalah:
Berjalan secara lokal, model Llama 3.2 yang ringan ini dapat berfungsi sebagai agen hemat biaya untuk mengoordinasikan aplikasi di perangkat, termasuk RAG, ringkasan multibahasa, dan pendelegasian subtugas. Model ini juga dapat digunakan untuk menekan biaya penerapan model keselamatan seperti Llama Guard—versi multimodal terbaru yang turut hadir dalam rilis Meta hari ini dan tersedia di watsonx.
Kedua model Llama ringan yang baru melampaui bobot mereka pada tolok ukur kinerja, terutama pada tugas-tugas utama AI agen. Misalnya, Llama 3.2 berukuran 3B menyamai kemampuan Llama 3.1 8B yang lebih besar dalam penggunaan alat (BFCL v2) dan melampauinya dalam ringkasan (TLDR9 +), sementara model 1B juga menyaingi keduanya dalam tugas ringkasan dan penulisan ulang. Dalam indikasi yang jelas tentang seberapa jauh LLM terbuka telah berkembang dalam waktu singkat, Llama 3.2 berukuran 3B secara signifikan melampaui GPT-4 asli pada tolok ukur MATH.
Dengan ketersediaan model AI yang kuat yang terus meningkat, membangun keunggulan kompetitif hanya dengan solusi siap pakai akan menjadi semakin sulit. Model terbuka Llama menyaingi bahkan model yang paling kuat pada tolok ukur kinerja sementara juga menawarkan penyesuaian, transparansi, dan fleksibilitas yang tidak mungkin dilakukan dengan model tertutup.
Dukungan untuk Llama 3.2 merupakan bagian dari komitmen IBM® untuk memajukan inovasi sumber terbuka dalam AI dan memberikan klien akses ke model terbuka terbaik di kelasnya di watsonx, termasuk model pihak ketiga dan keluarga model IBM® Granite.
IBM® watsonx membantu klien benar-benar menyesuaikan implementasi model sumber terbuka seperti Llama 3.2, mulai dari fleksibilitas penuh dalam penerapan hingga alur kerja intuitif untuk penyempurnaan, rekayasa prompt, dan integrasi dengan aplikasi. Membuat aplikasi AI khusus untuk bisnis Anda dengan mudah, mengelola semua sumber data, dan mempercepat alur kerja AI yang bertanggung jawab—semuanya dalam satu platform.
Model-model berikut ini tersedia saat ini di IBM® watsonx.ai:
Mereka akan bergabung dengan model Llama 3.2 yang telah dipra-latih dalam beberapa minggu mendatang. Model “-Instruct” semuanya telah menjalani penyempurnaan yang diawasi (SFT) dan pembelajaran penguatan dengan masukan manusia (RLHF) untuk penyelarasan yang lebih baik dengan contoh penggunaan umum serta preferensi manusia terkait bantuan dan keamanan, masing-masing.
