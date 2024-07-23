Pada Selasa, 23 Juli, Meta mengumumkan peluncuran koleksi model bahasa besar multibahasa (LLMs) Llama 3.1. Llama 3.1 terdiri atas model AI generatif sumber terbuka yang telah dipra‐latih dan disetel untuk instruksi input teks/output teks dalam ukuran 8B, 70B, dan—untuk pertama kalinya—405B parameter.
Llama 3.1-405B yang disetel dengan instruksi, dianggap sebagai model bahasa sumber terbuka terbesar dan paling kuat yang tersedia saat ini dan bersaing dengan model berpemilik terbaik di pasar, akan tersedia di IBM® watsonx.ai hari ini di mana solusi ini dapat diterapkan di IBM® Cloud, di lingkungan hybrid cloud atau lokal.
Rilis Llama 3.1 mengikuti peluncuran model Llama 3 18 April. Dalam pengumuman peluncuran yang menyertainya, Meta menyatakan bahwa “tujuan [mereka] dalam waktu dekat adalah membuat Llama 3 multibahasa dan multimodal, memiliki konteks yang lebih panjang, dan terus meningkatkan kinerja keseluruhan di seluruh kemampuan LLM seperti penalaran dan pengodean.”
Peluncuran Llama 3.1 hari ini menunjukkan kemajuan signifikan menuju tujuan tersebut, mulai dari peningkatan panjang konteks secara drastis hingga perluasan penggunaan alat dan kemampuan multibahasa.
Pada Desember 2023, Meta dan IBM® meluncurkan AI Alliance bekerja sama dengan lebih dari 50 anggota pendiri dan kolaborator global. Mengumpulkan organisasi terkemuka di seluruh— industri, startup, akademisi, riset, dan pemerintahan, AI Alliance bertujuan membentuk evolusi AI agar sebaik mungkin mencerminkan kebutuhan dan kompleksitas masyarakat kita. Sejak didirikan, Alliance ini telah berkembang menjadi lebih dari 100 anggota.
Lebih khusus lagi, Alliance AI bertujuan membina komunitas terbuka yang memungkinkan pengembang dan peneliti mempercepat inovasi yang bertanggung jawab sambil memastikan kepercayaan, keselamatan, keamanan, keberagaman, keteguhan ilmiah, dan daya saing ekonomi. Untuk itu, Alliance mendukung proyek-proyek yang mengembangkan dan menerapkan tolok ukur serta standar evaluasi, membantu mengatasi tantangan masyarakat luas, mendukung pengembangan keterampilan AI global, dan mendorong pengembangan AI secara terbuka dengan cara yang aman dan bermanfaat.
Llama 3.1 memajukan misi tersebut dengan menyediakan komunitas AI global keluarga model yang terbuka dan canggih serta ekosistem pengembangan untuk membangun, bereksperimen, dan secara bertanggung jawab menskalakan ide serta pendekatan baru. Di samping model barunya yang kuat, rilis ini mencakup langkah-langkah keamanan tingkat sistem yang kuat, langkah-langkah evaluasi keamanan siber yang baru, dan pagar pembatas waktu kesimpulan yang diperbarui. Secara kolektif, sumber daya ini mendorong standardisasi dalam pengembangan dan penggunaan alat kepercayaan dan keselamatan untuk AI generatif.
Model Llama yang akan datang dengan “lebih dari 400B parameter” dibahas dalam pengumuman Llama 3 bulan April, termasuk beberapa evaluasi awal kinerja model, tetapi ukuran dan spesifikasi tepatnya tidak dipublikasikan hingga peluncuran hari ini. Sementara Llama 3.1 mewakili peningkatan besar di semua ukuran model, model sumber terbuka 405B yang baru mencapai tingkat paritas yang belum pernah terjadi sebelumnya dengan LLM berpemilik dan sumber tertutup terkemuka.
Angka terbaru yang dirilis oleh Meta hari ini memberikan gambaran komprehensif tentang betapa mengesankannya tumpukan model 405B dibandingkan penawaran canggih lainnya. Berikut perbandingannya dengan LLM terkemuka di berbagai tolok ukur umum.[1]
Saat membandingkan 405B dengan model mutakhir lainnya, tolok ukur kinerja bukan satu-satunya faktor yang perlu dipertimbangkan. Tidak seperti rekan-rekan sumber tertutupnya yang hanya dapat diakses melalui API dan model dasarnya dapat berubah tanpa pemberitahuan Llama 3.1-405B menawarkan platform stabil yang dapat dibangun, dimodifikasi, dan bahkan dijalankan secara lokal. Tingkat kontrol dan prediktabilitas tersebut menjadi keuntungan besar bagi peneliti, perusahaan, dan entitas lain yang mengutamakan konsistensi serta kemampuan reproduksi.
IBM®, seperti Meta, percaya bahwa ketersediaan model terbuka yang layak memfasilitasi produk yang lebih baik dan lebih aman, mempercepat inovasi dan berkontribusi pada pasar AI yang lebih sehat secara keseluruhan. Skala dan kemampuan model sumber terbuka 405B-parameter yang canggih menghadirkan peluang unik dan contoh penggunaan untuk organisasi dari semua ukuran.
Selain penggunaan langsung model untuk inferensi dan pembuatan teks—yang, mengingat ukurannya dan tuntutan komputasi yang sesuai, mungkin memerlukan kuantisasi atau metode pengoptimalan lain agar dapat berjalan secara lokal pada sebagian besar konfigurasi perangkat keras—405B juga dapat dimanfaatkan untuk:
Untuk peluncuran yang sukses dengan model Llama 3.1, Meta AI “sangat merekomendasikan” penggunaan platform yang, seperti IBM® watsonx, menawarkan fitur inti untuk evaluasi model, pembatas keselamatan, dan Retrieval-Augmented Generation (RAG).
Model 405B yang telah lama dinantikan mungkin menjadi aspek paling signifikan dari rilis Llama 3.1, namun hal ini jauh dari satu-satunya elemen yang layak mendapat perhatian. Meskipun model Llama 3.1 menggunakan arsitektur transformator padat yang sama seperti Llama 3, model-model ini menghadirkan sejumlah peningkatan signifikan dibandingkan rekan Llama 3 mereka di seluruh ukuran model.
Untuk semua model Llama 3.1 yang telah dipra-latih dan disetel dengan instruksi, panjang konteks telah diperluas secara signifikan dari 8.192 token pada Llama 3 menjadi 128.000 token pada Llama 3.1—sebuah peningkatan luar biasa sebesar 1600%. Hal ini membuat panjang konteks Llama 3.1 setara dengan versi GPT-4o yang tersedia bagi pengguna perusahaan, secara signifikan lebih besar dibandingkan GPT-4 (atau versi GPT-4o di ChatGPT Free) dan sebanding dengan jendela 200.000 token yang ditawarkan oleh Claude 3. Karena Llama 3.1 dapat diterapkan pada perangkat keras pengguna atau pada penyedia cloud pilihan mereka, panjang konteksnya tidak terpengaruh oleh pembatasan sementara selama periode permintaan tinggi. Demikian juga, Llama 3.1 secara umum tidak terpengaruh oleh batas penggunaan yang luas.
Panjang konteks model, atau jendela konteksnya, mengacu pada jumlah total teks (dalam token) yang dapat dipertimbangkan atau “diingat” oleh LLM pada satu waktu. Ketika percakapan, dokumen, atau basis kode melebihi panjang konteks maksimum model, konten tersebut harus dipangkas atau diringkas agar model dapat melanjutkan. Jendela konteks Llama 3.1 yang diperluas berarti model Llama kini dapat melakukan percakapan yang jauh lebih panjang tanpa melupakan detail, serta menyerap dokumen atau sampel kode yang jauh lebih besar selama pelatihan dan inferensi.
Meskipun mengubah teks menjadi token tidak memerlukan “nilai tukar” kata-ke-token yang tetap, perkiraan yang masuk akal adalah sekitar 1,5 token per kata. Jendela konteks 128.000 token pada Llama 3.1 dengan demikian setara dengan sekitar 85.000 kata. Tokenizer Playground di Hugging Face adalah cara mudah untuk melihat dan bereksperimen dengan bagaimana model yang berbeda memberi token pada input teks.
Model Llama 3.1 terus menikmati manfaat dari tokenizer baru yang diluncurkan untuk Llama 3, yang mengodekan bahasa jauh lebih efisien dibandingkan Llama 2.
Sesuai dengan pendekatan yang bertanggung jawab terhadap inovasi, Meta tetap berhati-hati dan cermat dalam pendekatannya terhadap konteks yang diperluas. Perlu dicatat bahwa upaya sumber terbuka eksperimental sebelumnya telah menghasilkan turunan Llama dengan jendela 128.000 token, atau bahkan jendela 1M token. Meskipun proyek-proyek ini merupakan contoh yang sangat baik dari manfaat komitmen Meta untuk membuka model, proyek-proyek tersebut harus didekati dengan hati-hati: riset terbaru menunjukkan bahwa jendela konteks yang sangat panjang “menyediakan permukaan serangan yang luas bagi LLM” tanpa penanggulangan yang ketat.
Untungnya, rilis Llama 3.1 juga menyertakan seperangkat pagar pembatas inferensi yang baru. Bersamaan dengan versi terbaru dari Llama Guard dan CyberSec Eval, rilis ini dilengkapi dengan pengenalan Prompt Guard, yang menyediakan penyaringan terhadap injeksi prompt secara langsung maupun tidak langsung. Meta menyediakan mitigasi risiko tambahan melalui CodeShield, alat penyaringan waktu inferensi yang kuat yang dirancang untuk mencegah penyisipan kode tidak aman yang dihasilkan LLM ke dalam sistem produksi.
Seperti halnya implementasi AI generatif lainnya, selalu bijaksana untuk hanya menerapkan model pada platform dengan langkah-langkah keamanan, privasi, dan keselamatan yang kuat.
Baik model Llama 3.1 yang telah dilatih sebelumnya maupun yang disetel dengan instruksi, dalam semua ukuran, sekarang akan multibahasa. Selain bahasa Inggris, model Llama 3.1 fasih dalam bahasa tambahan, termasuk Spanyol, Portugis, Italia, Jerman, dan Thailand. Meta telah mencatat bahwa “beberapa bahasa lain” masih dalam validasi pasca-pelatihan dan dapat dirilis di masa mendatang.
Model Llama 3.1 Instruct disesuaikan dengan baik untuk “penggunaan alat,” yang berarti Meta telah mengoptimalkan kemampuannya untuk berinteraksi dengan program tertentu yang melengkapi atau memperluas kemampuan LLM. Ini mencakup pelatihan untuk menghasilkan pemanggilan alat bagi pencarian spesifik, pembuatan gambar, eksekusi kode, dan alat penalaran matematis, serta dukungan untuk penggunaan alat tanpa bidikan—yaitu kemampuan untuk terintegrasi secara mulus dengan alat yang sebelumnya tidak terlihat selama pelatihan.
Rilis terbaru Meta memberikan peluang yang belum pernah terjadi sebelumnya untuk melakukan tuning dan menyesuaikan model AI generatif sesuai contoh penggunaan spesifik Anda.
Dukungan untuk Llama 3.1 merupakan bagian dari komitmen IBM® untuk mendorong inovasi sumber terbuka dalam AI dan menyediakan bagi klien kami akses ke model terbuka terbaik di kelasnya di watsonx, termasuk model pihak ketiga dan keluarga model IBM® Granite.
IBM® watsonx membantu klien benar-benar menyesuaikan implementasi model sumber terbuka seperti Llama 3.1 agar selaras dengan kebutuhan mereka, mulai dari fleksibilitas penerapan model secara on-premises atau di lingkungan cloud pilihan mereka hingga alur kerja intuitif untuk fine-tuning, rekayasa prompt, dan integrasi dengan aplikasi perusahaan. Membuat aplikasi AI khusus untuk bisnis Anda dengan mudah, mengelola semua sumber data, dan mempercepat alur kerja AI yang bertanggung jawab—semuanya dalam satu platform.
Llama 3.1-405B akan tersedia di IBM® watsonx.ai hari ini, dengan model 8B dan 70B segera menyusul.
Mulai tutorial RAG dengan Llama 3.1-405B dan watsonx.ai hari ini:
[1] Evaluasi tolok ukur yang dikutip untuk model eksklusif berasal dari angka yang dilaporkan langsung oleh Anthropic pada 20 Juni 2024 (untuk Claude 3.5 Sonnet dan Claude 3 Opus), 4 Maret 2024 (untuk Claude 3 Sonnet dan Haiku), OpenAI pada 13 Mei 2024 (untuk model GPT), dan Google Deepmind pada Mei 2024 (untuk model Gemini).