Gemma adalah keluarga model bahasa kecil (SLM) dari Google yang gratis dan terbuka. Solusi ini dibangun dari teknologi yang sama dengan keluarga Gemini dari model bahasa besar (LLM) dan dianggap sebagai versi “ringan” dari Gemini.
Karena lebih ringan daripada model Gemini, model Gemma dapat diterapkan di laptop dan perangkat mobile, tetapi juga dioptimalkan untuk unit pemrosesan grafis (GPU) NVIDIA dan unit pemrosesan tensor (TPU) Google Cloud. Namun tidak seperti Gemini, Gemma tidak multibahasa atau multi modal.
Model kecerdasan buatan (AI) teks-ke-teks ini mendapatkan namanya dari kata Latin yang sama, yang berarti “batu mulia.” Gemma adalah kelompok model terbuka, dengan Google menyediakan akses gratis ke bobot model, dan model tersedia secara bebas untuk penggunaan dan distribusi ulang secara individu dan komersial.1
Model generasi pertama Gemma diperkenalkan pada bulan Februari 2024,1 sedangkan model generasi kedua diumumkan pada bulan Juni 2024.2
Koleksi model AI Gemma termasuk Gemma dan Gemma 2 pada intinya, ditambah beberapa model khusus yang telah dioptimalkan untuk tugas-tugas tertentu dan memiliki arsitektur berbeda yang mendasarinya. Model dalam lini Gemma memiliki varian dasar atau pra-latih dan varian yang disetel instruksi.
Gemma adalah generasi pertama dari model Gemma. Gemma 2B adalah yang terkecil dengan 2 miliar parameter, sedangkan Gemma 7B memiliki 7 miliar parameter. Model-model ini dilatih pada kumpulan data kode dan matematika dan sebagian besar konten berbahasa Inggris dari dokumen web.3
Gemma 2 adalah generasi kedua dari keluarga Gemma. Menurut Google, Gemma 2 memiliki kinerja yang lebih baik dan lebih efisien dalam inferensi AI (saat model menghasilkan respons terhadap kueri pengguna) dibandingkan dengan pendahulunya.2
Model ini tersedia dalam ukuran parameter 2, 9, dan 27 miliar. Kumpulan data pelatihan mereka mencakup dokumen web berbahasa Inggris, kode, dan artikel sains.4
Model teks-ke-kode ini disesuaikan untuk tugas pengodean fine-tuned. Mendukung berbagai bahasa pemrograman, termasuk C++, C#, Go, Java, JavaScript, Kotlin, Python, dan Rust.5
CodeGemma memiliki varian 7B yang telah dilatih sebelumnya untuk pelengkapan kode dan pembuatan kode, varian 7B yang telah disesuaikan dengan instruksi untuk obrolan kode bahasa alami dan mengikuti instruksi, dan varian 2B yang telah dilatih sebelumnya untuk pelengkapan kode yang cepat.5
DataGemma terdiri dari model Gemma dan Gemma 2 yang telah disetel dengan baik yang melengkapi respons mereka dengan data dari Data Commons Google, sebuah repositori data statistik publik. Model RIG DataGemma menerapkan generasi pengambilan yang disisipkan untuk membuat kueri bahasa alami untuk mendapatkan data dari Data Commons. Sementara itu, model DataGemma RAG menggunakan generasi dengan dukungan pengambilan data untuk mengambil data dari Data Commons yang dapat menambah prompt model.6
Model bahasa visi ini menerima gambar dan teks sebagai input dan menghasilkan teks sebagai hasil. Dengan demikian, model ini ideal untuk menjawab pertanyaan tentang gambar, mendeteksi objek dalam gambar, menghasilkan keterangan gambar, dan membaca teks yang disematkan dalam gambar. Arsitektur yang mendasarinya terdiri dari enkoder gambar transformator visi dan dekoder teks transformator yang diinisialisasi dari Gemma 2B.7
PaliGemma memiliki seperangkat model yang sudah terlatih untuk tujuan umum dan seperangkat model yang berorientasi penelitian yang disesuaikan dengan kumpulan data tertentu. Google mencatat bahwa sebagian besar model PaliGemma memerlukan penyempurnaan, dan hasilnya harus diuji sebelum penerapan kepada pengguna.8
RecurrentGemma menggunakan arsitektur neural networks berulang yang dikembangkan oleh para peneliti Google. Ini membuatnya lebih cepat dalam menyimpulkan—terutama saat menghasilkan urutan panjang—dan membutuhkan lebih sedikit memori daripada Gemma. Tersedia dalam model 2B dan 9B yang telah dilatih dan disetel sesuai instruksi.9
CodeGemma dan PaliGemma memiliki contoh penggunaan khusus mereka sendiri. Tetapi secara umum, orang dapat menggunakan Gemma untuk pemrosesan bahasa alami (NLP) dan tugas pemahaman bahasa alami, termasuk:
Gemma didasarkan pada model transformer, sebuah arsitektur neural network yang berasal dari Google pada tahun 2017.10
Berikut gambaran singkat tentang cara kerja model transformer:
Enkoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input.
Mekanisme perhatian diri memungkinkan transformer untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya.
Dekoder menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.
Namun, Gemma menggunakan variasi arsitektur transformer yang dikenal sebagai transformer dekoder saja.11 Dalam model ini, urutan input dimasukkan langsung ke dalam dekoder, yang masih menggunakan mekanisme penyematan dan perhatian untuk menghasilkan urutan hasil.
Model generasi pertama Gemma menyempurnakan transformer melalui beberapa elemen arsitektural:
Setiap lapisan neural networks menerapkan penyematan posisi putar alih-alih penyematan posisi absolut. Penyematan juga dibagikan di seluruh input dan hasil untuk mengompres model.3
Gemma 7B menggunakan perhatian multihead, dengan beberapa “kepala perhatian“ yang memiliki kunci dan nilainya sendiri untuk menangkap berbagai jenis hubungan antar token. Sebaliknya, Gemma 2B menggunakan perhatian multiquery, di mana semua kepala perhatian berbagi satu set kunci dan nilai, sehingga meningkatkan kecepatan dan mengurangi beban memori.11
Gemma 2 menggunakan neural networks yang lebih dalam daripada Gemma. Berikut adalah beberapa perbedaan arsitektur penting lainnya:4
Untuk setiap lapisan neural network, Gemma 2 berganti-ganti antara perhatian jendela geser lokal dan perhatian global. Perhatian jendela geser lokal adalah mekanisme dinamis untuk berfokus pada “jendela” berukuran tetap tertentu dari input sequences, yang memungkinkan model untuk berkonsentrasi hanya pada beberapa kata dalam satu waktu. Sementara itu, perhatian global memperhatikan setiap token dalam urutan tersebut.
Gemma 2 juga menggunakan perhatian kueri yang dikelompokkan, sebuah pendekatan bagi-dan-menaklukkan yang membagi kueri ke dalam kelompok yang lebih kecil dan menghitung perhatian di dalam setiap kelompok secara terpisah.
Selain itu, model Gemma 2, 2B dan 9B menerapkan penyulingan pengetahuan, yang memerlukan “penyulingan” pengetahuan model yang lebih besar menjadi pengetahuan yang lebih kecil dengan melatih model yang lebih kecil untuk meniru proses penalaran model yang lebih besar dan mencocokkan prediksinya.
Dalam hal penyetelan instruksi, yang membuat model dapat mengikuti instruksi dengan lebih baik, Gemma dan Gemma 2 menerapkan penyetelan yang diawasi dan pembelajaran penguatan dari masukan manusia (RLHF).4 Penyempurnaan yang diawasi menggunakan contoh-contoh berlabel dari tugas-tugas yang berorientasi pada instruksi untuk mengajarkan model bagaimana menyusun responsnya. Sementara itu, RLHF menggunakan model penghargaan untuk menerjemahkan peringkat kualitas dari penilai manusia menjadi sinyal penghargaan numerik, membantu model mempelajari respons mana yang akan mendapatkan masukan positif.
Evaluasi kinerja Gemma 7B dalam tolok ukur LLM yang mencakup pembuatan kode, penalaran akal sehat, pemahaman bahasa, penalaran matematis dan jawaban pertanyaan menunjukkan bahwa itu sebanding dengan SLM dengan skala yang sama seperti Llama 3 8B dan Mistral 7B. Gemma 2 9B dan 27B tampil lebih baik, melampaui Llama 3 8B dan Mistral 7B di sebagian besar tolok ukur.12
Namun, Llama 3.2 3B dan Ministral 3B, SLM terbaru dari Meta dan Mistral, masing-masing telah melampaui Gemma 2 2B dalam berbagai tolak ukur.13 Phi-3-mini dari Microsoft, sebuah model bahasa dengan 3,8 miliar parameter, juga mendapatkan kinerja yang lebih tinggi daripada Gemma 7B.14
Model Gemma dapat diakses melalui platform ini:
Google AI Studio
Hugging Face (juga terintegrasi ke dalam Hugging Face Transformers)
Kaggle
Vertex AI Model Garden
Selain itu, pengembang dapat mengimplementasikan model dalam kerangka kerja machine learning sumber terbuka seperti JAX, LangChain, PyTorch, dan TensorFlow, dan melalui antarmuka pemrograman aplikasi (API) seperti Keras 3.0. Selain itu, karena Gemma mencakup pengoptimalan di seluruh GPU NVIDIA, pengembang dapat menggunakan peralatan NVIDIA, termasuk kerangka kerja NeMo untuk fine-tuning model dan TensorRT-LLM untuk mengoptimalkannya demi inferensi yang efisien pada GPU NVIDIA.
Untuk pengembangan AI perusahaan, model Gemma dapat diterapkan di Google Cloud Vertex AI dan Google Kubernetes Engine (GKE). Bagi mereka yang memiliki daya terbatas, Google Colab menyediakan akses berbasis cloud gratis ke sumber daya seperti GPU dan TPU.
Seperti model AI lainnya, Google Gemma terus bergulat dengan risiko AI, termasuk:
Bias: Model yang lebih kecil bisa belajar dari bias yang ada pada model yang lebih besar, dan efek domino ini bisa tercermin pada Hasil.
Halusinasi: Memverifikasi dan memantau hasil SLMs seperti Gemma sangat penting untuk memastikan bahwa apa yang mereka hasilkan akurat dan sesuai fakta.
Pelanggaran privasi: Google mencatat bahwa kumpulan data pelatihan untuk Gemma dan Gemma 2 telah difilter untuk menghapus informasi pribadi tertentu dan data sensitif lainnya.4 Namun, pengguna individu dan perusahaan masih harus berhati-hati dengan data yang mereka gunakan untuk fine tuning Gemma agar tidak membocorkan data pribadi atau kepemilikan apa pun.
Dalam hal keselamatan dan keamanan, Google mengevaluasi Gemma pada beberapa metrik, termasuk keamanan siber ofensif, pengetahuan CBRN (kimia, biologi, radiologis dan nuklir), proliferasi diri (kemampuan untuk mereplikasi secara mandiri) dan persuasi. Pengetahuan Gemma dalam domain CBRN rendah. Demikian pula, model ini memiliki kemampuan yang rendah dalam keamanan siber ofensif, proliferasi diri, dan persuasi.4
Google juga merilis Responsible Generative AI Toolkit untuk membantu para peneliti dan pengembang AI membangun aplikasi AI yang bertanggung jawab dan aman.1
Semua tautan berada di luar ibm.com
1 Gemma: Memperkenalkan model terbuka canggih baru Google, 21 Februari 2024
2 Gemma 2 sekarang tersedia untuk peneliti dan pengembang, Google, 27 Juni 2024
3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind, 21 Februari 2024
4 Gemma 2: Meningkatkan Model Bahasa Terbuka dengan Ukuran Praktis, Google DeepMind, 27 Juni 2024
5 Kartu modelCodeGemma, Google AI untuk pengembang, 5 Agustus 2024
6 Mengetahui Saat Harus Bertanya — Gabungan Model Bahasa Besar dan Data, arXiv, 10 September 2024
7 Kartu modelPaliGemma, GoogleAI untuk pengembang, 5 Agustus 2024
8 PaliGemma, Google AI untuk pengembang, 5 Agustus 2024
9 Kartu model RecurrentGemma Google AI untuk pengembang, 5 Agustus 2024
10 Transformer: Arsitektur Jaringan Neural Networks untuk Pemahaman Bahasa, Google Research, 31 Agustus 2017
11 Penjelasan Gemma: Tinjauan umum arsitektur keluarga model Gemma, Google untuk Developer, 15 Agustus 2024
12 Gemma Open Models, Google AI untuk Pengembang, diakses 5 November 2024
13 Un Ministral, des Ministraux, Mistral AI, 16 Oktober 2024
14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 April 2024
Temukan IBM Granite, rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Jelajahi artikel, blog, dan tutorial di IBM Developer untuk memperdalam pemahaman Anda tentang LLM.
Pelajari cara terus mendorong tim untuk meningkatkan kinerja model dan unggul dalam persaingan dengan menggunakan teknik dan infrastruktur AI terbaru.
Jelajahi nilai model dasar kelas enterprise yang memberikan kepercayaan, kinerja, dan manfaat hemat biaya bagi semua industri.
Pelajari cara menggabungkan AI generatif, machine learning, dan model dasar ke dalam operasi bisnis Anda untuk meningkatkan kinerja.
Baca lebih dari 2.000 organisasi yang kami survei tentang inisiatif AI mereka untuk mengetahui hal yang berhasil, yang tidak, dan cara Anda bisa maju.
Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.
Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.
Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.