Apa itu Google Gemma?

Penyusun

Staff Writer

IBM Think

Apa itu Google Gemma?

Gemma adalah keluarga model bahasa kecil (SLM) dari Google yang gratis dan terbuka. Solusi ini dibangun dari teknologi yang sama dengan keluarga Gemini dari model bahasa besar (LLM) dan dianggap sebagai versi “ringan” dari Gemini.

Karena lebih ringan daripada model Gemini, model Gemma dapat diterapkan di laptop dan perangkat mobile, tetapi juga dioptimalkan untuk unit pemrosesan grafis (GPU) NVIDIA dan unit pemrosesan tensor (TPU) Google Cloud. Namun tidak seperti Gemini, Gemma tidak multibahasa atau multi modal.

Model kecerdasan buatan (AI) teks-ke-teks ini mendapatkan namanya dari kata Latin yang sama, yang berarti “batu mulia.” Gemma adalah kelompok model terbuka, dengan Google menyediakan akses gratis ke bobot model, dan model tersedia secara bebas untuk penggunaan dan distribusi ulang secara individu dan komersial.¹

Model generasi pertama Gemma diperkenalkan pada bulan Februari 2024^,1 sedangkan model generasi kedua diumumkan pada bulan Juni 2024.²

Kelompok model Gemma

Koleksi model AI Gemma termasuk Gemma dan Gemma 2 pada intinya, ditambah beberapa model khusus yang telah dioptimalkan untuk tugas-tugas tertentu dan memiliki arsitektur berbeda yang mendasarinya. Model dalam lini Gemma memiliki varian dasar atau pra-latih dan varian yang disetel instruksi.

Gemma

Gemma adalah generasi pertama dari model Gemma. Gemma 2B adalah yang terkecil dengan 2 miliar parameter, sedangkan Gemma 7B memiliki 7 miliar parameter. Model-model ini dilatih pada kumpulan data kode dan matematika dan sebagian besar konten berbahasa Inggris dari dokumen web.³

Gemma 2

Gemma 2 adalah generasi kedua dari keluarga Gemma. Menurut Google, Gemma 2 memiliki kinerja yang lebih baik dan lebih efisien dalam inferensi AI (saat model menghasilkan respons terhadap kueri pengguna) dibandingkan dengan pendahulunya.²

Model ini tersedia dalam ukuran parameter 2, 9, dan 27 miliar. Kumpulan data pelatihan mereka mencakup dokumen web berbahasa Inggris, kode, dan artikel sains.⁴

CodeGemma

Model teks-ke-kode ini disesuaikan untuk tugas pengodean fine-tuned. Mendukung berbagai bahasa pemrograman, termasuk C++, C#, Go, Java, JavaScript, Kotlin, Python, dan Rust.⁵

CodeGemma memiliki varian 7B yang telah dilatih sebelumnya untuk pelengkapan kode dan pembuatan kode, varian 7B yang telah disesuaikan dengan instruksi untuk obrolan kode bahasa alami dan mengikuti instruksi, dan varian 2B yang telah dilatih sebelumnya untuk pelengkapan kode yang cepat.⁵

DataGemma

DataGemma terdiri dari model Gemma dan Gemma 2 yang telah disetel dengan baik yang melengkapi respons mereka dengan data dari Data Commons Google, sebuah repositori data statistik publik. Model RIG DataGemma menerapkan generasi pengambilan yang disisipkan untuk membuat kueri bahasa alami untuk mendapatkan data dari Data Commons. Sementara itu, model DataGemma RAG menggunakan generasi dengan dukungan pengambilan data untuk mengambil data dari Data Commons yang dapat menambah prompt model.⁶

PaliGemma

Model bahasa visi ini menerima gambar dan teks sebagai input dan menghasilkan teks sebagai hasil. Dengan demikian, model ini ideal untuk menjawab pertanyaan tentang gambar, mendeteksi objek dalam gambar, menghasilkan keterangan gambar, dan membaca teks yang disematkan dalam gambar. Arsitektur yang mendasarinya terdiri dari enkoder gambar transformator visi dan dekoder teks transformator yang diinisialisasi dari Gemma 2B.⁷

PaliGemma memiliki seperangkat model yang sudah terlatih untuk tujuan umum dan seperangkat model yang berorientasi penelitian yang disesuaikan dengan kumpulan data tertentu. Google mencatat bahwa sebagian besar model PaliGemma memerlukan penyempurnaan, dan hasilnya harus diuji sebelum penerapan kepada pengguna.⁸

RecurrentGemma

RecurrentGemma menggunakan arsitektur neural networks berulang yang dikembangkan oleh para peneliti Google. Ini membuatnya lebih cepat dalam menyimpulkan—terutama saat menghasilkan urutan panjang—dan membutuhkan lebih sedikit memori daripada Gemma. Tersedia dalam model 2B dan 9B yang telah dilatih dan disetel sesuai instruksi.⁹

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Contoh penggunaan Gemma

CodeGemma dan PaliGemma memiliki contoh penggunaan khusus mereka sendiri. Tetapi secara umum, orang dapat menggunakan Gemma untuk pemrosesan bahasa alami (NLP) dan tugas pemahaman bahasa alami, termasuk:

Membangun asisten AI percakapan dan chatbot
Pengeditan dan pengoreksian
Jawaban pertanyaan dan penelitian
Pembuatan teks, seperti email, salinan iklan, dan konten lainnya
Peringkasan teks, terutama untuk dokumen yang panjang dan laporan atau makalah penelitian dalam jumlah besar

Bagaimana cara kerja Google Gemma?

Gemma didasarkan pada model transformer, sebuah arsitektur neural network yang berasal dari Google pada tahun 2017.¹⁰

Berikut gambaran singkat tentang cara kerja model transformer:

Enkoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input.

Mekanisme perhatian diri memungkinkan transformer untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya.

Dekoder menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.

Namun, Gemma menggunakan variasi arsitektur transformer yang dikenal sebagai transformer dekoder saja.¹¹ Dalam model ini, urutan input dimasukkan langsung ke dalam dekoder, yang masih menggunakan mekanisme penyematan dan perhatian untuk menghasilkan urutan hasil.

Arsitektur model Gemma

Model generasi pertama Gemma menyempurnakan transformer melalui beberapa elemen arsitektural:

Setiap lapisan neural networks menerapkan penyematan posisi putar alih-alih penyematan posisi absolut. Penyematan juga dibagikan di seluruh input dan hasil untuk mengompres model.³

Gemma 7B menggunakan perhatian multihead, dengan beberapa “kepala perhatian“ yang memiliki kunci dan nilainya sendiri untuk menangkap berbagai jenis hubungan antar token. Sebaliknya, Gemma 2B menggunakan perhatian multiquery, di mana semua kepala perhatian berbagi satu set kunci dan nilai, sehingga meningkatkan kecepatan dan mengurangi beban memori.¹¹

Arsitektur model Gemma 2

Gemma 2 menggunakan neural networks yang lebih dalam daripada Gemma. Berikut adalah beberapa perbedaan arsitektur penting lainnya:⁴

Untuk setiap lapisan neural network, Gemma 2 berganti-ganti antara perhatian jendela geser lokal dan perhatian global. Perhatian jendela geser lokal adalah mekanisme dinamis untuk berfokus pada “jendela” berukuran tetap tertentu dari input sequences, yang memungkinkan model untuk berkonsentrasi hanya pada beberapa kata dalam satu waktu. Sementara itu, perhatian global memperhatikan setiap token dalam urutan tersebut.

Gemma 2 juga menggunakan perhatian kueri yang dikelompokkan, sebuah pendekatan bagi-dan-menaklukkan yang membagi kueri ke dalam kelompok yang lebih kecil dan menghitung perhatian di dalam setiap kelompok secara terpisah.

Selain itu, model Gemma 2, 2B dan 9B menerapkan penyulingan pengetahuan, yang memerlukan “penyulingan” pengetahuan model yang lebih besar menjadi pengetahuan yang lebih kecil dengan melatih model yang lebih kecil untuk meniru proses penalaran model yang lebih besar dan mencocokkan prediksinya.

Instruction tuning

Dalam hal penyetelan instruksi, yang membuat model dapat mengikuti instruksi dengan lebih baik, Gemma dan Gemma 2 menerapkan penyetelan yang diawasi dan pembelajaran penguatan dari masukan manusia (RLHF).⁴ Penyempurnaan yang diawasi menggunakan contoh-contoh berlabel dari tugas-tugas yang berorientasi pada instruksi untuk mengajarkan model bagaimana menyusun responsnya. Sementara itu, RLHF menggunakan model penghargaan untuk menerjemahkan peringkat kualitas dari penilai manusia menjadi sinyal penghargaan numerik, membantu model mempelajari respons mana yang akan mendapatkan masukan positif.

Kinerja Gemma

Evaluasi kinerja Gemma 7B dalam tolok ukur LLM yang mencakup pembuatan kode, penalaran akal sehat, pemahaman bahasa, penalaran matematis dan jawaban pertanyaan menunjukkan bahwa itu sebanding dengan SLM dengan skala yang sama seperti Llama 3 8B dan Mistral 7B. Gemma 2 9B dan 27B tampil lebih baik, melampaui Llama 3 8B dan Mistral 7B di sebagian besar tolok ukur.¹²

Namun, Llama 3.2 3B dan Ministral 3B, SLM terbaru dari Meta dan Mistral, masing-masing telah melampaui Gemma 2 2B dalam berbagai tolak ukur.¹³ Phi-3-mini dari Microsoft, sebuah model bahasa dengan 3,8 miliar parameter, juga mendapatkan kinerja yang lebih tinggi daripada Gemma 7B.¹⁴

Bagaimana cara mengakses Gemma?

Model Gemma dapat diakses melalui platform ini:

Google AI Studio

Hugging Face (juga terintegrasi ke dalam Hugging Face Transformers)

Kaggle

Vertex AI Model Garden

Selain itu, pengembang dapat mengimplementasikan model dalam kerangka kerja machine learning sumber terbuka seperti JAX, LangChain, PyTorch, dan TensorFlow, dan melalui antarmuka pemrograman aplikasi (API) seperti Keras 3.0. Selain itu, karena Gemma mencakup pengoptimalan di seluruh GPU NVIDIA, pengembang dapat menggunakan peralatan NVIDIA, termasuk kerangka kerja NeMo untuk fine-tuning model dan TensorRT-LLM untuk mengoptimalkannya demi inferensi yang efisien pada GPU NVIDIA.

Untuk pengembangan AI perusahaan, model Gemma dapat diterapkan di Google Cloud Vertex AI dan Google Kubernetes Engine (GKE). Bagi mereka yang memiliki daya terbatas, Google Colab menyediakan akses berbasis cloud gratis ke sumber daya seperti GPU dan TPU.

Risiko gemma

Seperti model AI lainnya, Google Gemma terus bergulat dengan risiko AI, termasuk:

Bias: Model yang lebih kecil bisa belajar dari bias yang ada pada model yang lebih besar, dan efek domino ini bisa tercermin pada Hasil.

Halusinasi: Memverifikasi dan memantau hasil SLMs seperti Gemma sangat penting untuk memastikan bahwa apa yang mereka hasilkan akurat dan sesuai fakta.

Pelanggaran privasi: Google mencatat bahwa kumpulan data pelatihan untuk Gemma dan Gemma 2 telah difilter untuk menghapus informasi pribadi tertentu dan data sensitif lainnya.⁴ Namun, pengguna individu dan perusahaan masih harus berhati-hati dengan data yang mereka gunakan untuk fine tuning Gemma agar tidak membocorkan data pribadi atau kepemilikan apa pun.

Dalam hal keselamatan dan keamanan, Google mengevaluasi Gemma pada beberapa metrik, termasuk keamanan siber ofensif, pengetahuan CBRN (kimia, biologi, radiologis dan nuklir), proliferasi diri (kemampuan untuk mereplikasi secara mandiri) dan persuasi. Pengetahuan Gemma dalam domain CBRN rendah. Demikian pula, model ini memiliki kemampuan yang rendah dalam keamanan siber ofensif, proliferasi diri, dan persuasi.⁴

Google juga merilis Responsible Generative AI Toolkit untuk membantu para peneliti dan pengembang AI membangun aplikasi AI yang bertanggung jawab dan aman.¹

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Buka episode