Apa itu Google Gemini?

Foto hitam-putih Goddard Space Center yang dipenuhi dengan orang dan peralatan komputer.

Penyusun

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa itu Google Gemini?

Gemini adalah Model Bahasa Besar (LLM) dari Google. Secara lebih luas, ini adalah keluarga model AI multimodal yang dirancang untuk memproses berbagai modalitas atau jenis data, termasuk audio, gambar, kode perangkat lunak, teks, dan video.

Gemini juga merupakan model yang mendukung chatbot AI generatif (gen AI) Google (sebelumnya Bard) dengan nama yang sama, seperti Claude dari Anthropic yang dinamai chatbot dan keluarga LLM di belakangnya. Aplikasi Gemini di web dan mobile bertindak sebagai antarmuka chatbot untuk model yang mendasarinya.

Google secara bertahap mengintegrasikan chatbot Gemini ke dalam rangkaian teknologinya. Misalnya, Gemini adalah asisten kecerdasan buatan (AI) default pada ponsel Google Pixel 9 dan Pixel 9 Pro terbaru, menggantikan Google Assistant. Di Google Workspace, Gemini tersedia di panel samping Docs untuk membantu menulis dan mengedit konten, dan di panel samping Gmail untuk membantu menyusun email, menyarankan tanggapan, dan mencari informasi di kotak masuk pengguna.

Aplikasi Google lainnya juga menggabungkan Gemini. Google Maps, misalnya, memanfaatkan kemampuan model Gemini untuk menyediakan ringkasan tempat dan area.

Buletin industri

Berita teknologi terbaru, didukung oleh insight dari pakar

Ikuti perkembangan tren industri yang paling penting—dan menarik—di bidang AI, otomatisasi, data, dan lainnya dengan buletin Think. Lihat Pernyataan Privasi IBM.

Bagaimana cara kerja Google Gemini?

Gemini telah dilatih pada kumpulan besar kumpulan data multibahasa dan multimodal. Gemini menggunakan model transformator, sebuah arsitektur neural networks yang diperkenalkan Google sendiri pada tahun 2017.¹

Berikut gambaran singkat tentang cara kerja model transformer:

Encoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input.

Mekanisme perhatian diri memungkinkan transformator untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya.

Dekoder menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.

Tidak seperti model generative pretrained transformer (GPT) yang hanya menerima prompt berbasis teks atau model difusi yang digunakan untuk pembuatan gambar yang menerima prompt teks dan gambar, Google Gemini mendukung urutan audio, gambar, teks, dan video yang disisipkan sebagai input dan dapat menghasilkan output teks dan gambar yang disisipkan.²

Versi model AI Gemini

Keluarga model AI multimodal Gemini hadir dalam berbagai varian. Setiap varian dioptimalkan untuk perangkat dan tugas yang berbeda.

Model generasi pertama Gemini, 1.0, hadir dalam Nano dan Ultra. Model generasi berikutnya, 1.5, hadir dalam Pro dan Flash.

Membangun dan bereksperimen dengan fitur dan fungsi AI Gemini dapat dilakukan melalui API Gemini di platform pengembangan Google AI Studio dan Google Cloud Vertex AI. Untuk saat ini, hanya Gemini 1.5 Pro dan Gemini 1.5 Flash yang tersedia.

Gemini 1.0 Nano

Gemini 1.0 Nano adalah versi terkecil dari keluarga 1.0 yang dirancang untuk beroperasi pada perangkat mobile, bahkan tanpa jaringan data. Versi ini dapat melakukan tugas-tugas di perangkat seperti mendeskripsikan gambar, menyarankan balasan pesan obrolan, meringkas teks, dan menyalin ucapan.

Gemini Nano tersedia di perangkat Android mulai Pixel 8 Pro. Bergerak melampaui batas hanya untuk mobile, Google memasukkan Gemini Nano ke dalam klien desktop Chrome miliknya.

Gemini 1.0 Ultra

Gemini 1.0 Ultra adalah versi terbesar dari keluarga 1.0 dengan kemampuan analitik canggih. Versi ini dibangun untuk tugas-tugas yang sangat kompleks seperti pengodean, penalaran matematis, dan penalaran multimodal. Jendela konteks—jumlah token yang dapat diproses oleh sebuah model sekaligus—dari Gemini Nano dan Gemini Ultra adalah 32.000 token.²

Gemini 1.5 Pro

Gemini 1.5 Pro adalah model multimodal berukuran menengah dengan jendela konteks hingga 2 juta token. Jendela konteks yang panjang ini memungkinkan Gemini Pro untuk memproses informasi dalam skala yang lebih besar: dari berjam-jam audio dan video hingga ribuan baris kode atau ratusan halaman dokumen.³

Selain arsitektur transformator, Gemini 1.5 Pro menerapkan arsitektur Mixture of Experts (MoE). Model MoE dibagi menjadi neural networks “pakar” yang lebih kecil, masing-masing mengkhususkan diri dalam domain atau tipe data tertentu. Model belajar untuk secara selektif hanya mengaktifkan pakar yang paling relevan, tergantung pada jenis input. Ini menghasilkan kinerja yang lebih cepat sekaligus mengurangi biaya komputasi.⁴

Gemini 1.5 Flash

Gemini 1.5 Flash adalah versi ringan dari Gemini Pro. Versi ini dilatih menggunakan teknik machine learning (ML) yang disebut distilasi pengetahuan, di mana insight dari Gemini 1.5 Pro ditransfer ke Gemini 1.5 Flash yang lebih ringkas. Versi ini juga memiliki fitur jendela konteks panjang hingga 1 juta token, tetapi memiliki latensi lebih rendah yang membuatnya lebih cepat dan lebih efisien.³

Sejarah singkat Google Gemini

Google telah menjadi pelopor dalam arsitektur LLM dan memanfaatkan riset yang kuat untuk mengembangkan model AI sendiri.

2017: Peneliti Google mempresentasikan arsitektur transformator yang mendasari banyak LLM saat ini.

2020: Perusahaan memperkenalkan chatbot Meena, agen percakapan berbasis neural networks dengan 2,6 miliar parameter.⁵

2021: Google meluncurkan LaMDA (Model Bahasa untuk Aplikasi Percakapan), LLM percakapannya.⁶

2022: PaLM (Model Bahasa Jalur) dirilis dengan kemampuan yang lebih canggih dibandingkan LaMDA.⁷

2023: Bard dimulai pada kuartal pertama tahun ini, didukung oleh versi LaMDA yang ringan dan dioptimalkan.⁸. PaLM 2 dirilis pada kuartal kedua—dengan peningkatan keahlian pengodean, multibahasa, dan penalaran—dan diadopsi oleh Bard.⁹ Google mengumumkan Gemini 1.0 pada kuartal terakhir tahun ini.

2024: Google mengganti nama Bard dengan Gemini dan meningkatkan model AI multimodalnya ke versi 1.5.

Kata “Gemini” berarti “kembar” dalam bahasa Latin dan merupakan tanda zodiak dan rasi bintang. Nama yang tepat, karena model Gemini merupakan gagasan dari Google DeepMind, penggabungan kekuatan antara tim di DeepMind dan Google Brain. Perusahaan ini juga terinspirasi oleh Project Gemini dari NASA, sebuah pesawat ruang angkasa berkapasitas dua orang yang tidak terpisahkan dari keberhasilan misi Apollo.¹⁰

Kinerja Gemini

Gemini Ultra melampaui model serupa di berbagai tolok ukur LLM. Ia mengungguli Claude 2, GPT-4, dan Llama 2 dalam tolok ukur seperti GSM8K untuk penalaran matematis, HumanEval untuk pembuatan kode, dan MMLU untuk natural language understanding.²

Gemini Ultra terutama melampaui kinerja pakar manusia di MMLU. Namun, GPT-4 masih memiliki kinerja yang lebih baik daripada Gemini Ultra dalam tolok ukur HellaSwag untuk penalaran akal sehat dan inferensi bahasa alami.²

Google juga mengevaluasi kemampuan multimodal Gemini Ultra. Performanya lebih tinggi daripada model lain dalam hal pemahaman dokumen, pemahaman gambar, dan tolok ukur pengenalan suara otomatis. Dan meskipun mengalahkan LLM dalam tolok ukur untuk penerjemahan ucapan otomatis, teks video bahasa Inggris, pemahaman dan penalaran multimodal, dan menjawab pertanyaan video, kinerja Gemini Ultra di bidang ini masih bisa ditingkatkan.²

Sementara itu, kinerja Gemini 1.5 Flash dan Gemini 1.5 Pro sebanding atau bahkan melampaui Gemini 1.0 Ultra.¹¹ Saat jendela konteksnya meningkat, Gemini 1.5 Pro mempertahankan tingkat kinerja yang tinggi.⁴

Contoh penggunaan Gemini

Google Gemini masih dalam tahap awal, tetapi model AI dengan kemampuan tinggi ini memiliki potensi untuk diimplementasikan dalam berbagai aplikasi:

Pengodean canggih

Pemahaman gambar dan teks

Penerjemahan bahasa

Analisis malware

Pakar AI yang dipersonalisasi

Agen AI universal

Asisten suara

Pengodean canggih

Model AI Gemini dapat bekerja di berbagai bahasa pemrograman seperti C++, Java, dan Python untuk memahami, menjelaskan, dan menghasilkan kode. Google menggunakan versi Gemini Pro yang disempurnakan sebagai model dasar untuk mengembangkan AlphaCode2, sistem pembuatan kode yang dapat memecahkan masalah pemrograman kompetitif dengan elemen ilmu komputer teoretis dan matematika kompleks.

Pemahaman gambar dan teks

Gemini dapat digunakan untuk mengekstraksi teks dari gambar dan keterangan gambar. Model ini dapat menganalisis visual seperti grafik, diagram, dan gambar tanpa bantuan alat pengenalan karakter optik (OCR) yang mengubah gambar teks menjadi format yang dapat dibaca mesin.

Penerjemahan bahasa

Karena kemampuan multibahasa mereka, model AI Google dapat digunakan untuk menerjemahkan bahasa yang berbeda. Di aplikasi konferensi video Meet, misalnya, pengguna dapat mengaktifkan teks terjemahan untuk menerjemahkan ke dan dari bahasa tertentu.

Analisis malware

Baik Gemini 1.5 Pro maupun Gemini 1.5 Flash dapat digunakan untuk analisis malware. Gemini Pro dapat secara akurat menentukan apakah sebuah file atau potongan kode berbahaya dan dapat menghasilkan laporan terperinci tentang temuannya.¹² Sementara itu, Gemini Flash dapat melakukan pembedahan malware berskala besar dengan cepat.¹³

Pakar AI yang dipersonalisasi

Google baru-baru ini merilis fitur baru bernama Gems yang memungkinkan pengguna untuk menyesuaikan chatbot Gemini untuk membuat "pakar" AI yang disesuaikan pada tugas atau topik apa pun. Beberapa contoh Gems yang siap pakai termasuk pelatih pembelajaran untuk membantu menguraikan topik yang rumit dan membuatnya lebih mudah dipahami, mitra curah pendapat untuk menawarkan ide-ide segar untuk video berikutnya, dan editor penulisan untuk memberikan masukan tentang tata bahasa dan struktur.

Gems hadir dengan langganan Gemini Advanced, yang menggunakan model Gemini 1.5 Pro.

Agen AI universal

Melalui Project Astra, Google membangun model Gemini untuk menciptakan agen AI universal yang dapat memproses, mengingat, dan memahami informasi multimodal secara real-time. Untuk meningkatkan daya ingat dan efisiensi, Project Astra memanfaatkan caching, pengodean frame video secara terus-menerus, serta menggabungkan input ucapan dan video ke dalam garis waktu kejadian.¹⁴

Dalam salah satu demo Google, asisten Gemini AI mampu menjelaskan bagian-bagian dari pengeras suara, mengenali lingkungan tempat seseorang berada, dan mengingat di mana mereka menaruh kacamatanya.¹⁴

Asisten suara

Dengan Gemini Live, pengguna dapat melakukan dialog dengan chatbot Gemini yang terasa lebih alami dan mudah dipahami. Asisten ini menawarkan respons yang lebih intuitif dan dapat beradaptasi dengan gaya percakapan seseorang.

Risiko Gemini

Seperti LLM lainnya, Google Gemini terus bergulat dengan risiko AI. Perhatian dianjurkan, terutama bagi individu yang berniat menggunakan Gemini dan organisasi yang mempertimbangkan model ini untuk penggunaan komersial atau integrasi ke dalam alur kerja mereka.

Bias: Pada Februari 2024, Google memutuskan untuk menghentikan sementara kemampuan chatbot Gemini untuk membuat gambar orang karena penggambarannya yang tidak akurat terhadap tokoh sejarah, menghapus sejarah bias rasial.¹⁵

Halusinasi: Saat artikel ini ditulis, hasil pencarian ikhtisar AI yang didukung Gemini terkadang masih menghasilkan output yang salah secara faktual.

Pelanggaran kekayaan intelektual: Google didenda oleh pembuat regulasi di Prancis, karena chatbot AI perusahaan dilatih untuk kisah dan konten berita tanpa sepengetahuan atau persetujuan dari penerbit di negara tersebut.¹⁶

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Sumber daya

Jelajahi IBM Granite

Temukan IBM Granite, rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Temukan kekuatan LLM

Jelajahi artikel, blog, dan tutorial di IBM Developer untuk memperdalam pemahaman Anda tentang LLM.

Panduan CEO untuk optimasi model

Pelajari cara terus mendorong tim untuk meningkatkan kinerja model dan unggul dalam persaingan dengan menggunakan teknik dan infrastruktur AI terbaru.

Pendekatan berbeda pada model dasar AI

Jelajahi nilai model dasar kelas enterprise yang memberikan kepercayaan, kinerja, dan manfaat hemat biaya bagi semua industri.

Singkap Kekuatan AI generatif + ML

Pelajari cara menggabungkan AI generatif, machine learning, dan model dasar ke dalam operasi bisnis Anda untuk meningkatkan kinerja.

Aksi AI 2024

Baca lebih dari 2.000 organisasi yang kami survei tentang inisiatif AI mereka untuk mengetahui hal yang berhasil, yang tidak, dan cara Anda bisa maju.

Solusi terkait

Model dasar

Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.

Jelajahi solusi AI

Konsultasi dan layanan AI

Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI