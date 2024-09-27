Gemini adalah Model Bahasa Besar (LLM) dari Google. Secara lebih luas, ini adalah keluarga model AI multimodal yang dirancang untuk memproses berbagai modalitas atau jenis data, termasuk audio, gambar, kode perangkat lunak, teks, dan video.
Gemini juga merupakan model yang mendukung chatbot AI generatif (gen AI) Google (sebelumnya Bard) dengan nama yang sama, seperti Claude dari Anthropic yang dinamai chatbot dan keluarga LLM di belakangnya. Aplikasi Gemini di web dan mobile bertindak sebagai antarmuka chatbot untuk model yang mendasarinya.
Google secara bertahap mengintegrasikan chatbot Gemini ke dalam rangkaian teknologinya. Misalnya, Gemini adalah asisten kecerdasan buatan (AI) default pada ponsel Google Pixel 9 dan Pixel 9 Pro terbaru, menggantikan Google Assistant. Di Google Workspace, Gemini tersedia di panel samping Docs untuk membantu menulis dan mengedit konten, dan di panel samping Gmail untuk membantu menyusun email, menyarankan tanggapan, dan mencari informasi di kotak masuk pengguna.
Aplikasi Google lainnya juga menggabungkan Gemini. Google Maps, misalnya, memanfaatkan kemampuan model Gemini untuk menyediakan ringkasan tempat dan area.
Buletin industri
Ikuti perkembangan tren industri yang paling penting—dan menarik—di bidang AI, otomatisasi, data, dan lainnya dengan buletin Think. Lihat Pernyataan Privasi IBM.
Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Gemini telah dilatih pada kumpulan besar kumpulan data multibahasa dan multimodal. Gemini menggunakan model transformator, sebuah arsitektur neural networks yang diperkenalkan Google sendiri pada tahun 2017.1
Berikut gambaran singkat tentang cara kerja model transformer:
Encoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang menangkap semantik dan posisi token dalam urutan input.
Mekanisme perhatian diri memungkinkan transformator untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya.
Dekoder menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.
Tidak seperti model generative pretrained transformer (GPT) yang hanya menerima prompt berbasis teks atau model difusi yang digunakan untuk pembuatan gambar yang menerima prompt teks dan gambar, Google Gemini mendukung urutan audio, gambar, teks, dan video yang disisipkan sebagai input dan dapat menghasilkan output teks dan gambar yang disisipkan.2
Keluarga model AI multimodal Gemini hadir dalam berbagai varian. Setiap varian dioptimalkan untuk perangkat dan tugas yang berbeda.
Model generasi pertama Gemini, 1.0, hadir dalam Nano dan Ultra. Model generasi berikutnya, 1.5, hadir dalam Pro dan Flash.
Membangun dan bereksperimen dengan fitur dan fungsi AI Gemini dapat dilakukan melalui API Gemini di platform pengembangan Google AI Studio dan Google Cloud Vertex AI. Untuk saat ini, hanya Gemini 1.5 Pro dan Gemini 1.5 Flash yang tersedia.
Gemini 1.0 Nano adalah versi terkecil dari keluarga 1.0 yang dirancang untuk beroperasi pada perangkat mobile, bahkan tanpa jaringan data. Versi ini dapat melakukan tugas-tugas di perangkat seperti mendeskripsikan gambar, menyarankan balasan pesan obrolan, meringkas teks, dan menyalin ucapan.
Gemini Nano tersedia di perangkat Android mulai Pixel 8 Pro. Bergerak melampaui batas hanya untuk mobile, Google memasukkan Gemini Nano ke dalam klien desktop Chrome miliknya.
Gemini 1.0 Ultra adalah versi terbesar dari keluarga 1.0 dengan kemampuan analitik canggih. Versi ini dibangun untuk tugas-tugas yang sangat kompleks seperti pengodean, penalaran matematis, dan penalaran multimodal. Jendela konteks—jumlah token yang dapat diproses oleh sebuah model sekaligus—dari Gemini Nano dan Gemini Ultra adalah 32.000 token.2
Gemini 1.5 Pro adalah model multimodal berukuran menengah dengan jendela konteks hingga 2 juta token. Jendela konteks yang panjang ini memungkinkan Gemini Pro untuk memproses informasi dalam skala yang lebih besar: dari berjam-jam audio dan video hingga ribuan baris kode atau ratusan halaman dokumen.3
Selain arsitektur transformator, Gemini 1.5 Pro menerapkan arsitektur Mixture of Experts (MoE). Model MoE dibagi menjadi neural networks “pakar” yang lebih kecil, masing-masing mengkhususkan diri dalam domain atau tipe data tertentu. Model belajar untuk secara selektif hanya mengaktifkan pakar yang paling relevan, tergantung pada jenis input. Ini menghasilkan kinerja yang lebih cepat sekaligus mengurangi biaya komputasi.4
Gemini 1.5 Flash adalah versi ringan dari Gemini Pro. Versi ini dilatih menggunakan teknik machine learning (ML) yang disebut distilasi pengetahuan, di mana insight dari Gemini 1.5 Pro ditransfer ke Gemini 1.5 Flash yang lebih ringkas. Versi ini juga memiliki fitur jendela konteks panjang hingga 1 juta token, tetapi memiliki latensi lebih rendah yang membuatnya lebih cepat dan lebih efisien.3
Google telah menjadi pelopor dalam arsitektur LLM dan memanfaatkan riset yang kuat untuk mengembangkan model AI sendiri.
2017: Peneliti Google mempresentasikan arsitektur transformator yang mendasari banyak LLM saat ini.
2020: Perusahaan memperkenalkan chatbot Meena, agen percakapan berbasis neural networks dengan 2,6 miliar parameter.5
2021: Google meluncurkan LaMDA (Model Bahasa untuk Aplikasi Percakapan), LLM percakapannya.6
2022: PaLM (Model Bahasa Jalur) dirilis dengan kemampuan yang lebih canggih dibandingkan LaMDA.7
2023: Bard dimulai pada kuartal pertama tahun ini, didukung oleh versi LaMDA yang ringan dan dioptimalkan.8. PaLM 2 dirilis pada kuartal kedua—dengan peningkatan keahlian pengodean, multibahasa, dan penalaran—dan diadopsi oleh Bard.9 Google mengumumkan Gemini 1.0 pada kuartal terakhir tahun ini.
2024: Google mengganti nama Bard dengan Gemini dan meningkatkan model AI multimodalnya ke versi 1.5.
Kata “Gemini” berarti “kembar” dalam bahasa Latin dan merupakan tanda zodiak dan rasi bintang. Nama yang tepat, karena model Gemini merupakan gagasan dari Google DeepMind, penggabungan kekuatan antara tim di DeepMind dan Google Brain. Perusahaan ini juga terinspirasi oleh Project Gemini dari NASA, sebuah pesawat ruang angkasa berkapasitas dua orang yang tidak terpisahkan dari keberhasilan misi Apollo.10
Gemini Ultra melampaui model serupa di berbagai tolok ukur LLM. Ia mengungguli Claude 2, GPT-4, dan Llama 2 dalam tolok ukur seperti GSM8K untuk penalaran matematis, HumanEval untuk pembuatan kode, dan MMLU untuk natural language understanding.2
Gemini Ultra terutama melampaui kinerja pakar manusia di MMLU. Namun, GPT-4 masih memiliki kinerja yang lebih baik daripada Gemini Ultra dalam tolok ukur HellaSwag untuk penalaran akal sehat dan inferensi bahasa alami.2
Google juga mengevaluasi kemampuan multimodal Gemini Ultra. Performanya lebih tinggi daripada model lain dalam hal pemahaman dokumen, pemahaman gambar, dan tolok ukur pengenalan suara otomatis. Dan meskipun mengalahkan LLM dalam tolok ukur untuk penerjemahan ucapan otomatis, teks video bahasa Inggris, pemahaman dan penalaran multimodal, dan menjawab pertanyaan video, kinerja Gemini Ultra di bidang ini masih bisa ditingkatkan.2
Sementara itu, kinerja Gemini 1.5 Flash dan Gemini 1.5 Pro sebanding atau bahkan melampaui Gemini 1.0 Ultra.11 Saat jendela konteksnya meningkat, Gemini 1.5 Pro mempertahankan tingkat kinerja yang tinggi.4
Google Gemini masih dalam tahap awal, tetapi model AI dengan kemampuan tinggi ini memiliki potensi untuk diimplementasikan dalam berbagai aplikasi:
Pengodean canggih
Pemahaman gambar dan teks
Penerjemahan bahasa
Analisis malware
Pakar AI yang dipersonalisasi
Agen AI universal
Asisten suara
Model AI Gemini dapat bekerja di berbagai bahasa pemrograman seperti C++, Java, dan Python untuk memahami, menjelaskan, dan menghasilkan kode. Google menggunakan versi Gemini Pro yang disempurnakan sebagai model dasar untuk mengembangkan AlphaCode2, sistem pembuatan kode yang dapat memecahkan masalah pemrograman kompetitif dengan elemen ilmu komputer teoretis dan matematika kompleks.
Gemini dapat digunakan untuk mengekstraksi teks dari gambar dan keterangan gambar. Model ini dapat menganalisis visual seperti grafik, diagram, dan gambar tanpa bantuan alat pengenalan karakter optik (OCR) yang mengubah gambar teks menjadi format yang dapat dibaca mesin.
Karena kemampuan multibahasa mereka, model AI Google dapat digunakan untuk menerjemahkan bahasa yang berbeda. Di aplikasi konferensi video Meet, misalnya, pengguna dapat mengaktifkan teks terjemahan untuk menerjemahkan ke dan dari bahasa tertentu.
Baik Gemini 1.5 Pro maupun Gemini 1.5 Flash dapat digunakan untuk analisis malware. Gemini Pro dapat secara akurat menentukan apakah sebuah file atau potongan kode berbahaya dan dapat menghasilkan laporan terperinci tentang temuannya.12 Sementara itu, Gemini Flash dapat melakukan pembedahan malware berskala besar dengan cepat.13
Google baru-baru ini merilis fitur baru bernama Gems yang memungkinkan pengguna untuk menyesuaikan chatbot Gemini untuk membuat "pakar" AI yang disesuaikan pada tugas atau topik apa pun. Beberapa contoh Gems yang siap pakai termasuk pelatih pembelajaran untuk membantu menguraikan topik yang rumit dan membuatnya lebih mudah dipahami, mitra curah pendapat untuk menawarkan ide-ide segar untuk video berikutnya, dan editor penulisan untuk memberikan masukan tentang tata bahasa dan struktur.
Gems hadir dengan langganan Gemini Advanced, yang menggunakan model Gemini 1.5 Pro.
Melalui Project Astra, Google membangun model Gemini untuk menciptakan agen AI universal yang dapat memproses, mengingat, dan memahami informasi multimodal secara real-time. Untuk meningkatkan daya ingat dan efisiensi, Project Astra memanfaatkan caching, pengodean frame video secara terus-menerus, serta menggabungkan input ucapan dan video ke dalam garis waktu kejadian.14
Dalam salah satu demo Google, asisten Gemini AI mampu menjelaskan bagian-bagian dari pengeras suara, mengenali lingkungan tempat seseorang berada, dan mengingat di mana mereka menaruh kacamatanya.14
Dengan Gemini Live, pengguna dapat melakukan dialog dengan chatbot Gemini yang terasa lebih alami dan mudah dipahami. Asisten ini menawarkan respons yang lebih intuitif dan dapat beradaptasi dengan gaya percakapan seseorang.
Seperti LLM lainnya, Google Gemini terus bergulat dengan risiko AI. Perhatian dianjurkan, terutama bagi individu yang berniat menggunakan Gemini dan organisasi yang mempertimbangkan model ini untuk penggunaan komersial atau integrasi ke dalam alur kerja mereka.
Bias: Pada Februari 2024, Google memutuskan untuk menghentikan sementara kemampuan chatbot Gemini untuk membuat gambar orang karena penggambarannya yang tidak akurat terhadap tokoh sejarah, menghapus sejarah bias rasial.15
Halusinasi: Saat artikel ini ditulis, hasil pencarian ikhtisar AI yang didukung Gemini terkadang masih menghasilkan output yang salah secara faktual.
Pelanggaran kekayaan intelektual: Google didenda oleh pembuat regulasi di Prancis, karena chatbot AI perusahaan dilatih untuk kisah dan konten berita tanpa sepengetahuan atau persetujuan dari penerbit di negara tersebut.16
Temukan IBM Granite, rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Jelajahi artikel, blog, dan tutorial di IBM Developer untuk memperdalam pemahaman Anda tentang LLM.
Pelajari cara terus mendorong tim untuk meningkatkan kinerja model dan unggul dalam persaingan dengan menggunakan teknik dan infrastruktur AI terbaru.
Jelajahi nilai model dasar kelas enterprise yang memberikan kepercayaan, kinerja, dan manfaat hemat biaya bagi semua industri.
Pelajari cara menggabungkan AI generatif, machine learning, dan model dasar ke dalam operasi bisnis Anda untuk meningkatkan kinerja.
Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.
Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.
Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.
1 Transformator: Arsitektur Neural Networks Baru untuk Pemahaman Bahasa, Google Research, 31 Agustus 2017.
2 Gemini: Keluarga Model Multimodal Berkemampuan Tinggi, Google DeepMind, Diakses pada 16 September 2024.
3 Model Gemini, Google DeepMind, diakses 16 September 2024.
4 Model generasi berikutnya kami: Gemini 1.5, Google, 15 Februari 2024.
5 Menuju Agen Percakapan yang Dapat Mengobrol Tentang... Apa Saja, Google Research, 28 Januari 2020.
6 LaMDA: teknologi percakapan terobosan kami, Google, 18 Mei 2021.
7 Pathways Language Model (PaLM): Peningkatan hingga 540 Miliar Parameter untuk Kinerja Terobosan, Google Research, 4 April 2022.
8 Coba Bard dan bagikan masukan Anda, Google, 21 Maret 2023.
9 Memperkenalkan PaLM 2, Google, 10 Mei 2023.
10 Bagaimana model AI Google, Gemini, mendapatkan namanya, Google, 15 Mei 2024.
11 Gemini 1.5: Membuka pemahaman multimodal di jutaan token konteks, Google DeepMind, Diakses pada 16 September 2024.
12 Dari Asisten menjadi Analis: Kekuatan Gemini 1.5 Pro untuk analisis malware, Google Cloud, 30 April 2024.
13 Meningkatkan Analisis Malware dengan Gemini 1.5 Flash, Google Cloud, 16 Juli 2024.
14 Project Astra, Google DeepMind, diakses 16 September 2024.
15 Kepala Google mengakui keberagaman foto alat AI yang 'bias' membuat pengguna tersinggung, The Guardian, 28 Februari 2024.
16 Google didenda €250 juta di Prancis karena melanggar kesepakatan kekayaan intelektual, The Guardian, 20 Maret 2024.