Ledakan AI generatif (gen AI) telah menyoroti kekuatan pendorong di baliknya: model bahasa besar (LLM). Puluhan LLM sudah ada, tetapi dengan teknologi yang berkembang pesat, lebih banyak lagi model kecerdasan buatan (artificial intelligence/AI) yang terus bermunculan.
Kita bisa mengadaikan ini dari sudut pandang industri otomotif. Ratusan produsen mobil di seluruh dunia memiliki modelnya masing-masing untuk memenuhi beragam kebutuhan konsumen. Mobil juga telah bertransformasi dari waktu ke waktu, dari mobil bertenaga gas menjadi kendaraan listrik dengan banyak fitur pintar.
Hal yang sama juga berlaku untuk LLM. Sistem AI ini dimulai sebagai model dasar yang terdiri dari beberapa lapisan neural networks yang dilatih pada volume kumpulan data yang sangat besar.
Sistem ini menggunakan teknik pembelajaran mendalam untuk menyelesaikan tugas-tugas pemrosesan bahasa alami (NLP) dan natural language understanding (NLU). Namun, kemampuannya telah meningkat untuk menyertakan fungsi dan penalaran AI agen.
Evolusi yang serba cepat ini berarti bahwa lingkungan LLM terus berubah. Pengembang AI harus terus memperbarui model mereka atau bahkan membangun yang baru untuk mengikuti kemajuan pesat.
Meskipun tugas-tugas NLP dan NLU seperti peringkasan konten, penerjemahan mesin, analisis sentimen, dan pembuatan teks terus menjadi andalan, para pengembang AI menyesuaikan model mereka untuk contoh penggunaan tertentu.
Sebagai contoh, beberapa LLM dibuat khusus untuk pembuatan kode, sementara yang lain dibuat untuk menangani tugas bahasa visi.
Meskipun tidak mungkin untuk menyebutkan semua LLM yang ada di luar sana, berikut ini adalah daftar beberapa model bahasa besar yang paling mutakhir dan populer untuk membantu organisasi mempersempit pilihan mereka dan mempertimbangkan model mana yang sesuai dengan kebutuhan mereka:
Pengembang: Anthropic
Tanggal rilis: Februari 2025 untuk Claude 3.7 Soneta
Jumlah parameter: Tidak diungkapkan kepada publik
Jendela konteks: 200.000 token
Lisensi: Berpemilik
Akses: API Antropik, Amazon Bedrock, Google Cloud Vertex AI
Input: Multimodal (gambar, teks)
Output: Teks
Claude adalah keluarga LLM yang didasarkan pada arsitektur transformator. Ini adalah model besar di balik asisten AI percakapan dengan nama yang sama. Desain Claude dipandu oleh prinsip-prinsip AI konstitusional, yang berfokus pada keamanan AI untuk mengurangi perilaku berbahaya seperti bias AI.
Keluarga Claude terdiri dari 3 model AI:
● Claude Haiku
● Soneta Claude
● Claude Opus
Claude 3.5 Haiku adalah model tercepat. Model ini ideal untuk contoh penggunaan dengan latensi rendah, seperti chatbot layanan pelanggan dan penyelesaian kode untuk mempercepat alur kerja pengembangan perangkat lunak.
Claude 3.7 Soneta adalah apa yang disebut Anthropic sebagai "model paling cerdas hingga saat ini." Model penalaran ini memiliki mode "pemikiran yang diperluas", yang memungkinkannya untuk merefleksikan diri sebelum merespons. Mereka yang menggunakan API Anthropic juga dapat menentukan berapa lama model ini dapat berpikir.
Claude 3.7 Soneta dapat diimplementasikan untuk tugas-tugas yang lebih spesifik seperti pembuatan kode, penggunaan komputer (memungkinkan LLM menggunakan komputer seperti halnya manusia), mengekstraksi informasi dari data visual, dan menjawab pertanyaan.
Claude 3 Opus adalah model yang paling kuat di antara ketiganya. Model ini dapat menangani analisis mendalam dan tugas yang lebih panjang dan lebih kompleks dengan banyak langkah.
Pengembang: Cohere
Tanggal rilis: April 2024 untuk Command R+ dan Desember 2024 untuk Command R7B
Jumlah parameter: Hingga 104 miliar
Jendela konteks: 128.000 token
Lisensi: Berpemilik
Akses: API Cohere, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI
Input: Teks
Output: Teks
Command adalah model bahasa unggulan Cohere. Rangkaian LLM yang berfokus pada perusahaan ini mencakup model-model berikut:
● Command R
● Command R+
● Command R7B
Command R adalah model pembuatan teks multibahasa dengan 32 miliar parameter1. Model ini telah dilatih untuk mendasarkan kemampuan generasi dengan dukungan pengambilan data (RAG) dengan memasok kutipan dalam responsnya. Command R juga menawarkan kemampuan penggunaan alat percakapan.
Command R+ adalah versi yang lebih kuat dengan 104 miliar parameter.2 Versi ini dapat menangani fungsi RAG yang kompleks dan penggunaan alat multilangkah, sehingga agen AI dapat mengumpulkan informasi terbaru dan memperbarui basis pengetahuan mereka dengan menggunakan alat eksternal.
Command R7B adalah model terkecil dan tercepat dengan 7 miliar parameter. Model ini ideal untuk penerapan berbasis CPU, GPU kelas bawah, dan perangkat edge lainnya, serta dapat diimplementasikan untuk inferensi pada perangkat.
Pengembang: DeepSeek
Tanggal rilis: Januari 2025
Jumlah parameter: 671 miliar
Jendela konteks: 128.000 token
Lisensi: Sumber terbuka (Lisensi MIT)
Akses: DeepSeek API, Hugging Face
Input: Teks
Output: Teks
DeepSeek-R1 adalah model penalaran sumber terbuka dari startup AI Tiongkok DeepSeek. Model ini menggunakan Mixture of Experts (MoE) machine learning dan dilatih menggunakan data skala besar reinforcement learning untuk memperbaiki kemampuan penalaran sistem.
Performa DeepSeek-R1 mirip atau bahkan lebih baik daripada model penalaran seri o1 dari OpenAI pada beberapa tolok ukur LLM. DeepSeek-R1 juga menggunakan penyulingan pengetahuan untuk menyempurnakan beberapa model Llama dan Qwen yang lebih kecil dengan menggunakan data penalaran yang dihasilkan oleh LLM DeepSeek-R1 yang jauh lebih besar.
Model suling yang dihasilkan meningkatkan kemampuan penalaran dari rekan-rekan aslinya dan bahkan telah meningkatkan kinerja dibandingkan model yang lebih besar lainnya. 3
Pengembang: Technology Innovation Institute
Tanggal rilis: Desember 2024 untuk Falcon 3
Jumlah parameter: Hingga 180 miliar
Jendela konteks: Hingga 32.000 token
Lisensi: Sumber terbuka
Akses: Memeluk Wajah
Input: Teks
Output: Teks
Falcon adalah sekelompok model sumber terbuka yang dikembangkan oleh para peneliti di Technology Innovation Institute (TII) Uni Emirat Arab. Model-model ini dilatih pada RefinedWeb milik TII sendiri, sebuah kumpulan data besar yang berisi data web bahasa Inggris yang telah disaring.
Falcon terdiri dari LLM berikut:
● Falcon 2
● Falcon 3
● Falcon Mamba 7B
Versi Falcon yang lebih awal dan lebih besar lainnya termasuk Falcon 40B dengan 40 miliar parameter dan Falcon 180B dengan 180 miliar parameter.
Falcon 2 11B adalah model khusus dekoder kausal dengan 11 miliar parameter. Model ini menawarkan dukungan multibahasa dan akan segera menampilkan kemampuan visi-ke-bahasa.
Falcon 3 memiliki desain khusus dekoder dan hadir dalam ukuran parameter ringan 1, 3, 7, dan 10 miliar. Ini merupakan penyempurnaan dari pendahulunya, dengan meningkatkan kemampuan penalarannya.
Falcon Mamba 7B adalah model bahasa ruang status (SSLM), yang menyimpang dari arsitektur transformator LLM pada umumnya. Model transformator menggunakan mekanisme perhatian untuk "memfokuskan perhatian mereka" pada token yang paling penting dalam urutan input. Namun, seiring dengan bertambahnya jendela konteks, transformer membutuhkan lebih banyak memori dan daya komputasi.
SSLM terus memperbarui "status" selama pemrosesan dan menggunakan algoritma pemilihan untuk menyesuaikan parameter secara dinamis sesuai dengan input. Hal ini memungkinkan Falcon Mamba 7B untuk memproses rangkaian teks yang panjang tanpa memerlukan memori tambahan dan menghasilkan token baru dalam jumlah waktu yang sama terlepas dari panjang konteksnya.
Jumlah parameter: Tidak diungkapkan kepada publik
Lisensi: Berpemilik
Akses: API Gemini, Google AI Studio, Google Cloud Vertex AI
Input: Multimodal (audio, gambar, teks, video)
Output: Teks
Gemini adalah rangkaian model multimodal Google. Model ini juga mendukung chatbot AI generatif (sebelumnya dikenal sebagai Bard) dengan nama yang sama.
Gemini menggunakan model transformer, sebuah arsitektur neural networks yang berasal dari Google sendiri, dan dibangun di atas model bahasa dasar perusahaan sebelumnya, termasuk BERT (Representasi Encoder Dua Arah dari Transformers) dan PaLM 2 (Pathways Language Model).
Versi terbaru, Gemini 2.0, "dibuat untuk era agen," menurut Google. Gemini 2.0 hadir dalam berbagai varian:
● Gemini 2.0 Flash
● Gemini 2.0 Flash-Lite
● Gemini 2.0 Pro
Gemini 2.0 Flash adalah model ringan yang mendukung penggunaan alat bantu. Fitur yang akan segera hadir, termasuk pembuatan gambar dan text-to-speech.
Gemini 2.0 Flash-Lite adalah versi yang lebih baik dari 1.5 Flash yang ringan dan hemat biaya sebelumnya. Kamera ini mempertahankan kecepatan dan biaya yang sama sekaligus meningkatkan kualitas.
Gemini 2.0 Pro adalah apa yang disebut Google sebagai model terkuatnya untuk pengodean dan menangani prompt yang rumit karena kemampuan penggunaan alat dan jendela konteks yang lebih panjang, yaitu 2 juta token. Ini masih dalam tahap percobaan.
Pengembang: OpenAI
Tanggal rilis: Mei 2024 untuk GPT-4o dan Juli 2024 untuk GPT-4o mini
Jumlah parameter: Tidak diungkapkan ke publik
Jendela konteks: 128.000 token
Lisensi: Berpemilik
Akses: OpenAI API menggunakan .NET, JavaScript, Python, TypeScript
Input: Multimodal (audio, gambar, teks, video)
Output: Multimodal (audio, gambar, teks)
Generative pretrained transformer (GPT) adalah sederetan model bahasa besar yang dikembangkan oleh OpenAI. GPT mencakup LLM berikut:
● GPT-4o
● GPT-4o mini
GPT-4o adalah model multibahasa dan multimodal. Sebagai salah satu LLM yang paling canggih, GPT-4o mampu memproses input audio, teks, dan visual serta menghasilkan perpaduan output audio, gambar, dan teks.
Model ini telah meningkatkan kinerjanya dibandingkan pendahulunya GPT-4 Turbo dan GPT-4. GPT-4o adalah LLM saat ini yang mendukung chatbot AI generatif ChatGPT OpenAI.
GPT-4o mini adalah model yang lebih kecil dan lebih terjangkau yang menerima input gambar dan teks serta menghasilkan output teks. Model ini telah melampaui GPT-3.5 Turbo dalam hal kinerja.
Pengembang: IBM
Tanggal rilis: Februari 2025
Jumlah parameter: Hingga 34 miliar
Jendela konteks: 128.000 token
Lisensi: Sumber terbuka (Apache 2.0)
Akses: IBM watsonx.ai , Hugging Face, LM Studio, Ollama, Replicate
Input: Multimodal (gambar, teks)
Output: Teks
IBM Granite adalah serangkaian LLM sumber terbuka yang siap untuk perusahaan. Ini mencakup model-model berikut:
● Granite 3.2
● Granite Vision
Granite 3.2 menggabungkan kemampuan penalaran yang disempurnakan dan fitur-fitur canggih untuk tugas-tugas RAG. Tersedia dalam 2 dan 8 miliar ukuran parameter.
Data pelatihan Granite 3.2 adalah campuran dari kumpulan data sumber terbuka dengan lisensi permisif dan kumpulan data sintetis berkualitas tinggi yang dikumpulkan secara internal yang dirancang untuk memecahkan masalah konteks panjang.
Granite Vision adalah model bahasa visi dengan 2 miliar parameter yang dirancang untuk pemahaman dokumen visual. Model ini dirancang untuk ekstraksi konten yang efisien dari bagan, diagram, dan tabel, sehingga cocok untuk analisis data terstruktur.
LLM lain dalam seri Granite terdiri dari model khusus ini:
● Granite Code
● Granite Guardian
● Granite Embedding
Model khusus dekoder ini dirancang untuk tugas-tugas pembuatan kode, termasuk pengeditan kode, penjelasan kode, dan pembuatan kode. Model Granite Code dilatih dengan kode yang ditulis dalam 116 bahasa pemrograman dan tersedia dalam ukuran 3, 8, 20, dan 34 miliar parameter.
ModelGranite Guardian adalah pagar pembatas berbasis LLM yang dirancang untuk deteksi risiko dalam prompt dan respons. Granite Guardian tersedia dalam ukuran 2, 3, 5 dan 8 miliar parameter.
ModelGranite Embedding adalah model transformator kalimat yang dibuat khusus untuk aplikasi berbasis pencarian seperti pencarian semantik dan RAG.
Pengembang: xAI
Tanggal rilis: Februari 2025 untuk Grok 3
Jumlah parameter: 314 miliar
Jendela konteks: 128.000 token
Lisensi: Berpemilik
Akses: API xAI
Input: Multimodal (gambar, teks)
Output: Teks
Grok adalah model bahasa dari xAI. LLM generasi pertama, Grok-1, adalah model MoE dengan 314 miliar parameter. Karena ukurannya yang sangat besar, hanya 25% dari bobot model Grok-1 yang aktif pada token input yang diberikan.
Pada bulan Maret 2024, xAI merilis Grok-1.5 dengan jendela konteks 128.000 token dan kemampuan pemecahan masalah yang ditingkatkan. Lima bulan kemudian, xAI meluncurkan versi beta Grok-2 dan versi yang lebih kecil, Grok-2 mini. Grok-2 memiliki kemampuan obrolan, pengkodean, dan penalaran yang lebih baik serta menambahkan dukungan untuk tugas-tugas berbasis visi.
Rilis terbaru, Grok 3 dan Grok 3 mini, dilengkapi dengan penalaran tingkat lanjut dan fungsi agen AI.
Pengembang: Meta
Tanggal rilis: Desember 2024 untuk Llama 3.3
Jumlah parameter: Hingga 405 miliar
Jendela konteks: 128.000 token
Lisensi: Sumber terbuka
Akses: Meta, Hugging Face, Kaggle
Masukan: Multimodal (gambar, teks)
Output: Teks
Llama adalah koleksi LLM Meta AI. Model-model autoregresif ini mengimplementasikan arsitektur transformator yang dioptimalkan, dengan versi yang disetel yang menerapkan penyempurnaan yang diawasi dan pembelajaran penguatan dengan masukan manusia (RLHF).5
Koleksi Llama 3 menggantikan LLM Llama 2 dan menawarkan model-model berikut:
● Llama 3.1
● Llama 3.2
● Llama 3.3
Llama 3.1 memiliki model 8-miliar-parameter dan model dasar unggulan 405-miliar-parameter. Keduanya merupakan model khusus teks multibahasa.
Llama 3.2 hadir dalam 1 dan 3 miliar ukuran parameter yang cukup ringkas untuk mobile dan edge. Ukuran parameter 11 dan 90 miliar adalah LLM multimodal yang dioptimalkan untuk menjawab pertanyaan umum tentang gambar, teks, penalaran gambar, dan visual recognition.6
Llama 3.3 adalah model teks multibahasa 70 miliar parameter saja. Ini memiliki kinerja yang sebanding atau bahkan lebih baik daripada Llama 3.1 405B tetapi lebih hemat biaya
.Pengembang: Mistral AI
Tanggal rilis: Juli 2024 untuk Mistral Large 2
Jumlah parameter: Hingga 124 miliar
Jendela konteks: Hingga 256.000 token
Lisensi: Lisensi Penelitian Mistral, Lisensi Komersial Mistral, Apache 2.0
Akses: La Plateforme, Amazon Bedrock, Microsoft Azure AI Studio, Google Cloud Vertex AI, IBM watsonx.ai
Masukan: Multimodal (gambar, teks)
Output: Teks
Perusahaan yang berbasis di Prancis,Mistral AI, memiliki rangkaian LLM yang mencakup model-model berikut:
● Mistral Large
● Mistral Small
● Codestral
● Pixtral Large
Mistral Large 2 adalah model unggulan Mistral AI. Model ini memiliki 123 miliar parameter dan jendela konteks 128.000 token. Model ini berkinerja baik dalam pembuatan kode, matematika, dan penalaran. Mistral Large 2 menawarkan dukungan multibahasa dan kemampuan pemanggilan fungsi.
Mistral Small 3 adalah versi yang lebih ringkas dengan 24 miliar parameter. Model ini cocok untuk AI percakapan dengan respons cepat, pemanggilan fungsi latensi rendah, dan penanganan inferensi secara lokal pada mesin dengan sumber daya terbatas. Mistral Small 3 adalah sumber terbuka dan dirilis di bawah lisensi Apache 2.0.
Codestral 25.01 adalah generasi terbaru dari model pengodean Mistral AI. Model ini memiliki panjang konteks 256.000 token dan mendukung tugas-tugas seperti penyelesaian kode, koreksi kode, pembuatan kode, dan pembuatan pengujian.
Pixtral Large adalah model multimodal dengan 124 miliar parameter. Model ini dibangun di atas Mistral Large 2 dan memperluas kemampuannya untuk menyertakan pemahaman gambar.
Pengembang: OpenAI
Tanggal rilis: September 2024 untuk o1, Januari 2025 untuk o3-mini
Jumlah parameter: Tidak diungkapkan kepada publik
Jendela konteks: Hingga 200.000 token
Lisensi: Berpemilik
Akses: OpenAI API
Input: Multimodal (gambar, teks)
Output: Teks
Model AI seri o1 mencakup o1 dan o1-mini. Dibandingkan dengan model GPT OpenAI, o1 LLM dilengkapi dengan kemampuan penalaran yang lebih canggih. Baik o1 maupun o1-mini dilatih dengan pembelajaran penguatan berskala besar, yang memungkinkan mereka untuk "berpikir" sebelum merespons. Mereka dapat menghasilkan rantai pemikiran yang panjang sebelum menjawab.
LLM o1 menerima input gambar dan teks, sedangkan o1-mini hanya dapat menangani input teks.7 Dibandingkan dengan o1, o1-mini lebih kecil, lebih cepat, dan lebih hemat biaya. Model ini juga unggul dalam penalaran dan pengodean STEM.
Sementara itu, o3-mini adalah model penalaran terbaru. Seperti o1-mini, kekuatannya terletak pada pengodean, matematika, dan sains. Model ini mendukung pemanggilan fungsi dan menawarkan 3 opsi upaya penalaran (rendah, sedang, dan tinggi) untuk mengoptimalkan skenario yang berbeda, seperti masalah kompleks yang membutuhkan lebih banyak upaya penalaran atau masalah yang lebih sederhana yang membutuhkan respons cepat dan dapat menggunakan lebih sedikit penalaran.
Tanggal rilis: September 2024 untuk Qwen 2.5 dan Januari 2025 untuk Qwen2.5-Max
Jumlah parameter: Hingga 72 miliar
Jendela konteks: Hingga 1 juta token
Lisensi: Sumber terbuka (Apache 2.0), Eksklusif untuk model yang lebih besar
Akses: Alibaba Cloud, Hugging Face
Input: Multimodal (audio, gambar, teks, video)
Output: Teks
Qwen adalah serangkaian LLM dari perusahaan komputasi cloud Tiongkok, Alibaba Cloud. Qwen mencakup model dan varian bahasa yang dioptimalkan untuk tugas-tugas audio, pengodean, matematika, dan penglihatan.
Qwen menawarkan model-model berikut:
● Qwen 2.5
● Qwen Audio
● Qwen Coder
● Qwen Math
● Qwen VL
Model Qwen2.5 adalah model khusus dekoder untuk tugas pemrosesan bahasa multibahasa. Model ini tersedia dalam ukuran 0,5, 3, 7, 14, 32, dan 72 miliar parameter. Model yang lebih besar, seperti varian 72 miliar, hanya tersedia melalui akses API pada platform cloud milik Alibaba.
Qwen2.5-Turbo memiliki panjang konteks yang lebih panjang, yaitu 1 juta token dan kecepatan inferensi yang lebih cepat. Sementara itu, Qwen2.5-Max adalah model MoE skala besar terbaru.
Qwen 2 Audio dibuat khusus untuk tugas-tugas berbasis audio. Model dengan 7 miliar parameter ini dapat digunakan untuk mentranskrip, mendeteksi dan mengklasifikasikan suara, menangani perintah suara, dan mengidentifikasi elemen musik.
Qwen2.5 Coder adalah LLM khusus kode. Tersedia dalam ukuran 1,5, 7, 14, dan 32 miliar parameter.
Qwen 2 Math adalah kumpulan LLM yang dioptimalkan untuk matematika. Model-model ini cocok untuk penalaran matematika tingkat lanjut dan memecahkan masalah matematika yang kompleks. Qwen 2 Math hadir dalam 1,5, 7, dan 72 miliar ukuran parameter.
Qwen 2 VL adalah model bahasa visi yang menggabungkan pemrosesan visual dengan natural language understanding. Contoh penggunaannya mencakup menggalian informasi dari data visual, dan menghasilkan teks dan ringkasan untuk gambar dan video. Qwen 2 VL tersedia dalam 2, 7, dan 72 miliar ukuran parameter.
Pengembang: Stability AI
Tanggal rilis: April 2024 untuk Stable LM 2 12B
Jumlah parameter: Hingga 12 miliar
Jendela konteks: 4.096 token
Lisensi: Lisensi Komunitas AI atau Lisensi Enterprise
Akses: Stability AI, Hugging Face
Input: Teks
Output: Teks
Stable LM adalah sekelompok model bahasa akses terbuka dari Stability AI, pembuat model teks-ke-gambar Stable Diffusion. Stable LM 2 12B memiliki 12 miliar parameter, sedangkan Stable LM 2 1,6B memiliki 1,6 miliar parameter. Ini adalah LLM khusus dekoder yang dilatih pada data multibahasa dan kumpulan data kode. Kedua model ini menggabungkan pemanggilan fungsi dan penggunaan alat.
Stable Code 3B adalah LLM lain yang disetel dengan baik pada kumpulan data terkait kode. Sebagai model yang ringan dengan 3 miliar parameter, Stable Code 3B dapat dijalankan secara real time pada perangkat, bahkan yang tidak memiliki GPU.
Semua tautan berada di luar ibm.com
1 Model Card for C4AI Command R 08-2024, Hugging Face, Diakses 14 Februari 2025.
2 Model Card for C4AI Command R+ 08-2024, Hugging Face, Diakses 14 Februari 2025.
3 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, GitHub, 23 Januari 2025.
4 Access the latest 2.0 experimental models in the Gemini app, Google, 5 Februari 2025.
5 Informasi Model, GitHub, 30 September 2024.
6 Informasi Model, GitHub, 30 September 2024.
7 o1 and o1-mini, OpenAI, Diakses 14 Februari 2025.
Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.
Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.
Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.