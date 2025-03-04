Jika Anda membaca berita utama pada tanggal 20 Januari 2025, Anda mungkin mengira langit akan runtuh. Itu karena DeepSeek di Tiongkok merilis model bahasa besar (LLM) R1, yang dengan cepat menjadi salah satu model paling banyak diunduh dan digunakan setelah peluncurannya.
Yang menarik adalah laboratorium riset AI di Hangzhou, China, yang merilis model ini, membangunnya dengan biaya jauh lebih rendah—5,6 juta USD —dan dengan sumber daya serta akses chip NVIDIA jauh lebih sedikit dibandingkan model terkemuka AS.
Seperti jarum jam, banyak orang khawatir beberapa perusahaan AI AS yang mendapat pendanaan besar akan tertinggal. Karena DeepSeek menggunakan lebih sedikit chip NVIDIA dibanding perusahaan lain, harga sahamnya turun. Namun, itu lebih merupakan reaksi spontan terhadap berita tersebut daripada sesuatu yang secara material mengkhawatirkan tentang nasib para pembuat chip.
Wartawan teknologi dan bisnis melihat berita ini sebagai kejutan besar bagi industri. Namun bagi para pakar AI lainnya dan saya, satu-satunya hal yang mengejutkan dari pengumuman R1 DeepSeek adalah betapa terkejutnya semua orang.
Sementara modelnya baru, DeepSeek jauh dari pendatang baru ke pasar digital. DeepSeek memiliki sejarah yang cukup dalam memproduksi model sumber terbuka yang berharga di pasar China, terutama model V3 yang dirilis pada bulan Desember. Faktanya, mereka merilis makalah teknis yang menyertainya, yang menawarkan pendidikan bagi siapa saja yang ingin mendalami lebih jauh cara membangun laboratorium ini. Model V3 lebih mengejutkan, tetapi tampaknya luput dari perhatian.
Model R1 DeepSeek adalah contoh lain dari alat AI generatif yang bisa menjadi dasar masa depan AI agen, di mana alat AI tidak hanya menanggapi permintaan pengguna, tetapi juga bekerja secara mandiri untuk menyediakan layanan bagi mereka.
Sementara IBM® secara desain bermitra dengan dan menggunakan semua model tersebut, kami juga menjadi pendukung dan insinyur besar dalam gerakan sumber terbuka. Melihat model sumber terbuka seperti R1 mendapatkan pujian yang layak, merupakan hal sangat baik bagi industri.
Wajar jika para pemain besar merasa terganggu melihat DeepSeek menghasilkan model yang setara atau bahkan lebih baik dari model mereka, tetapi dengan biaya jauh lebih rendah. Namun, inilah tujuan dari komunitas sumber terbuka.
Pengumuman DeepSeek R1 menggambarkan dua sisi: pasar keuangan memproyeksikan gejolak, sementara para pakar AI antusias terhadap terobosan teknologi beserta potensinya membentuk model baru yang lebih efisien dan kuat.
R1 hanya menegaskan apa yang sudah banyak diketahui, dan dunia kini sedang mengejar ketertinggalannya. DeepSeek jelas berdiri di atas kontribusi seluruh ekosistem sumber terbuka, termasuk IBM®, Meta, dan banyak lainnya. Model sumber terbuka akan terus memimpin inovasi. Meskipun R1 menjadi kejutan awal bagi ekosistem, keberadaannya akan menguntungkan semua pihak. Terutama mengingat DeepSeek baru saja mengumumkan Pekan Sumber Terbuka , di mana mereka berbagi satu repositori sumber terbuka setiap hari.
DeepSeek R1 menggunakan pendekatan machine learning Mixture of Experts (MoE) yang membagi model kecerdasan buatan (AI) menjadi sub-jaringan (atau "pakar") yang terpisah, masing-masing berspesialisasi dalam subset data input, untuk bersama-sama melakukan tugas.
Jadi, dengan pendekatan MoE, tidak semua parameter dalam model perlu diaktifkan sekaligus. Sebagai contoh, model v3 atau R1 DeepSeek memiliki sekitar 671 miliar parameter, tetapi hanya 37 miliar yang aktif pada satu waktu. Jadi, hanya sebagian kecil dari keseluruhan model yang benar-benar menjawab pertanyaan, membuatnya jauh lebih efisien.
Secara historis, peneliti sering mengalami kesulitan dalam melatih model MoE. DeepSeek memperkenalkan beberapa teknik baru untuk mengatasi masalah tersebut sekaligus menjaga beban kerja tetap moderat dan efisien bagi campuran pakar mereka.
Sebagai contoh, model V3 dan R1 menggunakan pembelajaran penguatan daripada bergantung pada data berlabel. Teknik ini menelusuri berbagai rute untuk mencapai jawaban. Setiap rute yang ditempuh, model ini menilai kembali sepanjang perjalanan. Dengan demikian, model lebih cepat menentukan apakah akan mengambil jalur yang salah. Kemudian, model dapat segera mundur dan memilih rute yang berpotensi lebih menguntungkan.
Alasan “rantai pemikiran” ini adalah karena membantu model menemukan jalur menuju tujuan akhir secara akurat dan memperoleh reward atas keberhasilannya. Metode pembelajaran penguatan ini memungkinkan mereka melatih model agar bekerja setara atau lebih baik daripada OpenAI dan model lainnya.
Terkadang keterbatasan justru melahirkan inovasi. DeepSeek terbatas dalam jumlah chip NVIDIA yang dapat diperoleh karena kontrol ekspor AS terhadap penjualan chip ke Tiongkok. Perusahaan induknya memiliki banyak chip NVIDIA—sekitar 2.000 chip NVIDIA H800—namun tetap harus gesit dalam memanfaatkannya. Mereka melakukan pekerjaan luar biasa hingga ke level perangkat keras untuk mendorong berbagai optimalisasi.
Semua orang di komunitas sumber terbuka menggunakan platform Cuda NVIDIA, yang menyediakan pustaka lengkap untuk menghubungkan berbagai GPU agar dapat berkomunikasi lebih efisien, mendistribusikan beban kerja, dan sebagainya. Namun DeepSeek melangkah lebih jauh, menembus perpustakaan dan sekaligus mengoptimalkan perangkat keras.
Kenyataannya, kecepatan perkembangan model terbuka yang telah meningkat dan akan terus meningkat memang fenomenal.
AI tidak akan berkembang tanpa chip. Berita awal bahwa model unggul mungkin membutuhkan lebih sedikit chip membuat sebagian pengamat industri keliru menyimpulkan bahwa permintaan chip akan menurun. Menurut Jevons Paradox, yang terjadi justru sebaliknya: peningkatan efisiensi sering mendorong kenaikan konsumsi. Dari penggunaan bahan bakar dan energi yang terus meningkat hingga efisiensi pendingin ruangan yang lebih tinggi yang mendorong orang membangun rumah lebih besar, sesuatu yang baik tidak akan pernah berlebihan.
Sebagai contoh, bisnis wiski global. Dalam beberapa tahun terakhir, munculnya penyuling independen dan penyuling skala kecil semakin meningkatkan permintaan biji-bijian. Hal yang sama terjadi di industri mana pun, karena pertumbuhan ekonomi membuka lebih banyak peluang bagi perusahaan kecil. Mungkin beberapa perusahaan akan menggunakan lebih sedikit chip, tetapi DeepSeek menunjukkan bahwa lebih banyak pemain dapat memasuki pasar dan memanfaatkan sumber terbuka untuk membangun model impresif dengan biaya lebih rendah.
Bagi saya, inilah hal yang paling penting. Yang terbuka bukan hanya untuk kalangan elit dengan akses komputasi luar biasa yang dapat membangun generasi model berikutnya. Mungkin ada jalur alternatif di mana laboratorium yang lebih kecil juga dapat mulai berinvestasi untuk membangun lebih banyak model. Itu kabar baik bagi siapa pun yang bersemangat tentang agen AI dan masa depan agen yang kita antisipasi bersama.
Persaingan di antara para pemain utama akan naik turun, sehingga tidak perlu memikirkan pemenang dan pecundang dalam waktu dekat. Setiap hari, perusahaan, peneliti, dan ilmuwan AI terus berinovasi untuk menghasilkan model yang lebih baik dengan penalaran yang lebih ilmiah.
Itulah sebabnya kami sangat senang dengan pembaruan penalaran terbaru kami untuk keluarga LLM Granite kami, yang telah mengungguli kinerja R-1 pada tolok ukur seperti ArenaHard dan AlpacaEvaModel penalaran kami menggabungkan yang terbaik dari kedua dunia: kinerja tinggi dengan karakteristik keamanan, sambil membiarkan pengguna memilih apakah mereka ingin menggunakan kemampuan penalaran atau tidak, tergantung pada situasinya. Semakin banyak kita berbagi apa yang kita ketahui dan sumber terbuka apa yang mungkin dilakukan akan manfaat semua orang, yang paling penting konsumen.
Sementara OpenAI dan pihak lain mungkin merasakan tekanan awal dari munculnya pesaing kecil namun tangguh, ini merupakan kemenangan besar bagi komunitas dan sejalan dengan visi IBM® untuk masa depan AI. Ini merupakan kemenangan besar bagi komunitas sumber terbuka dan menunjukkan bahwa model yang lebih kecil dapat menyaingi beberapa model lainnya. Jelas, ini sama sekali tidak mengesampingkan pemain besar; jika mereka cerdas, mereka akan memanfaatkan pelajaran dari DeepSeek untuk terus membangun model lebih besar dengan biaya lebih rendah.
Tetapi pada akhirnya, persaingan sangat baik bagi perusahaan dan konsumen. Semua orang diuntungkan ketika terjadi peristiwa besar seperti DeepSeek R1.
