DeepSeek-R1, model AI dari startup Tiongkok DeepSeek, melonjak ke puncak daftar model AI yang paling banyak diunduh dan digunakan di platform AI sumber terbuka Hugging Face hanya beberapa jam setelah dirilis minggu lalu. Ini juga memicu gelombang kejutan di pasar keuangan karena mendorong investor untuk mempertimbangkan kembali penilaian pembuat chip seperti NVIDIA serta investasi besar yang dilakukan raksasa AI Amerika untuk menskalakan bisnis AI mereka.
Mengapa semua ini heboh? Model yang disebut "model penalaran," DeepSeek-R1 , adalah asisten digital yang berkinerja sebaik o1 OpenAI pada tolok ukur AI untuk tugas matematika dan pengodean, dilatih dengan chip yang jauh lebih sedikit dan kira-kira 96% lebih murah untuk digunakan, menurut perusahaan.
“DeepSeek jelas membentuk kembali lingkungan AI, menantang para raksasa dengan ambisi sumber terbuka dan inovasi canggih,” kata Kaoutar El Maghraoui, Ilmuwan Riset Utama dan Manajer di IBM® AI Hardware.”
Sementara itu, ByteDance, raksasa teknologi Tiongkok yang memiliki TikTok, baru-baru ini mengumumkan agen penalarannya sendiri, UI-TARS, yang diklaim mengungguli GPT-4o OpenAI, Claude Anthropic, dan Gemini Google pada tolok ukur tertentu. Agen ByteDance mampu membaca antarmuka grafis, melakukan penalaran, dan mengambil tindakan secara otonom melalui langkah-langkah terstruktur.
Dari startup hingga raksasa mapan, perusahaan AI Tiongkok tampaknya semakin memperkecil kesenjangan dengan pesaing Amerika mereka, terutama berkat kesediaan mereka untuk menjadi sumber terbuka atau berbagi kode perangkat lunak dasar dengan bisnis lain dan para pengembang perangkat lunak. “DeepSeek telah mampu mengembangkan sejumlah model yang sangat kuat di seluruh komunitas,” ujar Abraham Daniels, Manajer Produk Teknis Senior untuk model Granite IBM®. DeepSeek-R1 tersedia di Hugging Face dengan lisensi MIT yang memungkinkan penggunaan komersial tanpa batas. “DeepSeek benar-benar dapat mempercepat demokratisasi AI,” ujarnya.
Musim panas lalu, perusahaan Tiongkok Kuaishou meluncurkan alat pembuat video serupa Sora milik OpenAI, tetapi tersedia untuk publik secara gratis. Sora diluncurkan pada Februari lalu, tetapi baru dirilis sepenuhnya pada bulan Desember, dan bahkan saat itu hanya pengguna yang berlangganan ChatGPT Pro yang dapat mengakses seluruh fiturnya. Para pengembang di Hugging Face juga telah mengadopsi model sumber terbuka terbaru dari raksasa teknologi Tiongkok Tencent dan Alibaba. Sementara Meta telah memiliki sumber terbuka model Llama-nya, baik OpenAI maupun Google tetap mengejar pendekatan sumber tertutup yang dominan dalam pengembangan model mereka.
Selain anugerah dari sumber terbuka, para insinyur DeepSeek juga hanya menggunakan sebagian kecil dari chip NVIDIA yang sangat khusus yang digunakan oleh para pesaing Amerika mereka untuk melatih sistem mereka. Insinyur DeepSeek, misalnya, mengatakan bahwa mereka hanya membutuhkan 2.000 GPU (unit pemrosesan grafis), atau chip, untuk melatih model DeepSeek-v3 mereka, menurut riset yang mereka terbitkan bersamaan dengan rilis model tersebut.
“Apa yang benar-benar mengesankan adalah kemampuan model DeepSeek untuk bernalar,” kata Kush Varshney, seorang IBM® Fellow. Model penalaran pada dasarnya memverifikasi atau memeriksa diri mereka sendiri, mewakili bentuk “kognisi meta,” atau “berpikir tentang berpikir,” ujar Varshney. “Kami kini mulai memasukkan kebijaksanaan ke dalam model ini, dan itu merupakan langkah besar.”
Model penalaran menjadi topik hangat percakapan pada September lalu ketika OpenAI mempratinjau model penalaran o1-nya. Berbeda dari model AI sebelumnya, yang menghasilkan jawaban tanpa menjelaskan alasannya, model ini memecahkan masalah kompleks dengan memecahnya menjadi beberapa langkah. Model penalaran dapat membutuhkan beberapa detik atau bahkan menit tambahan untuk memberikan jawaban karena mereka merefleksikan analisis mereka selangkah demi selangkah, atau melalui metode “rantai penalaran”.
Deepseek-R1 memadukan penalaran rantai pemikiran dengan pembelajaran penguatan, di mana agen otonom belajar menyelesaikan tugas melalui proses coba-coba tanpa instruksi dari pengguna manusia. Pembelajaran penguatan berbeda dari bentuk pembelajaran yang lebih umum digunakan, seperti pembelajaran diawasi, yang mengandalkan data berlabel manual untuk menghasilkan prediksi atau klasifikasi, serta pembelajaran tanpa pengawasan, yang bertujuan menemukan dan mempelajari pola tersembunyi dari data tidak berlabel.
Deepseek-R1 menantang asumsi bahwa model akan meningkatkan kemampuan bernalar dengan dilatih pada contoh berlabel tentang perilaku yang benar atau salah, atau dengan mengekstraksi informasi dari pola tersembunyi, ujar Yihua Zhang, seorang mahasiswa PhD di Michigan State University yang telah menulis lusinan makalah tentang machine learning. “Hipotesis utamanya sederhana namun berani,” kata Zhang. “Bisakah kita memberi penghargaan kepada model atas ketepatannya dan membiarkannya menemukan cara terbaik untuk berpikir sendiri?”
Zhang mengatakan bahwa apa yang dia dan orang lain temukan sangat luar biasa tentang pelatihan skala besar model bahasa besar seperti DeepSeek adalah bahwa “model mulai menunjukkan momen 'aha' yang sebenarnya, di mana ia mundur, menemukan kesalahan dan memperbaiki dirinya sendiri.”
Bagian dari hoopla di sekitar DeepSeek berasal dari titik harganya yang rendah. DeepSeek-V3, yang dirilis pada hari Natal, menelan biaya 5,5 juta USD untuk dilatih dan jauh lebih murah bagi para pengembang yang ingin mencobanya, menurut laporan teknis yang dirilis perusahaan. “Sangat mengesankan apa yang mereka capai dengan biaya model tersebut, dan berapa lama waktu yang mereka butuhkan untuk melatihnya,” ujar Chris Hay, Distinguished Engineer di IBM®.
Namun, harga yang rendah ini mungkin bukan keseluruhan ceritanya, kata Kate Soule, Direktur Manajemen Produk Teknis untuk Granite di IBM® Research. Biaya 5,5 juta USD “hanya mewakili sebagian kecil dari komputasi yang dibutuhkan,” katanya. Ini belum termasuk perincian biaya yang ditanggung perusahaan, bahkan dengan model sumber terbuka, seperti “biaya komputasi untuk pembelajaran penguatan, ablasi data, dan pencarian hyperparameter,” kata Soule.
Yang tidak diragukan lagi adalah bahwa DeepSeek mencapai efisiensi biaya yang lebih tinggi dengan menggunakan arsitektur campuran para pakar (MoE), yang secara signifikan lebih hemat dalam penggunaan sumber daya untuk pelatihan. Arsitektur MoE membagi model AI menjadi sub-jaringan terpisah (atau “pakar”), yang masing-masing mengkhususkan diri dalam subset input. Model ini hanya mengaktifkan pakar tertentu yang diperlukan untuk suatu tugas, alih-alih mengaktifkan seluruh neural Networks. Akibatnya, arsitektur MoE secara signifikan menurunkan biaya komputasi selama pra-pelatihan dan menghasilkan kinerja yang lebih cepat pada waktu inferensi. Beberapa perusahaan di seluruh dunia, termasuk perusahaan perintis AI Prancis Mistral dan IBM®, telah mempopulerkan arsitektur MoE selama setahun terakhir dan meraih efisiensi yang lebih tinggi melalui penggabungan MoE dan sumber terbuka.
Dalam kasus seri model Granite sumber terbuka IBM® (dikembangkan dengan arsitektur MoE), perusahaan dapat mencapai kinerja model tingkat perbatasan dengan biaya yang lebih rendah karena mereka dapat menyesuaikan model pra-terlatih berukuran besar untuk aplikasi atau contoh penggunaan spesifik mereka, sehingga secara efektif menghasilkan model yang lebih kecil dan sesuai dengan tujuan. Mengemas kemampuan luar biasa ke dalam model yang lebih kecil berarti model tersebut dapat digunakan pada smartphone dan perangkat seluler lain yang beroperasi di edge, seperti komputer mobil atau sensor pintar di area pabrik.
Proses mengambil model yang lebih besar dan menyulingkannya menjadi model yang lebih kecil dan kurang intensif sumber daya juga berkontribusi pada kesuksesan DeepSeek. Di samping rilis model unggulan R1, startup Tiongkok tersebut juga merilis serangkaian model yang lebih kecil dan sesuai untuk tujuan tertentu. Menariknya, mereka menunjukkan bahwa model yang lebih besar yang disuling menjadi model yang lebih kecil menunjukkan kinerja penalaran yang lebih baik dibandingkan model kecil yang dilatih menggunakan pembelajaran penguatan sejak awal.
Ketika mereka menyaingi atau bahkan melampaui pesaing lama pada tolok ukur tertentu, bagaimana model-model Tiongkok yang baru ini akan memengaruhi lingkungan AI global? “Ini bukan hanya tentang kinerja mentah pada tolok ukur,” kata El Maghraoui. “Ini tentang apakah ada integrasi menyeluruh dari model-model ini dengan cara yang aman dan etis.” Akibatnya, kata El Maghraoui, masih terlalu dini untuk mengatakan apakah Deepseek-R1 dan model lainnya akan “mengubah interaksi manusia, teknologi, dan aplikasi perusahaan.”
Pada akhirnya, “tingkat adopsi oleh para pengembang akan menentukan popularitas model DeepSeek,” kata Daniels. Selain itu, akan “sangat menarik untuk melihat contoh penggunaan yang mereka temukan untuk model tersebut,” ujarnya.
Dan seperti yang diamati Varshney dari IBM®, perbedaan geopolitik mungkin juga kurang penting daripada yang sering diasumsikan dalam perlombaan AI global ini. “Begitu sebuah model menjadi sumber terbuka, asal-usulnya tidak lagi begitu relevan dalam banyak hal,” katanya.
