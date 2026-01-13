Hampir setahun setelah model R1 DeepSeek yang berbiaya rendah dan berkinerja tinggi mengguncang Silicon Valley dan Wall Street, laboratorium AI asal Tiongkok tersebut siap mengguncang industri AI sekali lagi. Kali ini, DeepSeek telah merilis kerangka kerja baru yang berpotensi membuat pelatihan model bahasa besar (LLM) jauh lebih efisien, stabil, dan dapat diskalakan. Mungkin paling penting, pendekatan ini menurunkan biaya pra-pelatihan, sehingga membuka kekuatan LLM bagi perusahaan kecil dan pengembang individu.
“Dengan inovasi ini, DeepSeek bertanya, ‘bagaimana saya bisa mendapatkan lebih banyak nilai dari setiap dolar yang dikeluarkan selama pra-pelatihan?’” kata IBM® Distinguished Engineer Chris Hay dalam wawancara dengan IBM® Think. “Pelatihan model adalah bagian yang mahal.”
Peneliti DeepSeek menguji arsitektur baru ini, yang disebut Manifold-Constrained Hyper-Connections (MHc), pada model dengan tiga miliar, sembilan miliar, dan 27 miliar parameter. Mereka menemukan bahwa model dapat diskalakan tanpa menambahkan beban komputasi atau ketidakstabilan yang signifikan dua hal yang biasanya meningkat seiring dengan proses penskalaan.
Biasanya, laboratorium AI perbatasan mengandalkan “kekuatan kasar” untuk meningkatkan kemampuan AI, kata Kaoutar El Maghraoui, Ilmuwan Riset Utama di IBM®, dalam episode terbaru podcast Mixture of Experts. Itu berarti “menambahkan lebih banyak data, lebih banyak kekuatan, lebih banyak parameter,” katanya. Namun, pendekatan tersebut kini menjadi “semakin tidak efisien dan hanya dapat dijangkau oleh segelintir perusahaan besar.”
El Maghraoui menekankan bahwa arsitektur MHC DeepSeek berpotensi merevolusi pra-pelatihan model. “Pendekatan ini menskalakan AI dengan cara yang lebih cerdas daripada sekadar membuatnya lebih besar,” katanya. “Ini adalah cara yang lebih cerdas untuk merancang model-model tersebut, yang juga akan bekerja lebih baik dengan perangkat keras.” MHc juga dapat dengan mudah terintegrasi dengan perangkat keras khusus perusahaan, ujar El Maghraoui, sehingga menjadikannya opsi yang berpotensi menarik bagi organisasi yang mencari solusi AI yang lebih hemat biaya. Sebagai contoh, ia menunjuk hardware accelerators khusus IBM®, yang dirancang untuk mempercepat beban kerja AI, machine learning, dan pembelajaran mendalam bagi klien perusahaan on premises.
Dalam sebuah postingan di LinkedIn, Pierre-Carl Langlais, salah satu pendiri startup AI asal Prancis, Pleias, menyatakan bahwa signifikansi sesungguhnya dari makalah ini melampaui sekadar pembuktian skalabilitas MHc. “Fleksibilitas yang sebenarnya,” tulisnya, adalah kemampuan DeepSeek untuk merekayasa ulang setiap dimensi dari lingkungan pelatihan. “Itulah yang menjadikan [DeepSeek] sebagai laboratorium perbatasan.”
Bagi Hay, fakta bahwa DeepSeek terus membuka sumber pekerjaan barunya sangat penting karena membuat AI lebih mudah diakses oleh audiens yang lebih luas. “Saya menghargai bahwa mereka menghadirkan inovasi, membukanya kepada dunia, memungkinkan orang untuk mencoba [hal tersebut], lalu membawa seluruh bidang ini maju bersama-sama,” katanya.
Ketika para pemimpin AI di organisasi yang lebih kecil menavigasi kompleksitas penerapan solusi AI yang hemat biaya, inovasi seperti kerangka kerja MHC DeepSeek memudahkan mereka mengakses model dasar yang kuat yang secara historis hanya tersedia bagi perusahaan dengan sumber daya finansial jauh lebih besar. Dengan secara signifikan menurunkan biaya pra-pelatihan LLM dan membuat AI lebih mudah diakses, terobosan DeepSeek berpotensi merevolusi lingkungan AI bagi perusahaan kecil dan menengah.
