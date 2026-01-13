Hampir setahun setelah model R1 DeepSeek yang berbiaya rendah dan berkinerja tinggi mengguncang Silicon Valley dan Wall Street, laboratorium AI asal Tiongkok tersebut siap mengguncang industri AI sekali lagi. Kali ini, DeepSeek telah merilis kerangka kerja baru yang berpotensi membuat pelatihan model bahasa besar (LLM) jauh lebih efisien, stabil, dan dapat diskalakan. Mungkin paling penting, pendekatan ini menurunkan biaya pra-pelatihan, sehingga membuka kekuatan LLM bagi perusahaan kecil dan pengembang individu.

“Dengan inovasi ini, DeepSeek bertanya, ‘bagaimana saya bisa mendapatkan lebih banyak nilai dari setiap dolar yang dikeluarkan selama pra-pelatihan?’” kata IBM® Distinguished Engineer Chris Hay dalam wawancara dengan IBM® Think. “Pelatihan model adalah bagian yang mahal.”

Peneliti DeepSeek menguji arsitektur baru ini, yang disebut Manifold-Constrained Hyper-Connections (MHc), pada model dengan tiga miliar, sembilan miliar, dan 27 miliar parameter. Mereka menemukan bahwa model dapat diskalakan tanpa menambahkan beban komputasi atau ketidakstabilan yang signifikan dua hal yang biasanya meningkat seiring dengan proses penskalaan.