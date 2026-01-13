저비용 고성능 R1 모델로 실리콘밸리와 월가를 동시에 뒤흔든 지 거의 1년이 지난 지금, 중국 AI 연구소 DeepSeek는 다시 한번 AI 업계를 흔들 준비를 하고 있습니다. 이번에는 대규모 언어 모델(LLM) 학습을 훨씬 더 효율적이고 안정적이며 확장 가능하게 만들 수 있는 새로운 프레임워크를 공개했습니다. 무엇보다 중요한 점은 사전 학습 비용을 크게 낮춰, 중소 기업과 개인 개발자에게도 LLM의 강력한 성능을 활용할 수 있는 길을 열어준다는 점입니다.

IBM의 저명한 엔지니어 Chris Hay는 IBM Think와의 인터뷰에서 “이 혁신을 통해 DeepSeek는 ‘사전 학습 단계에서 어떻게 하면 같은 비용으로 더 큰 효과를 낼 수 있을까?’라고 묻고 있는 셈입니다.”라고 말했습니다. “모델 학습이 가장 비용이 많이 드는 부분이죠.”

DeepSeek 연구진은 Manifold-Constrained Hyper-Connections(mHC)라고 불리는 이 새로운 아키텍처를 30억, 90억, 270억 개의 파라미터를 가진 모델에 적용해 테스트했습니다. 그 결과, 일반적으로 스케일이 커질수록 함께 증가하는 연산 부담이나 불안정성을 크게 추가하지 않으면서도 모델이 확장되는 것을 확인했습니다.