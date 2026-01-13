저비용 고성능 R1 모델로 실리콘밸리와 월가를 동시에 뒤흔든 지 거의 1년이 지난 지금, 중국 AI 연구소 DeepSeek는 다시 한번 AI 업계를 흔들 준비를 하고 있습니다. 이번에는 대규모 언어 모델(LLM) 학습을 훨씬 더 효율적이고 안정적이며 확장 가능하게 만들 수 있는 새로운 프레임워크를 공개했습니다. 무엇보다 중요한 점은 사전 학습 비용을 크게 낮춰, 중소 기업과 개인 개발자에게도 LLM의 강력한 성능을 활용할 수 있는 길을 열어준다는 점입니다.
IBM의 저명한 엔지니어 Chris Hay는 IBM Think와의 인터뷰에서 “이 혁신을 통해 DeepSeek는 ‘사전 학습 단계에서 어떻게 하면 같은 비용으로 더 큰 효과를 낼 수 있을까?’라고 묻고 있는 셈입니다.”라고 말했습니다. “모델 학습이 가장 비용이 많이 드는 부분이죠.”
DeepSeek 연구진은 Manifold-Constrained Hyper-Connections(mHC)라고 불리는 이 새로운 아키텍처를 30억, 90억, 270억 개의 파라미터를 가진 모델에 적용해 테스트했습니다. 그 결과, 일반적으로 스케일이 커질수록 함께 증가하는 연산 부담이나 불안정성을 크게 추가하지 않으면서도 모델이 확장되는 것을 확인했습니다.
일반적으로 최전선 AI 연구소들은 AI를 개선하기 위해 “브루트 포스”에 의존한다고 IBM의 수석 연구 과학자인 Kaoutar El Maghraoui는 Mixture of Experts 팟캐스트의 최신 에피소드에서 말했습니다. 이는 “더 많은 데이터, 더 많은 연산 자원, 더 많은 파라미터를 추가하는 것”을 의미합니다. 하지만 이런 접근법은 “점점 비효율적이 되고 있으며, 소수의 대기업만 감당할 수 있는 방식”이라고 했습니다.
El Maghraoui는 DeepSeek의 mHC 아키텍처가 모델 사전 학습을 혁신할 수 있다고 강조했습니다. 그녀는 “단순히 AI를 더 크게 만드는 것이 아니라, 더 영리하게 확장하는 방식입니다.”라고 말했습니다. “하드웨어 측면에서도 더 잘 작동하는, 보다 똑똑한 모델 설계 방식입니다.” El Maghraoui에 따르면 mHC는 기업의 맞춤형 하드웨어와도 쉽게 통합될 수 있어, 비용 효율적인 AI를 찾는 기업에 매력적인 선택지가 될 수 있습니다. 예로 그녀는 온프레미스 환경에서 기업 고객의 AI, 머신러닝, 딥러닝 워크로드를 가속하도록 설계된 IBM의 특화 하드웨어 가속기를 언급했습니다.
프랑스 AI 스타트업 Pleias의 공동 설립자인 Pierre-Carl Langlais는 링크드인 게시글에서, 이 논문의 진정한 의미는 mHC의 확장성을 입증하는 데 그치지 않는다고 밝혔습니다. 그는 “진짜 강점은 학습 환경의 모든 차원을 재설계할 수 있는 DeepSeek의 역량”이라고 썼습니다. “바로 그것이 [DeepSeek]를 최전선 연구소로 만드는 요소입니다.”
Hay는 DeepSeek가 새로운 연구 결과를 계속 오픈 소스로 공개한다는 점이, 더 넓은 사용자층이 AI에 접근할 수 있게 만든다는 점에서 특히 주목할 만하다고 말했습니다. 그는 “혁신을 만들어 이를 세상에 공개하고, 사람들이 직접 사용해 보게 한 뒤, 그 과정을 통해 전체 분야를 함께 끌고 간다는 점이 인상적입니다.”라고 말했습니다.
중소 조직의 AI 리더들이 비용 효율적인 AI 솔루션 구현의 복잡성을 헤쳐 나가는 가운데, DeepSeek의 mHC 프레임워크 같은 혁신은 과거에는 훨씬 더 큰 자본을 가진 기업만 접근할 수 있었던 강력한 파운데이션 모델을 보다 쉽게 활용할 수 있도록 해줍니다. LLM 사전 학습 비용을 크게 낮추고 AI 접근성을 높임으로써, DeepSeek의 성과는 중소 규모 기업을 위한 AI 환경을 혁신할 준비를 하고 있습니다.
