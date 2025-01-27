중국 스타트업 DeepSeek의 AI 모델인 DeepSeek-R1은 지난주 출시된 지 몇 시간 만에 AI 오픈 소스 플랫폼 Hugging Face에서 가장 많이 다운로드되고 활성화된 모델 차트 1위에 올랐습니다. 또한 투자자들이 NVIDIA와 같은 칩 제조업체의 가치 평가와 미국 AI 대기업이 AI 비즈니스를 확장하기 위해 기울이고 있는 막대한 투자를 재고하게 되면서 금융 시장에 충격을 주었습니다.
왜 이렇게 떠들썩할까요? "DeepSeek-R1"이라는 디지털 어시스턴트는 수학 및 코딩 작업의 특정 AI 벤치마크에서 OpenAI의 o1과 동일한 성능을 발휘하며, 훨씬 적은 수의 칩으로 학습되었으며 약 96% 더 저렴하다고 회사 측은 설명합니다.
IBM AI 하드웨어의 수석 연구원이자 관리자인 Kaoutar El Maghraoui는 "DeepSeek는 확실히 AI 환경을 재편하여 오픈 소스에 대한 야망과 최첨단 혁신으로 거대 기업에 도전하고 있습니다."라고 말합니다.
한편, TikTok을 소유한 중국 기술 대기업인 ByteDance는 최근 특정 벤치마크에서 OpenAI의 GPT-4o, Anthropic의 Claude 및 Google의 Gemini를 능가하는 자체 추론 에이전트인 UI-TARS를 발표했습니다. ByteDance의 에이전트는 그래픽 인터페이스를 읽고 추론하고 자율적인 단계별 조치를 취할 수 있습니다.
스타트업부터 기존의 거대 기업에 이르기까지 중국 AI 기업들은 미국 라이벌과의 격차를 줄이고 있는 것으로 보입니다. 이는 기본 소프트웨어 코드를 오픈 소스로 공개하거나 다른 기업 및 소프트웨어 개발자와 공유하려는 의지 덕분입니다. "DeepSeek는 커뮤니티 전반에 걸쳐 매우 강력한 모델을 확산시킬 수 있었습니다."라고 IBM의 Granite 모델 수석 기술 제품 관리자인 Abraham Daniels는 말합니다. DeepSeek-R1은 무제한 상업적 사용을 허용하는 MIT 라이선스에 따라 Hugging Face에서 제공됩니다. "DeepSeek는 AI 민주화를 실제로 가속화할 수 있습니다."라고 그는 말합니다.
지난 여름, 중국 기업 Kuaishou는 OpenAI의 Sora와 비슷하지만 일반인이 사용할 수 있는 동영상 생성 도구를 공개했습니다. Sora는 작년 2월에 공개되었지만 12월에야 완전 출시되었고, 그마저도 ChatGPT Pro 구독자가 모든 기능을 이용할 수 있었습니다. Hugging Face의 개발자들은 중국 기술 대기업인 Tencent와 Alibaba의 새로운 오픈 소스 모델도 도입했습니다. Meta가 Llama 모델을 오픈 소스로 공개한 반면, OpenAI와 Google은 모두 모델 개발에 있어 주로 비공개 소스 방식을 추구했습니다.
오픈 소스라는 장점 외에도, DeepSeek 엔지니어들은 미국 경쟁업체들이 시스템을 학습시키기 위해 사용하는 고도로 전문화된 NVIDIA 칩의 일부만 사용했습니다. 예를 들어, DeepSeek 엔지니어들은 모델 출시와 함께 발표한 연구에 따르면, DeepSeek-V3 모델을 학습시키기 위해 단 2,000개의 GPU(그래픽 처리 장치) 또는 칩만 필요하다고 밝혔습니다.
"정말 인상적인 것은 DeepSeek 모델의 추론 능력입니다."라고 IBM 펠로우인 Kush Varshney는 말합니다. Varshney는 추론 모델은 기본적으로 스스로를 확인하거나 확인하며, 일종의 '메타 인지' 또는 '사고에 대한 사고(thinking about thinking)'를 나타냅니다. "이제 우리는 이러한 모델에 지혜를 불어넣기 시작했고, 이는 큰 진전입니다."
추론 모델은 지난 9월 OpenAI가 o1 추론 모델을 공개하면서 화제의 중심이 되었습니다. 기존 AI 모델이 추론을 설명하지 않고 답만 내놓았던 것과 달리, 이 모델은 복잡한 문제를 단계별로 분해하여 해결합니다. 추론 모델은 분석 과정을 단계별로, 즉 '생각의 연결고리(chain of thought)' 방식으로 되짚어 가기 때문에 답변에 몇 초에서 몇 분 더 걸릴 수 있습니다.
DeepSeek-R1은 자율 에이전트가 인간 사용자의 지시 없이도 시행착오를 통해 작업을 수행하는 방법을 학습하는 강화 학습과 연쇄 추론을 결합합니다. 강화 학습은 수동으로 레이블이 지정된 데이터를 사용하여 예측 또는 분류를 생성하는 지도 학습이나 레이블이 지정되지 않은 데이터에서 숨겨진 패턴을 발견하고 학습하는 것을 목표로 하는 비지도 학습과 같이 일반적으로 사용되는 학습 형태와는 다릅니다.
머신 러닝에 관한 수십 편의 논문을 저술한 미시간 주립대학교 박사과정 학생인 Yihua Zhang은 DeepSeek-R1은 모델이 올바르거나 잘못된 행동의 레이블이 지정된 예시를 학습하거나 숨겨진 패턴에서 정보를 추출함으로써 추론 능력이 향상될 것이라는 가정에 의문을 제기합니다. "핵심 가설은 간단하면서도 대담합니다."라고 Zhang은 말합니다. "모델이 정확성에 대해 보상하고 스스로 최적의 사고 방식을 찾도록 내버려 둘 수 있을까요?"
Zhang은 DeepSeek와 같은 대규모 언어 모델의 대규모 학습에서 자신과 다른 사람들이 특히 주목한 점은 "모델이 한 발 물러서서 실수를 발견하고 스스로 수정하는 실제 '아하' 순간을 보여주기 시작한다는 점입니다."라고 말합니다.
DeepSeek를 둘러싼 대소동의 일부는 저렴한 가격대에서 비롯됩니다. 이 회사가 공개한 기술 보고서에 따르면 크리스마스에 출시된 DeepSeek-V3의 학습 비용은 550만 달러로, 이를 사용해보려는 개발자에게는 훨씬 저렴합니다. "모델 비용과 학습에 소요된 시간을 고려하면 정말 인상적인 결과물입니다."라고 IBM 수석 엔지니어인 Chris Hay는 말합니다.
그러나 IBM Research의 Granite 기술 제품 관리 책임자인 Kate Soule은 이렇게 저렴한 가격이 전부는 아닐 수도 있다고 말합니다. 550만 달러의 비용은 "필요한 컴퓨팅의 극히 일부에 불과합니다."라고 그녀는 말합니다. 여기에는 '강화 학습, 데이터 제거, 하이퍼매개변수 검색을 위한 컴퓨팅 비용'과 같이 오픈 소스 모델을 사용하더라도 기업이 독점적으로 보유하는 비용 세부 정보는 포함되지 않습니다."라고 Soule은 말합니다.
하지만 의심할 여지가 없는 점은, DeepSeek가 리소스 집약도가 현저히 낮은 Mixture of Experts(MoE) 아키텍처를 학습에 사용하여 비용 효율성을 높였다는 점입니다. MoE 아키텍처는 AI 모델을 각각 입력 데이터의 하위 집합을 전문으로 하는 별도의 하위 네트워크(또는 '전문가') 로 나눕니다. 이 모델은 전체 신경망을 활성화하는 대신 특정 작업에 필요한 특정 전문가만 활성화합니다. 따라서 MoE 아키텍처는 사전 학습 중에 계산 비용을 크게 줄이고 추론 시간 동안 더 빠른 성능을 달성합니다. 프랑스의 선구적인 AI 기업 Mistral과 IBM을 포함한 전 세계 여러 기업들이 지난 1년간 MoE 아키텍처를 대중화하고 MoE와 오픈 소스를 결합하여 더 높은 효율성을 달성했습니다.
IBM의 오픈 소스 Granite 모델 시리즈(MoE 아키텍처로 개발됨)의 경우, 기업은 특정 애플리케이션이나 사용 사례에 맞게 사전 학습된 대규모 모델을 조정하여 목적에 맞는 소규모 모델을 효과적으로 만들 수 있기 때문에 적은 비용으로 프론티어 모델 성능을 달성할 수 있습니다. 소형 모델에 엄청난 기능을 담는다는 것은 이 모델들이 스마트폰이나 엣지(예: 자동차 컴퓨터나 공장 현장의 스마트 센서)에서 작동하는 모바일 디바이스에서도 사용할 수 있다는 것을 의미합니다.
큰 모델을 가져와 리소스 집약도가 낮은 소형 모델로 증류하는 프로세스도 DeepSeek의 성공에 기여했습니다. 이 중국 스타트업은 배너 R1 모델 출시와 함께 특수 목적의모델들도 출시했습니다. 흥미롭게도, 더 큰 모델을 더 작은 모델로 증류했을 때가 처음부터 작은 모델에 강화 학습을 적용했을 때보다 추론 성능이 더 우수하다는 점을 보여주었습니다.
특정 벤치마크에서 기존 경쟁사들을 따라잡거나 추월하고 있는 이 새로운 중국 모델은 글로벌 AI 환경에 어떤 영향을 미칠까요? "벤치마크에서의 원시적인 성능만 중요한 것이 아닙니다."라고 El Maghraoui는 말합니다. "이러한 모델이 안전하고 윤리적인 방식으로 엔드투엔드 통합이 가능한지 여부가 관건입니다." 따라서 DeepSeek-R1과 다른 제품이 '인간 상호작용, 기술 및 엔터프라이즈 애플리케이션을 변화시킬지' 말하기에는 너무 이르다고 El Maghraoui는 말합니다.
궁극적으로 "개발자의 도입률에 따라 DeepSeek 모델의 인기가 결정됩니다."라고 Daniels는 말합니다. 또한 "모델에 대한 사용 사례를 발견하는 것도 매우 흥미로울 것입니다."라고 그는 덧붙입니다.
IBM의 Varshney는 글로벌 AI 경쟁에서 지정학적 차이도 생각보다 중요하지 않을 수 있다고 말합니다. "모델이 오픈 소스로 공개되면 그 모델의 출처는 여러 측면에서 더 이상 중요하지 않습니다."라고 그는 말합니다.
