2025년 1월 DeepSeek-R1의 출시와 함께 DeepSeek에 대한 기사들이 쏟아져 나왔습니다. 기업명, 해당 기업이 개발한 모델, 그리고 그 모델을 기반으로 구동되는 챗봇의 이름이 모두 DeepSeek인 탓에 다소 혼란스럽기도 했습니다. AI 업계의 급격한 변화와 그에 따른 경제적 기대감 속에서 쏟아지는 보도를 고려하면, 사실과 추측, 추측과 허구를 구분하는 것이 쉽지 않을 수 있습니다.
다음은 DeepSeek 관련 기사들을 선별하고, 중요한 정보와 불필요한 소음을 구분하며, 과장된 마케팅이나 과도한 기대를 걸러내는 데 도움을 줄 수 있는 실용적인 가이드입니다. 간략한 회사 연혁부터 시작하여 각 새로운 DeepSeek 모델 간의 차이점을 설명하고 가장 흥미로운 혁신에 대해 너무 기술적으로 설명하지는 않으면서 자세히 살펴보겠습니다.
여기서 다룰 내용에 대한 간략한 개요는 다음과 같습니다.
DeepSeek는 중국 항저우에 본사를 둔 AI 연구소입니다. 또한 이 연구소에서 개발하는 오픈 가중치 생성형 AI 모델의 이름이기도 합니다. 2025년 1월 말, DeepSeek-R1 LLM은 OpenAI, Anthropic, Google의 최고 독점 모델에 필적하는 성능을 훨씬 낮은 가격대로 제공하며 주요 기술 및 금융 뉴스에 등장했습니다.
DeepSeek(회사)의 기원은 알고리즘 트레이딩 전략에 중점을 둔 컴퓨터 과학자 3명이 2016년에 설립한 중국 헤지펀드인 High-Flyer에 있습니다. 2019년, 이 회사는 트레이딩 사업에서 얻은 수익을 활용하여 AI 기반 자회사인 High-Flyer AI를 설립했으며, 딥 러닝 훈련 인프라에 2,800만 달러를 투자했습니다. 이후 2021년에는 이 투자를 5배로 확대했습니다.
2023년에 이르러 High-Flyer의 AI 연구는 AI, 구체적으로는 인공 일반 지능(AGI) 개발에만 집중하는 별도의 기관을 설립할 정도로 확대되었습니다. 그 결과 탄생한 연구소의 이름이 DeepSeek이며, High-Flyer가 주요 투자자로 참여했습니다. DeepSeek는 2023년 11월 DeepSeek-Coder를 시작으로 주로 수학 및 코딩 성능에 중점을 둔 다양한 오픈 가중치 모델을 개발했습니다.
2024년 12월에는 DeepSeek-R1의 기반이 되는 LLM인 DeepSeek-V3를 출시했습니다. DeepSeek-V3와 DeepSeek-R1의 획기적인 성능 덕분에 이 연구소는 앞으로 생성형 AI 개발 분야에서 예상치 못한 선두주자로 자리매김하게 되었습니다.
DeepSeek-R1은 LLM(DeepSeek-V3)을 미세 조정하여 사용자에게 제공하는 최종 '아웃풋'을 결정하기 전에 광범위한 단계별 추론 사슬(CoT) 프로세스를 생성하여 만든 추론 모델입니다. 추론 모델로는 OpenAI의 o1(GPT-4o 기반) 및 o3, Google의 Gemini Flash 2.0 Thinking(Gemini Flash 기반), 그리고 Alibaba의 오픈 QwQ(“Qwen with Questions”, Qwen2.5 기반) 등이 있습니다.
추론 모델의 개념은 초기 연구에서 비롯되었으며, 단순히 "단계별로 생각하라(think step by step)"는 문구를 추가하는 것만으로도 모델의 아웃풋이 크게 향상된다는 점이 입증되었습니다i Google DeepMind의 후속 연구에서는 테스트 시간 컴퓨팅(아웃풋을 생성하는 데 사용되는 리소스의 양)을 확장하면 학습 시간 컴퓨팅(모델 학습에 사용되는 리소스)을 확장하는 것만큼 모델 성능이 향상될 수 있다는 가설을 세웠습니다.
추론 모델은 속도가 느리고 비용이 더 많이 든다는 단점이 있습니다. 최종 응답을 생성하기 위해 사용되는 모든 토큰을 생성해 비용을 지불해야 하며, 이러한 토큰이 사용 가능한 컨텍스트 윈도우를 소모하기 때문입니다. 그러나 이 모델은 OpenAI가 o1을 출시한 이래로 최첨단 성능의 선두주자로 자리매김했습니다. 특히, 계획과 사전 고려를 우선시하는 학습 모델에 중점을 두면서 이전에는 LLM이 접근하기 어려웠던 복잡한 수학 및 추론 문제와 관련된 특정 작업을 능숙하게 처리할 수 있게 되었습니다.
추론 모델에 대한 자세한 내용은 Maarten Grootendorst에서 제작한 훌륭한 시각적 가이드를 확인해 보세요.
DeepSeek-R1의 성능은 수학, 코드, 추론 작업에서 OpenAI의 o1이나 Anthropic의 Claude 3.5 Sonnet을 비롯한 주요 모델에 필적하는 수준입니다. 어떤 모델이 '최고'인지 여부는 주관적이고 상황에 따라 다르지만, 개방형 모델로는 놀라운 성과입니다. 하지만 R1의 가장 중요한 측면은 오픈 소스 커뮤니티에 도입한 교육 기법입니다.
일반적으로, 훈련을 받지 않은 표준 LLM을 최종 사용자에게 제공할 수 있는 수준으로 만드는 과정은 다음과 같습니다.
o1과 같은 독점적 추론 모델의 경우, 이 마지막 단계의 구체적인 세부 사항은 일반적으로 철저하게 보호되는 영업 비밀입니다. 그러나 DeepSeek는 프로세스를 자세히 설명하는 기술 문서를 발표했습니다.
DeepSeek-V3를 추론 모델로 전환하려는 첫 번째 시도에서 DeepSeek는 SFT를 건너뛰고 사전 학습에서 간단한 강화 학습 체계로 바로 전환했습니다.
그 결과 "DeepSeek-R1-Zero"라는 이름으로 출시된 이 모델은 복잡한 추론 사슬을 생성하고 추론 전략을 사용하는 방법을 학습하여 수학 및 추론 작업에서 인상적인 성능을 발휘했습니다. 이 과정은 간단했고 비용이 많이 드는 레이블이 지정된 데이터를 SFT에 사용할 필요가 없었습니다. 그러나 기술 문서에서 설명하듯이 "DeepSeek-R1-Zero는 끝없는 반복, 낮은 가독성, 언어 혼합과 같은 문제에 직면"했습니다.
DeepSeek는 R1-Zero의 후속 제품인 DeepSeek-R1을 학습시킬 때 프로세스를 다음과 같이 수정했습니다.
하지만 이러한 미세 조정 프로세스는 절반에 불과합니다. 나머지 절반은 R1의 기본 모델인 DeepSeek-V3입니다.
DeepSeek-R1의 중추인 DeepSeek-V3는 텍스트 전용, 6,710억 개의 매개변수가 전문가 조합(MoE) 언어 모델입니다. 특히 수학, 추론 및 코딩 작업에 있어서는 2025년 2월 현재 가장 뛰어난 성능을 자랑하는 오픈 소스 LLM입니다. 더 중요한 것은 다른 주요 LLM보다 훨씬 빠르고 저렴하게 사용할 수 있다는 점입니다.
6,710억 개의 매개변수에서 알 수 있든 거대한 모델입니다. 참고로, Meta는 2024년 7월에 DeepSeek-V3보다 40% 더 작은 Llama 3.1 405B를 출시하면서 공식 발표에서 이를 "세계에서 가장 크고 성능이 뛰어난 공개 사용 가능한 기반 모델"이라고 설명했습니다.ii 원래 ChatGPT 모델인 GPT-3.5에는 1,750억 개의 매개변수가 있었습니다. OpenAI, Anthropic 및 Google을 포함한 대부분의 주요 개발자는 독점 모델의 매개변수 수를 공개하지 않는다는 점에 주목할 가치가 있습니다.
일반적으로 매개변수 수가 많을수록 지식 및 복잡성에 대한 모델의 "용량"이 증가합니다. 매개변수가 많을수록 모델을 조정할 수 있는 방법이 더 많아지므로 학습 데이터의 세부적인 패턴까지 더 정밀하게 반영할 수 있는 능력이 향상됩니다. 그러나 모델의 매개변수 수를 늘리면 계산 요구 사항도 증가하여 속도가 느려지고 비용이 더 많이 듭니다.
그렇다면 DeepSeek-V3(및 DeepSeek-R1)는 어떻게 빠르고 저렴할 수 있을까요? 이에 대한 답은 주로 전문가 조합 아키텍처와 DeepSeek가 이를 어떻게 수정했는지에 있습니다.
전문가 조합(MoE) 아키텍처는 신경망의 계층을 별도의 하위 네트워크(또는 전문가 네트워크)로 나누고 토큰을 선별된 '전문가'에게 라우팅하는 게이팅 네트워크를 추가합니다. 학습 과정에서 각 '전문가'는 특정 유형의 토큰에 대해 점차 특화됩니다. 예를 들어, 어떤 전문가는 문장 부호를 다루고, 다른 전문가는 전치사를 처리하는 방식으로 학습됩니다. 동시에, 게이팅 네트워크는 각 토큰을 가장 적절한 전문가에게 라우팅하는 법을 익힙니다.
MoE 모델은 각 토큰에 대해 모든 모델 매개변수를 활성화하는 대신 해당 토큰에 가장 적합한 '전문가'만 활성화합니다. DeepSeek-V3의 총 매개변수 수는 6,710억 개이지만 활성 매개변수 수는 370억 개에 불과합니다. 다시 말해, 읽거나 출력하는 각 토큰에 대해 6,710억 개의 매개변수 중 370억 개만 사용한다는 뜻입니다.
이 MoE 접근 방식이 잘 수행되면 전체 매개변수 수의 용량과 활성 매개변수 수의 효율성의 균형을 이룰 수 있습니다. 간단히 말해, DeepSeek-V3는 이 메커니즘 덕분에 대규모 모델의 강력한 성능과 소규모 모델의 빠른 속도를 동시에 제공할 수 있습니다.
2023년 말 Mistral AI가 Mixtral 8x7B를 출시하고 GPT-4가 MoE라는 소문이 돌면서 MoE가 많은 관심을 받았습니다. IBM Granite, Databricks, Mistral 및 DeepSeek와 같은 일부 모델 제공업체는 그 이후로 MoE 모델에 대한 작업을 계속해 왔지만, 많은 제공업체가 계속해서 기존의 '고밀도' 모델에 집중하고 있습니다.
MoE가 그렇게 뛰어나다면, 왜 더 널리 사용되지 않을까요? 두 가지 간단한 설명이 있습니다.
DeepSeek-V3는 기본 MoE 아키텍처에 여러 가지 영리한 엔지니어링 수정 사항을 적용하여 안정성을 높이는 동시에 메모리 사용량을 줄이고 계산 요구 사항을 더욱 줄였습니다. 이러한 수정 사항 중 일부는 2024년 5월에 이전 버전인 DeepSeek-V2에 도입되었습니다. 다음은 주목할 만한 혁신 3가지입니다.
LLM을 구동하는 어텐션 메커니즘은 각 토큰이 다른 토큰과 어떻게 연관되어 있는지 계산하기 위해 엄청난 수의 행렬 곱셈(다이어그램에서는 흔히 'matmul'로 줄여서 표현)을 수반합니다. 이러한 모든 중간 계산은 입력에서 최종 출력으로 이동할 때 메모리에 저장되어야 합니다.
DeepSeek-V2에 처음 도입된 멀티헤드 잠재 어텐션(MLA)은 각 행렬을 2개의 더 작은 행렬로 분해합니다. 이렇게 하면 곱셈 횟수는 두 배로 늘어나지만 메모리에 저장해야 하는 항목의 크기가 크게 줄어듭니다. 즉, 계산 비용이 높아지기는 해도 메모리 비용은 낮아지는데, MoE에게는 좋은 일입니다. MoE는 이미 계산 비용은 낮지만 메모리 비용은 높기 때문입니다.
간단히 말해서 DeepSeek-v3에서 각 매개변수의 특정 값은 평소보다 적은 소수점으로 표시됩니다. 이렇게 하면 정밀도는 떨어지지만 속도는 향상되고 메모리 사용량은 더욱 줄어듭니다. 일반적으로 모델은 더 높은 정밀도 (주로 16비트 또는 32비트) 로 학습된 후 FP8까지 양자화됩니다.
다중 토큰 예측은 말 그대로 한 번에 하나의 토큰만 예측하는 것이 아니라 다음 토큰 중 일부도 선제적으로 예측하는 방식입니다. 하지만 이는 말처럼 간단하지 않습니다.
아니요. 기술적으로 DeepSeek는 DeepSeek-V3의 최종 사전 훈련 실행에 약 557만 6,000달러를 지출한 것으로 알려졌습니다. 그러나 이 수치는 전체적인 과정을 다 반영하지 않은 수치입니다.
DeepSeek는 DeepSeek-R1을 산출하기 위해 데이터와 컴퓨팅에 얼마를 지출했는지는 발표 하지 않았습니다. 널리 알려진 '600만 달러'라는 수치는 DeepSeek-V3에만 사용된 수치입니다.
또한, 최종 사전 학습 실행 비용만을 언급하는 것은 오해의 소지가 있습니다. IBM의 Granite 기술 제품 관리 디렉터 Kate Soule은 Mixture of Experts Podcast의 한 에피소드에서 이렇게 말했습니다. "그 비용만 계산하는 건 마라톤 대회에 참가한다고 했을 때 단 42.195km만 달린다고 생각하는 것과 같습니다. 하지만 현실은, 그 한 번의 레이스를 위해 몇 달 동안 훈련하며 수백, 심지어 수천 km를 달려야 하죠."
DeepSeek-V3 문서에서도 557만 달러(USD)라는 금액은 NVIDIA H800 GPU의 평균 임대 가격을 기준으로 산출된 최종 훈련 비용의 추정치일 뿐임을 명확히 하고 있습니다. 모든 사전 연구, 실험 및 데이터 비용은 제외됩니다. 또한, 실제 훈련 인프라는 포함되지 않았습니다. SemiAnalysis의 한 보고서에 따르면, DeepSeek은 2023년 이후 GPU에만 5억 달러(USD) 이상을 투자한 것으로 추정됩니다. 이와 함께 직원 급여, 시설 운영비 및 기타 일반적인 사업 비용도 고려되지 않았습니다.
분명한 것은, 이 정도 규모와 능력을 가진 모델의 사전 학습에 단 557만 6,000달러를 사용했다는 것은 여전히 인상적인 일입니다. 비교를 위해 덧붙이자면, 동일한 SemiAnalysis 보고서에서는 2025년 초 기준으로 세계에서 가장 강력한 LLM 중 하나로 평가되는 모델인 Anthropic의 Claude 3.5 Sonnet의 사전 학습 비용이 수천만 달러에 달하는 것으로 추정합니다. 이와 같은 설계 효율성 덕분에 DeepSeek-V3는 경쟁 모델보다 훨씬 낮은 비용과 지연 시간으로 운영될 수 있습니다.
하지만 AI 개발이 급격한 패러다임 전환을 맞이했다거나, 서양의 AI 개발자들이 수십억 달러를 헛되게 사용했고, 이제 단 몇 백만 달러의 비용으로 새로운 최첨단 모델을 개발할 수 있다는 생각은 오해에 불과합니다.
DeepSeek-R1은 인상적이지만, 따지고 보면 거대한 모델인 DeepSeek-V3에 속한 하나의 버전입니다. 효율성이 뛰어나기는 해도 많은 활용 사례에서 여전히 너무 크고 RAM 소모가 많은 모델입니다.
DeepSeek는 더 작은 버전의 DeepSeek-V3를 개발한 다음 해당 모델을 미세 조정하는 대신, Qwen 및 Llama 모델 제품군의 더 작은 오픈 소스 모델에서 지식 증류를 사용하여 DeepSeek-R1처럼 작동하도록 하는 보다 직접적이고 복제 가능한 접근 방식을 취했습니다. 그런 다음 이러한 모델에 "DeepSeek-R1-Distill"이라는 이름을 붙였습니다.
지식 증류는 본질적으로 추상적인 형태의 모델 압축입니다. 지식 증류는 모델을 학습 데이터로 직접 학습시키는 것이 아니라 더 큰 '교사 모델'이 학습 데이터를 처리하는 방식을 '학생 모델'이 모방하도록 훈련시키는 것입니다. 학생 모델의 매개변수는 교사 모델과 동일한 최종 아웃풋을 생성할 뿐만 아니라 추론 과정(중간 계산, 예측 또는 추론의 사슬 단계)까지도 교사와 동일하게 재현하도록 조정됩니다.
이름 때문에 오해할 수 있지만 'DeepSeek-R1-Distill' 모델은 사실 DeepSeek-R1이 아닙니다. 이 모델은 DeepSeek-R1처럼 작동하도록 미세 조정된 Llama 및 Qwen 모델의 버전입니다. R1-distills의 크기는 인상적이지만 '실제' DeepSeek-R1과는 일치하지 않습니다.
따라서 특정 플랫폼에서 'R1'을 제공하거나 사용한다고 주장하는 경우 어떤 'R1'을 말하는지 확인하는 것이 좋습니다.
전례 없는 대중의 관심과 생소한 기술적 세부 사항이 맞물리면서, DeepSeek와 그 모델들에 대한 과대광고가 때때로 기본적인 사실을 상당히 왜곡하는 결과를 낳았습니다.
예를 들어, 2월 초에는 UC 버클리의 한 팀이 단돈 30달러에 DeepSeek-R1을 '재창조'하거나 '복제'한 것에 대한 수많은 이야기가 실렸습니다.iii iv v 이것이 사실이라면 놀라운 의미를 지닌 매우 흥미로운 헤드라인일 테지만, 여러 면에서 근본적으로 부정확합니다.
간단히 말해, UC 버클리 팀은 DeepSeek-R1을 30달러에 재창조해 낸 것이 아닙니다. 그저 DeepSeek의 실험적 강화 학습 전용 미세 조정 방식인 R1-Zero가 소형 모델에도 적용될 수 있으며, 이를 통해 복잡한 수학 문제를 해결하도록 학습시킬 수 있음을 입증한 것입니다. 이 팀의 작업은 흥미롭고 인상적이며 중요합니다. 하지만 이를 깊이 파고들 시간이 없기 마련인 바쁜 독자나 기자들은 DeepSeek의 모델 라인업을 충분히 이해하지 못하면 잘못된 인식을 갖기 쉽습니다.
개발자와 분석가가 이러한 모델을 사용해보는 데 더 많은 시간을 할애할수록 과대 광고는 다소 진정될 것입니다. 마치 IQ 테스트만으로 직원을 채용하는 것이 적절하지 않은 것처럼, 단순한 벤치마크 결과만으로 특정 모델이 특정 용도에 가장 적합한지 판단하는 것은 충분하지 않습니다. 모델도 사람과 마찬가지로 쉽게 수치화할 수 없는 강점과 약점을 가지고 있으며, 이를 제대로 이해하려면 시간이 필요합니다.
공식적인 환경에서 새로운 DeepSeek 모델의 장기적인 효율성과 실용성을 평가하는 데는 시간이 걸릴 것입니다. WIRED가 1월에 보도한 바와 같이 DeepSeek-R1은 보안 및 탈옥 테스트에서 저조한 성능을 보였습니다. 대부분의 기업에서 R1 또는 V3를 안전하게 사용하려면 이러한 문제를 해결해야 할 것입니다.
그 사이에 새로운 모델이 등장하며 지속적으로 최첨단 기술의 한계를 확장해 나갈 것입니다. DeepSeek의 모델과 비교되고 있는 대표적인 비공개 모델인 GPT-4o와 Claude 3.5 Sonnet이 출시된 시점은 지난 여름이라는 점을 고려해야 합니다. 생성형 AI 업계에서는 이미 한 시대가 지난 것과 마찬가지입니다. R1 출시 이후, Alibaba 는 대규모 오픈 소스 MoE 모델인 Qwen2.5-Max의 출시를 예고하며 이 모델이 DeepSeek-V3를 전반적으로 능가한다고 주장했습니다.vi 앞으로도 더 많은 AI 개발사들이 이 흐름을 따라갈 가능성이 큽니다.
가장 중요한 점은 업계와 오픈 소스 커뮤니티가 DeepSeek이 제시한 혁신적인 아이디어들을 실험하고, 이를 새로운 모델과 기술에 통합하거나 변형하여 적용할 것이라는 점입니다. 오픈 소스 혁신의 장점은 밀물이 들어오면 모든 배가 떠오르듯, 모두 함께 성장할 수 있다는 것입니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
[i] “Large language models are zero-shot understandingers,” arXiv, 2022년 5월 24일
[ii] "Introducing Llama 3.1: Our most powered models todate," Meta, 2024년 7월 24일
[iii] “Team Says they've Recreated DeepSeek's OpenAI Killer for Literally $30," Futurism, 2025년 1월 30일
[iv] “DeepSeek AIplicated for just $30 using Countdown game," The Independent, 2025년 2월 3일
[v] "Berkeley Research Replicate DeepSeek R1's Core Tech for Just $30," XYZ Labs, 2025년 1월 26일
[vi] "Qwen2.5-Max: Exploring the Intelligence of Large-Scale MoE Model", Qwen, 2025년 1월 28일