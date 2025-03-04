2025년 1월 20일의 헤드라인을 읽었다면 하늘이 무너진다고 생각했을지도 모릅니다. 중국 기반 DeepSeek가 R1 대규모 언어 모델(LLM)을 출시했는데, 이 모델은 출시 직후부터 가장 많이 다운로드되고 활성화된 모델 중 하나가 됐습니다.
중국 항저우에 본사를 두고 자사 이름으로 모델을 출시한 AI 연구소가 미국의 주요 모델보다 훨씬 적은 비용(560만 달러)과 훨씬 적은 컴퓨팅 리소스와 NVIDIA 칩에 대한 더 낮은 접근성으로 모델을 제작했다는 사실이 흥미를 불러일으켰습니다.
사람들은 막대한 자금을 지원받는 미국 AI 기업 중 일부가 도태될 것이라는 우려를 공공연하게 드러냈습니다. DeepSeek는 다른 회사보다 NVIDIA 칩을 적게 사용했기 때문에 NVIDIA의 주가가 하락했습니다. 그러나 이는 칩 제조업체의 운명에 대해 실질적으로 걱정하기보다는 뉴스에 대한 즉각적인 반응에 가까웠습니다.
기술 및 비즈니스 기자들은 이를 기존 질서에 충격을 주는 소식으로 받아들였습니다. 하지만 저를 비롯한 다른 AI 전문가들이 DeepSeek의 R1 발표를 보고 놀랐던 것은 모두가 놀라워하는 모습뿐이었습니다.
DeepSeek는 새로운 모델이지만, 시장에 새로 진입한 모델이라고 볼 수는 없습니다. 특히 12월에 출시된 V3 모델을 비롯해 중국 시장에서 가치 있는 오픈 소스 모델을 생산한 풍부한 이력을 보유하고 있습니다. 실제로 이러한 실험실을 구축하는 방법에 대해 자세히 알아보고자 하는 사람들을 위해 교육을 제공하는 기술 문서를 함께 공개했습니다. V3 모델은 더 놀라웠지만, 확실히 별다른 주목을 받지 못했습니다.
물론 DeepSeek의 R1 모델은 AI 툴이 사용자의 요청에 응답할 뿐만 아니라 독립적으로 작동하여 해당 사용자에게 서비스를 제공하며 에이전틱 AI의 미래를 위한 기반이 될 수 있는 생성형 AI 도구 의 또 다른 예입니다.
IBM은 설계상 이러한 모든 모델과 파트너 관계를 맺고 사용하며, 오픈 소스 운동의 열렬한 지지자이자 엔지니어이기도 합니다. R1과 같은 오픈 소스 모델이 많은 찬사를 받는 것은 업계에 큰 힘이 됩니다.
DeepSeek가 잘 알려진 모델에 비해 적은 비용으로 자사의 모델과 동급 또는 더 나은 모델을 생산하는 것을 보고 대형 업체들이 약간 당황했다는 것은 이해할 만합니다. 하지만 오픈 소스 커뮤니티의 목적은 바로 이런 것입니다.
DeepSeek R1의 발표는 두 가지 세계의 이야기를 보여줍니다. 금융 시장은 혼란에 빠질 것으로 예상되는 반면, AI 전문가들은 기술 혁신과 이를 통해 얼마나 더 효율적이고 강력한 최신 모델에 정보를 제공할 수 있는지에 대해 열광했습니다.
R1은 많은 사람들이 알고 있는 것을 강화했을 뿐이며, 나머지 국가들도 이를 따라잡고 있습니다. DeepSeek는 분명히 IBM, Meta 등을 포함하여 오픈 소스 환경에 기여하는 모든 사람들의 노력과 발전을 통해 가능했습니다. 오픈 소스 모델은 계속해서 혁신을 주도할 것입니다. R1은 처음에는 기존 질서에 충격을 주었지만, R1의 존재로 인해 모두가 혜택을 누릴 것입니다. 특히 DeepSeek는 하루에 하나의 오픈소스 리포지토리를 공유하는 오픈 소스 주간을 발표했습니다.
DeepSeek R1은 인공 지능(AI) 모델을 입력 데이터의 하위 집합을 전문으로 하는 별도의 하위 네트워크(또는 '전문가')로 나누어 작업을 공동으로 수행하는 Mixture of Experts 머신 러닝 접근 방식을 사용합니다.
따라서 MoE 접근 방식을 사용할 때 모델의 모든 매개변수가 동시에 활성화되어야 하는 것은 아닙니다. 예를 들어, DeepSeek의 v3 또는 R1 모델에는 약 6,710억 개의 매개변수가 있지만 한 번에 370억 개의 매개변수만 활성화됩니다. 따라서 전체 모델에서 실제로 질문에 답하는 부분이 매우 적기 때문에 모델을 훨씬 더 효율적으로 만들 수 있습니다.
지금까지 연구자들은 MoE 모델을 사용할 때 학습에 어려움을 겪었습니다. DeepSeek는 전문가 구성을 적절하고 효율적으로 만드는 전체 워크로드를 유지하면서 이러한 문제를 해결하는 몇 가지 새로운 기술을 고안했습니다.
예를 들어, V3 및 R1 모델은 레이블이 지정된 데이터에 의존하는 대신 강화 학습을 사용했습니다. 이 기술은 다양한 경로를 고려하여 답을 찾습니다. 각 경로를 통과할 때마다 경로를 재평가합니다. 따라서 잘못된 경로로 가고 있는지 더 빠르게 판단할 수 있습니다. 그런 다음 신속하게 역추적하여 잠재적으로 더 유리한 경로를 판단할 수 있습니다.
이러한 '생각의 연결고리' 추론은 정확한 최종 목적지로 가는 길을 찾고 그에 대한 보상을 받는 데 도움이 됩니다. 이 강화 학습 방법론은 OpenAI 및 다른 모델과 동일한 수준 또는 그 이상의 성능을 발휘하도록 모델을 학습하는 데 도움이 되었습니다.
때로는 한계가 혁신을 낳기도 합니다. 미국의 중국에 대한 칩 판매에 대한 수출 통제로 인해 DeepSeek는 확보할 수 있는 NVIDIA 칩이 제한적입니다. 모기업은 당연히 상당한 수의 NVIDIA 칩을 보유하고 있었지만(NVIDIA의 H800 칩 2,000개), 이를 배포하는 방식에 있어 민첩성을 발휘해야 했습니다. 몇 가지 최적화를 추진하기 위해 하드웨어 수준에서까지 놀라운 작업을 수행했습니다.
오픈 소스 커뮤니티의 모든 구성원은 NVIDIA의 Cuda 플랫폼을 사용하며, 이 플랫폼은 다양한 GPU를 모두 함께 연결하여 보다 효율적으로 통신하고 워크로드를 분산하는 등의 작업을 수행하는 데 도움이 되는 훌륭한 라이브러리 세트를 제공합니다. 하지만 DeepSeek는 라이브러리보다 한 단계 더 깊이 나아가, 하드웨어도 더욱 최적화했습니다.
실제로 개방형 모델이 엄청난 속도로 개선되어 왔고 앞으로도 놀라운 속도로 계속 계선될 것입니다.
AI는 칩 없이는 불가능합니다. 향후 우수한 모델을 생산하는 데 더 적은 수의 칩이 필요할 수 있다는 최초의 뉴스는 일부 업계 전문가들 사이에서 칩 수요가 감소할 것이라는 논리적 오류를 불러일으켰습니다. Jevons Paradox에 따르면 그 반대로, 효율성이 증가하면 소비가 증가하는 경우가 많습니다. 시간이 지남에 따라 연료와 에너지 사용량이 늘고 에어컨 효율성이 향상되면서 사람들이 더 큰 집을 짓는 것으로 이어진 것처럼, 좋은 것은 늘어만 갔습니다.
글로벌 위스키 비즈니스를 예로 들어 보겠습니다. 최근 몇 년 동안 독립 및 소규모 양조장이 증가했으나 이로 인해 결국 곡물 수요가 증가했습니다. 이는 어느 산업에서나 마찬가지이며, 경제학은 중소기업에 대한 기회를 개선하기 때문입니다. 특정 회사에서 사용하는 칩의 수가 적을 수 있지만 DeepSeek는 더 많은 플레이어가 시장에 진입하고 오픈 소스 기술을 사용하여 더 적은 비용으로 인상적인 모델을 구축할 수 있음을 보여주었습니다.
이 점이 제가 얻은 가장 큰 핵심입니다. 이를 통해 놀라운 컴퓨팅에 접근할 수 있는 극소수의 엘리트만이 차세대 모델을 구축할 수 있는 것은 아니라는 점이 드러납니다. 소규모 연구소에서도 더 많은 모델을 구축하는 데 투자할 수 있는 다른 경로가 있을 수도 있습니다. AI 에이전트와 우리 모두가 기대하는 에이전트의 미래를 기대하는 사람들에게는 정말 좋은 소식입니다.
모든 주요 업체 간의 경쟁은 소강상태에 접어들 것이므로 당장의 승자와 패자를 생각하지 않는 것이 가장 좋습니다. 기업, 연구원, AI 과학자들은 매일 더 과학적인 추론을 바탕으로 더 나은 모델을 생산하기 위해 혁신하고 있습니다.
그래서 우리는 Granite LLM 계열의 최근 추론 업데이트를 매우 기대하고 있습니다. 이 제품들은 ArenaHard와 AlpacaEva 같은 벤치마크에서 R-1 성능을 뛰어넘었습니다. 우리의 추론 모델은 높은 성능과 안전성 특성이라는 두 세계의 장점을 결합한 동시에, 상황에 따라 사용자가 추론 기능을 사용할지 여부를 선택할 수 있게 해줍니다. 우리가 알고 있는 것을 더 많이 공유하고 가능한 것을 오픈 소스로 공유할수록 모든 사람, 가장 중요하게는 소비자에게 도움이 될 것입니다.
OpenAI와 다른 업체들은 작지만 강력한 경쟁자의 등장으로 인해 초기에 약간의 과열되는 양상을 보일 수 있지만, 이는 커뮤니티에 큰 성과이며 AI의 미래에 대한 IBM 관점과 일치합니다. 이는 오픈 소스 커뮤니티의 거대한 성과이며 소규모 모델이 다른 모델과 경쟁할 수 있음을 보여줍니다. 물론 이것이 대규모 기업들을 제외하는 것은 아닙니다. 현명한 기업이라면 DeepSeek에서 배운 것을 사용하여 더 낮은 비용으로 더 큰 모델을 계속 구축할 것입니다.
그러나 궁극적으로, 경쟁은 기업과 소비자 모두에게 큰 도움이 됩니다. DeepSeek R1과 같은 지진이 발생하면 모두가 승리합니다.
