2026년에는 가장 똑똑한 AI 모델이 반드시 가장 큰 모델은 아닐 수 있습니다.
이는 지난 1년간 기존의 가정이 무너지는 것을 지켜본 연구소, 투자자, 연구자들이 지금 걸고 있는 베팅입니다. 앞으로 12개월은 더 큰 시스템을 만드는 경쟁이 아니라, 말하기 전에 생각하고, 더 적은 자원으로 더 많은 일을 해내는 더 현명한 모델을 개발하려는 경쟁으로 규정될 것입니다.
“훨씬 더 큰 모델과 동일한 수준, 또는 그보다 더 뛰어난 성능을 내는 소형 언어 모델을 구현할 수 있습니다.”라고 IBM Fellow인 Kush Varshney는 IBM Think와의 인터뷰에서 말했습니다.
1년 전만 해도 이는 이단처럼 들렸을 것입니다. 지난 10년 동안 AI는 잔혹할 정도로 단순한 교리에 따라 발전해 왔습니다. 더 많은 데이터, 더 많은 파라미터, 더 많은 연산 자원, 더 높은 지능이라는 공식입니다. 연구소들은 마치 거울 앞에서 근육을 과시하는 보디빌더처럼 파라미터 수를 경쟁적으로 공개했습니다. 모델 학습에는 소도시 하나의 전력 생산량에 맞먹는 에너지가 소모되었습니다. 이 모든 과정은 마치 개척 시대의 골드러시와도 같았지만, 차이가 있다면 점령의 대상이 테라플롭스로 측정되는 영역이었다는 점입니다.
그리고 2025년 1월이 찾아왔습니다. 중국에 기반을 둔 DeepSeek라는 회사가 모델을 공개했고, 이로 인해 Nvidia의 주가는 하루 만에 17% 하락했습니다. 알고리즘적 정교함이 무식한 연산력 투입을 대체할 수 있다는 사실이 입증된 것입니다. 거대한 성당은 필요하지 않았습니다. 더 나은 설계도만 있으면 됐습니다.
미국의 주요 연구소들은 빠르게 방향을 전환했습니다. 불과 몇 달 만에 이들은 계속 더 큰 시스템을 만드는 것에서 벗어나, 답변하기 전에 멈춰서 추론하는 시스템을 구축하는 방향으로 전환했습니다. 노스캐롤라이나 대학교 Kenan-Flagler의 운영학 부교수인 Seyed Emadi는 IBM Think와의 대화에서 이를 단도직입적으로 표현했습니다. “AI에서 2025년을 요약하자면, 우리는 모델을 더 크게 만드는 일을 멈추고 더 현명하게 만들기 시작했습니다.”
이러한 전환은 이제 앞으로의 방향을 결정짓고 있습니다. 연구자들 사이의 공감대는 놀라울 정도로, 거의 섬뜩할 만큼 일치합니다. 지난해 가장 중요한 발전이 무엇인지 묻자 UC San Diego의 머신러닝 교수인 Misha Belkin은 “사고하는 모델의 부상과 추론 시간 스케일링”을 꼽으며, 인터뷰에서 이를 2026년의 토대라고 설명했습니다. 미시간 대학교 AI 연구실을 이끄는 Rada Mihalcea는 이에 보완적인 관점을 제시하며, “멀티 에이전트 시스템의 발전과 … 약점에 대한 더 깊은 이해”가 향후 방향을 규정할 것이라고 IBM Think에 말했습니다.
이러한 변화는 실리콘에서의 지능이 무엇을 의미하는지에 대한 재정의를 뜻합니다. 기존 접근법은 지능을 스튜에 양념을 넣듯 학습 단계에서 미리 주입하는 것으로 여겼습니다. 학습이 끝나면 모델은 그대로 고정되었습니다. 새로운 접근법은 모델에 더 많은 추론 시간을 부여함으로써 실행 시점에 지능이 발현될 수 있는 것으로 봅니다. 이를 추론 시점 연산이라고 부릅니다.
그 의미는 아직도 정리되고 있는 중입니다. 스탠퍼드 대학교에서 AI 추론을 연구하는 Gabriel Poesia는 모델들이 “더 긴 시간 동안 사고하는 능력”과 “장시간 사고 과정에서 툴을 매끄럽게 사용하는 능력”이 향상되고 있음을 관찰했습니다. 쉽게 말해, 기계가 말하기 전에 생각하는 법을 배운 것입니다.
기존 모델은 반사 신경처럼 작동했습니다. 입력이 들어오면 즉시 예측이 나왔고, 생각할 틈은 없었습니다. 새로운 모델은 숙고합니다. 어려운 질문을 던지면 모델은 때로는 몇 분 동안 논리를 점검하고 막다른 길에서 되돌아가며 고민합니다. 이는 놀라울 정도로 사고와 닮아 있습니다. 그것이 의미 있는 수준의 사고인지 여부는 여전히 풀리지 않은 큰 질문 중 하나입니다.
사고하는 모델이 2025년의 지적 화두였다면, 상업적 폭탄은 더 직설적이었습니다. 최첨단 AI는 모두가 생각했던 것보다 훨씬 저렴했던 것입니다. 중력처럼 불변해 보였던 경제 논리는 유행처럼 쉽게 바뀔 수 있는 것으로 드러났습니다. 이 깨달음은 2026년의 경쟁 구도를 재편할 것입니다.
DeepSeek의 1월 공개는 폭탄처럼 충격을 안겼습니다. 이 모델은 서구권 시스템과 맞먹는 성능을 약 10분의 1 수준의 학습 연산으로 달성했습니다. “그 사건이 판도를 움직였습니다.”라고 Varshney는 말했습니다. “이제 또 다른 경쟁자가 등장했고, 모두가 수준을 끌어올려야 합니다.”
모델 아키텍처 역시 조용한 변화를 겪고 있습니다. 주목받는 새로운 패턴인 mixture of experts는 모든 쿼리마다 모든 파라미터를 활성화하는 대신, 입력을 전문화된 서브네트워크로 전달합니다. 모든 것을 아는 한 명의 의사에게 묻기보다 적절한 전문의를 찾는 것에 비유할 수 있습니다. 기술 정책을 연구하는 UNC의 법학 교수 Andrew Chin은 IBM Think에 경제적 측면을 설명하며 “밀집 모델은 토큰 하나마다 거의 동일한 연산 비용이 발생합니다.”라고 말했습니다. “희소 시스템은 토큰을 일부 파라미터만 거치도록 합니다.” 이는 기업에 중요한 의미를 갖습니다. “규모는 단순히 극대화할 대상이 아니라, 관리해야 할 요소가 됩니다.”
민주화는 아키텍처를 넘어 미세 조정까지 확장되고 있습니다. Pace University의 컴퓨터 과학 교수인 Christelle Scharff는 IBM Think에 “LoRA와 경량 미세 조정으로의 뚜렷한 전환이 나타나고 있으며, 제한된 연산 자원으로도 강력한 모델을 적용할 수 있게 한다”고 말했습니다. 이제 비교적 적은 예산의 연구자들도 1년 전에는 접근할 수 없었던 모델을 커스터마이즈할 수 있게 되었습니다. 문이 열리고 있는 것입니다.
효율성 향상에는 시스템 설계도 포함됩니다. 헬스케어 AI를 연구하는 UNC 간호대학의 조교수 Kandyce Brennan는 IBM Think에 “대형 모델이 여러 소형 모델을 계획하고 조율하는” MIT의 DisCIPL 플래너와 같은 접근법이 “훨씬 낮은 연산 비용으로 성과를 낸다”고 말했습니다. 이러한 효율성은 에너지 사용과 환경 부담도 줄입니다.
Mihalcea는 “데이터 한계와 에너지 문제는 이제 현실적인 과제가 되었고, 이는 연구를 더 작은 모델 방향으로 밀어붙이고 있다”고 말했습니다. 이러한 제약은 앞으로 더 강화될 것입니다.
Varshney는 기업에 실제로 필요한 것은 모든 것을 할 수 있는 능력이 아니라고 말했습니다. 그는 엉뚱한 예를 들었습니다. 달에서의 시민권에 대해 모델에 물어보면, 그럴듯한 답변을 내놓을 수 있다는 것입니다. “하지만 대부분의 기업 업무는 그런 것이 아닙니다.” “훨씬 더 목적 지향적입니다.” 규모에 대한 신념은 목적에 맞는 실용주의로 자리를 내주고 있습니다.
진전은 분명했습니다. 한계 역시 분명했습니다. 새롭게 숙고하는 능력을 갖추었음에도 불구하고, AI 모델은 여전히 특정한 형태의 오류를 범합니다. 잘못된 박물관에 들어온 관광 가이드처럼 평온한 확신을 담아 내놓는, 자신감 넘치는 실수입니다.
Poesia는 핵심 문제를 이렇게 짚었습니다. “두 가지 주요 과제는 여전히 신뢰성과 창의성입니다. 99.9%의 성공률조차도 충분하지 않습니다.”라고 그는 말했습니다. 수학은 냉정합니다. 천 번 중 한 번 실패하는 시스템은 백만 건의 쿼리를 처리할 경우 천 번 실패하게 됩니다. 의료, 법률, 금융 분야에서는 그런 확률은 받아들일 수 없습니다.
창의성도 또 다른 문제입니다. “개방형 과제의 경우에는 서로 다른 회사의 모델조차도 비슷한 결과를 내놓는 경향이 있습니다.”라고 Poesia는 지적했습니다. 모델은 정답을 찾는 데 있어 놀라울 만큼 뛰어나졌습니다. 그러나 독창성을 요구받으면 이상할 정도로 획일적입니다.
추론 모델에도 고유한 사각지대가 있습니다. Varshney는 “중간 단계를 검증할 수 있는 과제에서는 이러한 긴 추론 흐름이 도움이 됩니다. 하지만 중간에 검증 가능한 단계가 전혀 없는 작업도 아주 많습니다.”라고 말했습니다.
ARC-AGI-2라는 벤치마크는 이러한 격차를 잘 보여줍니다. 이 테스트는 인간에게는 쉬운 문제를 제시하지만, AI에게는 극도로 어렵습니다. “최첨단 사고 모델조차도 인간의 수행 능력에는 한참 못 미칩니다.”라고 Emadi는 말했습니다. “모델은 이전보다 더 잘 추론하지만, 여전히 확신에 찬 채로 틀릴 수 있습니다.”
사실을 꾸며내는 현상을 완곡하게 표현한 ‘할루시네이션’은 나타나는 방식이 바뀌었을 뿐 여전히 존재합니다. 인간-AI 상호작용을 연구하는 UNC의 교수 Mohammad Hossein Jarrahi는 IBM Think에 “할루시네이션은 성격이 달라졌지만 완전히 사라지지는 않았습니다.”라고 말했습니다. 그럴듯하게 들리지만 사실과는 다른 정보를 만들어내는 경향은 완강하게 지속되고 있습니다.
일부 연구자들은 더 큰 흐름에 대해 우려하고 있습니다. 노스캐롤라이나 대학교에서 교육 기술 프로그램을 이끄는 Todd Cherner는 IBM Think에 “AI 에이전트의 발전하는 역량은 도발적입니다.”라고 말했습니다. 미래는 사람들이 인식하는 것보다 더 빠르게 AGI를 향해 가고 있다고 생각합니다. AGI를 본격적으로 밀어붙이기 전에, 지금 가진 것을 잘 활용해야 합니다.”라고 말했습니다.
컴퓨팅의 기본 원칙은 여전히 유효합니다. “쓰레기를 넣으면 쓰레기가 나온다.” RENCI의 사용자 참여 전문가인 Nathalie Volkheimer는 IBM Think에 이렇게 말했습니다. “우리는 소시지를 만드는 기계에만 집중하고, 정작 소시지 자체에는 신경 쓰지 않고 있습니다. 하지만 결국 우리는 우리가 만든 것을 먹습니다."
덜 주목받은 또 하나의 진전은 컨텍스트 윈도의 확장, 즉 모델이 작업 메모리에 유지할 수 있는 정보의 양이 늘어난 것입니다. “최대 약 백만 토큰에 이르는, 훨씬 향상된 리포지토리 규모의 컨텍스트를 보고 있습니다.”라고 Jarrahi는 말했습니다. 백만 토큰은 대략 소설 여러 권 분량입니다. 그는 이제 모델이 훨씬 더 긴 상호작용 전반에 걸쳐 일관된 이해를 유지할 수 있으며, 이는 법률 문서 검토, 소프트웨어 개발, 연구 종합에 매우 중요하다고 설명했습니다.
Jarrahi는 “특정 구절을 가리킬 수 있는 내장된 근거 제시 기능”을 포함해 인용 기능도 개선되었다고 덧붙였습니다. 모델이 추론 과정을 보여줄 수 있다면, 사용자는 맹신하는 대신 검증할 수 있습니다. 신뢰하되, 검증하라. 아니, 정확히 말하면 신뢰하지 말고, 반드시 검증하라입니다.
그러나 검증만으로는 한계가 있습니다. MIT-IBM Watson AI Lab의 소장인 Aude Oliva는 IBM Think에 “AI와 인간의 협업의 미래는 대화에 있습니다.”라고 말했습니다. 인공 에이전트 시스템은 어느 정도의 마음 이론을 갖춰야 합니다. AI 시스템의 내부 작동 방식을 이해하는 것이 신뢰의 기반을 이룹니다.”라고 말했습니다. 마음 이론, 즉 타인이 서로 다른 관점을 지닌다는 것을 이해하는 능력은 인간 상호작용의 근간입니다. AI에 이것이 결여되면, 아무리 뛰어난 성능을 갖추어도 극복할 수 없는 마찰이 생깁니다.
이에 따라 성공을 평가하는 지표도 변화하고 있습니다. Jarrahi는 “이 분야는 점점 유창성보다는 추적 가능성, 보정성, 상호작용의 견고함으로 모델을 평가하는 방향으로 나아가고 있습니다.”라고 말했습니다. 화려한 지표는 신뢰성 지표로 자리를 내주고 있습니다. 번지르르함은 끝났습니다. 예측 가능성이 중요해졌습니다.
Chin은 “지배적인 주제는 제약을 통한 역량입니다.”라고 말했습니다. “규모 자체를 목적처럼 다루는 대신, 선도적인 시도들은 현실적인 제약 아래에서 시스템이 예측 가능하게 작동하도록 만드는 데 집중합니다.” 진보는 더 이상 달 탐사 같은 도약이 아니라, 엔지니어링 문제에 가깝게 보입니다.
여러 전문가들은 IBM Think에 2026년 조직의 AI 활용을 좌우할 세 가지 제약이 있다고 말했습니다. 첫 번째는 경제적 제약, 두 번째는 물리적 제약, 세 번째는 규제 제약입니다.
먼저 비용 문제입니다. Chin은 “추론 경제성은 점점 더 명확한 상한선으로 작용할 것입니다.”라고 말했습니다. “최근의 많은 추론 성과는 쿼리당 실질적으로 더 많은 연산 자원에 의존합니다.” 그는 몇 분씩 생각하는 모델은 대규모 실시간 응답이 필요한 환경에는 배포될 수 없다고 지적했습니다.
물리적 제약도 마찬가지로 만만치 않습니다. Emadi는 “전 세계 데이터 센터의 전력 소비는 2030년까지 두 배 이상 증가할 것으로 예상됩니다.”라고 말했습니다. “내년에는 많은 조직에서 제약 요인이 칩 수급이 아니라, 이를 연결할 수 있는 기가와트급 전력이 될 것입니다.” 업계는 수년간 칩에 집착해 왔습니다. 그러나 병목은 이제 발전소로 이동하고 있습니다.
Brennan은 “연산 수요와 그에 따른 환경 비용은 여전히 높으며, 이는 지속 가능성에 대한 중요한 윤리적 질문을 제기합니다.”라고 덧붙였습니다. AI의 탄소 발자국은 더 이상 외면할 수 없는 문제가 되었습니다.
그리고 규제가 있습니다. Chin은 “설계 단계부터 거버넌스를 내재화하려는 압력이 모델 개발을 더 직접적으로 형성할 것입니다.”라고 말했습니다. “많은 배포 환경에서는 단순히 높은 성능이 아니라, 감사 가능하고 경계가 명확한 동작이 요구됩니다.” 블랙박스의 시대는 끝나가고 있을지도 모릅니다.
산업계와 학계 사이의 격차가 커지고 있다는 점은 일부 관찰자들을 우려하게 합니다. Scharff는 “대학은 다시 기초 AI에 집중하고, 향후 10년에서 20년을 좌우할 아이디어에 투자해야 합니다.”라고 말했습니다. 초대형 모델은 점점 학계의 접근 범위를 벗어나고 있으며, 이는 차세대 아이디어가 어디에서 나올지에 대한 불편한 질문을 던집니다.
충분히 주목받지 못한 한 가지 변화가 있습니다. 바로 소버린 AI의 부상입니다. Varshney는 “많은 나라에서 사람들이 자체 모델을 개발하고 있습니다.”라고 말했습니다. 그는 이러한 움직임이 훈련 데이터가 문화적으로 더 잘 반영되고, 경제적 통제권이 자국으로 이동한다는 점에서 중요하다고 설명했습니다.
Varshney는 2026년에는 극적인 돌파구보다는 지속적인 실험이 이어질 것으로 예상했습니다. 모든 것이 반드시 트랜스포머일 필요는 없습니다.”라고 그는 말했습니다. Mihalcea도 비슷한 전망을 내놓았습니다. “멀티 에이전트 시스템을 활용한, 더 작고 전문화된 전문가 모델의 혼합입니다.” 큰 도약이 올 것인지 묻자 Varshney는 신중한 태도를 보였습니다. “또 다른 ChatGPT 순간이 올 가능성은 항상 있습니다.”라고 그는 말했습니다. “하지만 저는 그렇게 될 것이라고 기대하지는 않습니다.” 솔직한 답은 아무도 모른다는 것입니다.
실무자들은 이미 이 새로운 환경에 적응하고 있습니다. UNC Kenan-Flagler의 글로벌 운영학 교수인 Jayashankar Swaminathan는 IBM Think에 “가장 큰 발전은 … AI가 이제 단순한 순서로 여러 작업을 수행할 수 있는 자율 에이전트 역량을 중심으로 이루어지고 있습니다.”라고 말했습니다. “두 번째는 의사결정 이면의 논리를 추론하는 능력과 관련되어 있습니다.”
헬스케어 분야에서는 이미 변화가 진행 중입니다. UNC 간호대학의 임상 부교수인 Maureen Baker는 IBM Think에 “AI 모델은 믿을 수 없을 만큼 빠른 속도로 발전하고 있습니다.”라고 말했습니다. 하지만 그는 역량과 실제 적용을 구분하며 “비판적 사고, 임상적 추론, 판단력은 여전히 최우선에 있어야 합니다.”라고 강조했습니다. 그의 접근 방식은 실용적입니다. “최소한의 위험으로 쉽게 성과를 낼 수 있는 지점을 찾습니다.”
에코시스템은 점점 분화되고 있습니다. Pace University의 정보기술 교수인 David Sachs는 IBM Think에 “모든 것을 할 수 있는 대형 모델과 Julius나 Perplexity 같은 보다 집중된 모델, 이렇게 두 가지 유형이 나타나는 것 같습니다.”라고 말했습니다. 소프트웨어가 거대한 단일 애플리케이션에서 전문화된 툴로 진화해 온 것처럼, AI 역시 니치 영역으로 분화되고 있습니다.
Jarrahi는 “이러한 시스템의 실제 활용은 공생적인 워크플로를 설계함으로써 형성됩니다.”라고 말했습니다. 인간은 판단력, 창의성, 책임을 제공합니다. AI는 속도, 일관성, 방대한 정보를 처리하는 능력을 제공합니다. 이 둘을 어떻게 결합할지 알아내는 조직이 경쟁 우위를 갖게 될 것입니다.
Chin은 “최첨단 AI는 순수한 규모로 정의되던 시대에서 벗어나, 절차, 제약, 운영상의 트레이드오프로 정의되는 시대로 이동하고 있습니다.”라고 말했습니다. 기술은 엔지니어들이 현실적인 한계를 기준으로 최적화를 시작할 때 성숙해집니다. 그 기준으로 보면, AI는 마침내 성장 단계에 접어들고 있습니다.
하지만 Varshney는 기술을 넘어서는 더 깊은 질문을 던지고 있습니다. “어떤 작업을 AI 시스템에 위임하고, 어떤 작업을 인간이 계속 수행하게 될까요?”라고 그는 물었습니다. “인간이 특정한 일을 수행하는 데서 의미를 찾기 때문일까요? 여러 면에서, 인간이라는 것은 무엇을 의미할까요?”
