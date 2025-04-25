벤치마크, 추론 비용, 혁신: AI가 우리 사회를 어떻게 재편하고 있을까요? 올해 Stanford의 2025 AI Index Report는 우리 삶 전반에서 확대되고 있는 AI의 역할을 반영하기 위해 새로운 분석 영역을 추가했습니다.
IBM Think는 Stanford의 인간 중심 인공지능 연구소 연구 프로그램 디렉터인 Vanessa Parli와 IBM 기술 콘텐츠 관리자인 Ash Minhas와 함께 이 보고서에 담긴 핵심 트렌드를 살펴보았습니다.
AI 역량이 너무 빠르게 고도화되면서 이를 측정하는 도구의 발전 속도를 꾸준히 앞지르고 있어 벤치마크는 이제 핵심 논쟁이 되었습니다.
IBM Think와의 인터뷰에서 보고서 공동 저자인 Vanessa Parli는 “매년 알고리즘들이 벤치마크 전반에서 어떤 성능을 보이는지 살펴보고 있으며 매년 그 벤치마크를 능가하는 모습을 보입니다.”라고 말합니다. "올해도 마찬가지로 최신 벤치마크에서 이러한 현상이 나타나고 있습니다."
보고서에 따르면 연구진은 2023년 고도화된 AI 시스템의 한계를 평가하기 위해 MMMU, GPQA, SWE-bench 등의 새로운 벤치마크를 도입했다고 언급했습니다. 보고서에 따르면 불과 1년 만에 MMMU, GPQA 및 SWE-bench에서 점수가 각각 18.8, 48.9, 67.3 퍼센트포인트 상승하며 성능이 크게 향상되었습니다.
이로 인해 연구 커뮤니티 내에서 LLM 벤치마크의 실제 의미와 가치에 대한 모호함이 제기되고 있습니다. Parli는 "우리는 올바른 것을 측정하고 있는가? 벤치마크가 왜곡되거나 편향된 것은 아닌가? 그리고 과학계는 모델을 어떻게 평가해야 하는가?"와 같은 중요한 질문을 제기합니다.
Ash Minhas는 벤치마킹의 미래가 어떤 모습일지에 대해서도 질문을 던집니다. 그는 IBM Think와의 인터뷰에서 “벤치마킹은 어디서 멈출까요? 튜링 테스트는 끊임없이 이동하는 목표물이 되어야 할까요? 인류의 마지막 시험은 정말 마지막 시험일까요?”라고 묻습니다.
한편 전문가들은 과적합의 위험성을 경고합니다. 과적합이란 AI 모델이 특정 벤치마크 테스트에서는 매우 뛰어난 성능을 보이도록 학습되지만 실제 환경에서 접하지 못한 새로운 데이터에는 일반화하지 못하는 현상을 말합니다. 그는 “단지 모델이 벤치마크를 통과하도록 훈련하고 있는 것 아닐까요?”라고 덧붙입니다. “MMMU는 훌륭한 벤치마크이지만 그 이유가 모델이 벤치마크에 맞춰 어떻게 반응해야 하는지를 알고 있기 때문일까요?”
Minhas는 또한 진보의 열정과 추진력이 윤리, 공정성, 편향에 대한 고려보다 우선시될 수 있다고 경고합니다.
지난해 인공신경망과 단백질 설계 및 예측 연구자들이 노벨 물리학상과 화학상을 수상한 것을 보면 의료 분야에서 커지고 있는 AI의 역할을 간과하기 어렵습니다. 이 보고서는 FDA가 승인한 AI 지원 의료기기의 수가 기하급수적으로 증가하여 2015년에는 6개에 불과했던 것에 비해 2023년에는 223개가 승인되었다고 지적합니다.
Parli는 “과학적 발견을 촉진하는 이 AI 분야는 우리 사회에 큰 영향을 미칠 수 있습니다.”라고 말합니다.
Minhas에 따르면 이러한 성장은 빠른 혁신 속도를 보여주지만, “우리가 이러한 새로운 기기와 제품을 검증할 적절한 전문가와 역량을 갖추고 있는가?”라는 의문도 함께 제기합니다.
AI는 2024년 대규모 투자의 핵심 동력이었습니다. 보고서에 따르면 새로 투자를 유치한 생성형 AI 스타트업 수는 거의 세 배로 증가했으며 수년간 더디게 진행되던 도입 이후 2024년에는 기업들의 도입이 크게 가속화되었습니다.
AI는 주변적 존재에서 벗어나 비즈니스 가치의 핵심 동력으로 자리 잡았습니다. AI에 대한 기업의 총 투자는 2024년 미화 2,523억 달러에 달했으며, 민간 투자는 전년 대비 44.5% 증가했고 인수 합병은 12.1% 증가했습니다. 이는 2024년에 민간 AI 투자가 1,091억 달러에 달한 미국의 스타트업 에코시스템이 더욱 활발히 성장하는 기반이 되었습니다.
업무 현장에서도 AI는 핵심 역할을 하고 있으며 많은 이들이 에이전틱 AI가 기업의 업무 흐름에 미칠 영향을 주목하고 있습니다.
그러나 기업의 혁신 속도는 기술 혁신의 속도와 다릅니다. Minhas는 “기술은 빠르게 발전하고 있지만 사람과 프로세스를 바꾸는 데에는 시간이 필요합니다.”라고 말합니다.
그는 AI가 ROI에 미치는 영향은 여전히 논쟁의 여지가 있다고 지적합니다. "아직은 경제적 이점에 대한 이해가 부족합니다."라고 Minhas는 말합니다. “ROI가 정확히 무엇인지 의견이 일치하지 않고, 실제로 아는 사람도 없습니다.”
이 보고서는 전 세계 국가들이 인프라 투자를 확대하고 있으며 특히 중국에서 강력한 모델들이 등장하고 있어 미국의 우위를 당연시해서는 안 된다고 강조했습니다.
Parli는 “미국이 이런 지표에서 항상 최상위를 차지할 것이라고 당연하게 여겨서는 안 되며 AI를 구성하는 요소인 연산 능력, 인재, 데이터에 대해 계속 고민해야 합니다.”라고 말합니다. "과거에 가졌던 혁신 리더십을 유지하려면 계속 투자해야 하고 이를 실현할 적절한 요소들을 갖추고 있는지 반드시 점검해야 합니다.”
그럼에도 보고서는 다소 모순적으로 보일 수도 있는 또 다른 흥미로운 추세를 지적합니다. 미국처럼 AI에 가장 많이 투자하는 국가들은 AI 기술 예산이 더 제한적인 국가들보다 AI 제품과 서비스에 대해 더 회의적인 태도를 보이고 있다는 것입니다.
보고서에 제시된 수치에 따르면 인도네시아의 설문조사 응답자의 80%는 AI 제품이 해로운 점보다 유익한 점이 더 많다고 본 반면 미국에서는 그 비율이 39%에 그쳤습니다.
Parli는 “많은 국가에서 AI는 예를 들어 의료와 같은 특정 자원에 대한 접근을 가능하게 해 주기 때문에 사람들이 AI와 문화적 차이에 대해 대체로 더 낙관적으로 보게 되는 것 같습니다.”라고 설명합니다. "또한 개인정보 보호, 보안 및 데이터 보호와 같은 문제를 바라보는 데에도 문화적 차이가 있습니다.”
마지막으로 AI는 물리적 공간에서의 존재감도 더욱 커지게 될 것입니다.
보고서에 따르면 2013년부터 2023년까지 전 세계에 설치된 산업용 로봇 수는 약 3배로 늘었으며 2023년에만 54만 1천 대가 설치되었습니다.
Parli는 “일부 AI 도구를 사용하면 자연어로 로봇과 대화하고 동작으로도 상호작용할 수 있습니다. 그렇게 되면 로봇과 훨씬 더 가깝게 함께 일할 수 있고 협업도 한결 수월해질 것입니다. 의료 분야는 로보틱스가 더욱 발전해 나갈 수 있는 영역이라고 봅니다.”라고 말합니다.
