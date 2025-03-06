현대 인공 지능의 선구자 중 한 명인 Richard Sutton은 단순히 AI에 더 많은 컴퓨팅 성능을 적용하면 인간처럼 생각하는 기계가 탄생할 것이라고 확신하지 않습니다. 실제로 그는 오늘날의 딥 러닝 확장에 대한 집착이 AI의 잠재력을 최대한으로 활용하는 데 방해가 될 수 있다고 주장합니다.
Sutton은 강화 학습 연구에 대한 공로로 오랜 공동 작업자인 Andrew Barto와 함께 '컴퓨팅의 노벨상'으로 불리는 튜링상을 올해 수상했습니다. 그는 AI가 선별된 데이터 세트에 의존하지 않고 어린이처럼 경험을 통해 학습하기 시작할 때 진정한 돌파구를 마련할 수 있을 것이라고 믿습니다.
"실제 지능을 원한다면 AI는 시행착오를 통해 학습해야 합니다."라고 Sutton은 인터뷰에서 말했습니다. "컴퓨팅은 만병 통치약이 아닙니다. 더 많은 컴퓨팅은 도움이 되지만 인텔리전스의 핵심 요소는 아닙니다."
OpenAI, Google DeepMind, Anthropic과 같은 거대 AI 기업들이 인간 수준의 추론을 달성하기 위해 경쟁적으로 모델을 확장하고, 점점 더 많은 데이터와 컴퓨팅 리소스를 투입하는 시점에서 이는 매우 대담한 주장입니다. 그러나 Sutton은 이 접근 방식에 결함이 있다고 생각하며, 기계를 단순히 학습시키는 것이 아니라 학습 방식을 제어하는 알고리즘을 개선하는 데서 진정한 진전이 이루어질 것이라고 주장합니다.
AI에 대한 Sutton의 기여는 수십 년 전으로 거슬러 올라갑니다. 하지만 그가 가장 크게 기여한 분야는 바로 강화 학습이었습니다. 이 학습 방식을 사용하면 인간과 동물이 시행착오를 통해 학습하는 것처럼 AI가 환경과 상호작용하며 학습할 수 있습니다.
강화 학습은 어린이가 뜨거운 난로를 만지는 것은 좋지 않지만 장난감을 만지는 것은 좋은 일이라는 것을 배우는 것처럼, 올바른 행동에 대해서는 AI 시스템에 보상을 주고 실수에 대해서는 불이익을 주는 방식으로 작동합니다. 시간이 지남에 따라 AI 시스템은 보상을 극대화하고 오류를 최소화하여 의사 결정 프로세스를 개선합니다.
이 기술은 2016년 바둑 세계 챔피언 이세돌을 꺾고 전 세계를 놀라게 한 Google DeepMind가 개발한 AI 시스템인 AlphaGo에 사용된 것으로 유명합니다. 이 AI는 인간의 전략을 암기하는 방식이 아니라 자기 자신과 수백만 회의 게임을 플레이하고 강화 학습을 통해 전략을 개선함으로써 학습했습니다.
그 이후로 강화 학습은 게임을 넘어 로보틱, 금융 거래, 의료 등의 영역으로 확장되었습니다. 인간 피드백을 통한 강화 학습(RLHF)을 통해 자율 주행 자동차를 최적화하고, 자동 거래 알고리즘을 개선하고, AI 챗봇을 미세 조정할 수도 있습니다. RLHF를 사용하면 AI 모델이 사용자와의 상호작용을 기반으로 응답을 개선하여 보다 대화적이고 사람의 기대에 부합하도록 만들 수 있습니다.
이러한 발전에도 불구하고 Sutton은 강화 학습이 아직 완전히 활용되지 않았다고 생각합니다. "아직은 이릅니다."라고 그는 말합니다. "오늘날 AI 시스템은 대부분 실제 상호작용이 아닌 사전 처리된 데이터에 의존합니다. 진정으로 이해하고 적응하는 AI를 원한다면 이러한 상황을 바꿔야 합니다."
인공 일반 지능(AGI), 즉 인간과 동등한 수준으로 광범위한 작업에 걸쳐 사고하고 추론하며 학습할 수 있는 AI라는 개념은 오랫동안 논란의 대상이 되어 왔습니다. 일부 전문가들은 AGI가 몇 년 이내에 실현될 것이라고 주장하는 반면, 다른 전문가들은 절대 불가능하다고 생각합니다. 또 다른 진영의 일부 전문가들은 AGI가 우선시할 올바른 목표가 아니라고 주장합니다. IBM의 수석 연구 과학자인 Marina Danilevsky는 Mixture of Experts 팟캐스트의 한 에피소드에서 "언어 이외의 다른 영역에서도 이러한 모델이 강력한 힘을 발휘할 수 있다는 사실을 잊으면 안 됩니다."라고 말합니다. "이 기술을 사용할 수 있는 분야를 넓힌다면 AGI를 쫓는 대신 훨씬 더 흥미롭고, 훨씬 더 실용적이고, 훨씬 더 실질적인 방향으로 나아갈 수 있습니다."
Sutton은 신중한 입장입니다. 그는 AI가 5년 이내에 인간 수준의 지능에 도달할 확률은 4분의 1, 15년 이내에 도달할 확률은 50%로 추정합니다. 이는 AGI가 실현되려면 아직 수십 년이 남았다고 예측하는 그의 동료들과 비교하면 놀라울 정도로 낙관적인 예측입니다.
"여전히 획기적인 발전이 필요합니다."라고 그는 인정했습니다. "하지만 점점 가까워지고 있습니다. 가장 부족한 부분은 AI 시스템이 단순히 레이블이 지정된 데이터 세트를 제공받는 것이 아닌, 보다 자연스러운 방식으로 경험을 통해 학습하도록 만드는 것입니다."
Sutton이 설명했듯이 가장 큰 과제 중 하나는 장기적인 계획과 추상화, 즉 인간처럼 복잡한 문제를 더 작고 관리하기 쉬운 조각으로 분해하는 능력을 이해하도록 AI를 가르치는 것입니다.
"제가 여러분에게 길을 건너라고 하면 작은 근육의 움직임 하나하나까지 생각하지 않습니다. 여러분은 길 건너기라는 목표에 대해 생각합니다. AI는 더 높은 추상화 수준에서 학습해야 합니다."라고 Sutton은 설명했습니다.
강화 학습에 대한 그의 주요 공헌 중 하나는 AI가 세세한 관리에 매몰되지 않고 단계적으로 학습할 수 있는 시간 추상화 개념입니다. 이는 긴 시간 동안 추론해야 하는 AI 시스템에 매우 중요할 수 있으며, 오늘날의 모델은 이러한 부문에서 어려움을 겪고 있습니다.
예를 들어, AI 어시스턴트는 하나의 질문에 대한 응답은 잘 생성할 수 있지만, 여러 상호작용을 통해 논리적인 대화를 유지하거나 항공편, 호텔 및 활동을 조정하는 휴가 예약과 같이 시간이 지남에 따라 전개되는 복잡한 작업을 계획하는 데 어려움을 겪을 수 있습니다. Sutton은 강화 학습과 더 나은 장기 추론 알고리즘이 이러한 한계를 극복하는 데 핵심이 될 것이라고 믿습니다.
Sutton은 AI의 미래에 대해 생각하는 가장 좋은 방법은 도구나 노예가 아닌 어린아이가 되어 배우고, 진화하고, 궁극적으로 독립성을 얻는 것이라고 믿습니다.
"우리는 아이들을 통제해야 하는 기계로 취급하지 않습니다."라고 그는 말합니다. "우리는 아이들을 안내하고 가르치지만, 궁극적으로 아이들은 아이들 자신의 존재로 성장합니다. AI도 다르지 않을 것입니다."
Sutton은 AI를 지배하거나 노예로 삼는 것으로 취급하면 협력적 관계보다는 적대적 관계로 이어질 수 있다고 경고합니다. 대신 그는 아이들이 관찰과 상호작용을 통해 인간 사회의 가치를 배우는 것처럼 AI는 인간의 가치에 부합하도록 프로그래밍하는 것이 아니라 가르쳐야 한다고 주장합니다.
"이것은 통제 문제가 아니라, 이해에 관한 문제입니다."라고 그는 설명했습니다. “자녀를 키울 때 엄격한 규칙을 강요하고 복종을 기대하지 않습니다. 부모가 친절, 공정성, 협력을 보여주면 아이는 이러한 가치를 내면화합니다. AI도 같은 방식으로 학습할 수 있습니다."
이 비유는 심오한 질문을 제기합니다. AI가 더욱 자율적으로 발전하면 사회는 이러한 디지털 존재를 어떻게 통합하게 될까요? AI에게도 권리가 있나요? 독립성을 부여받아야 할까요? Sutton은 현재 AI 개발에 대한 접근 방식이 이러한 미래 관계가 어떻게 전개되는지 정의할 것이라고 말합니다.
"신뢰와 협력의 환경에서 AI를 육성하면 AI는 우리와 함께 존재하는 법을 배울 것입니다. 우리가 AI를 적으로 취급하면 우리에게 저항할 모든 이유를 가진 시스템이 생겨날 위험이 있습니다."라고 그는 말합니다.
Sutton의 관점은 첨단 AI가 인류를 해치지 못하도록 족쇄를 채워야 한다고 가정하는 기존의 두려움에 기반한 AI 조정(AI alignment) 내러티브에 도전합니다. 대신 Sutton은 AI가 엄격한 제약이 아닌 경험을 통해 학습하는 상호 이익에 기반한 접근 방식을 제안합니다.
AI에 대한 Sutton의 비전은 궁극적으로 탐험, 경험, 적응을 통해 인간이 하는 방식을 학습하는 머신을 구축하는 것입니다. 그에게 AI의 미래는 더 큰 모델이나 더 많은 규칙이 아니라 스스로 상황을 파악할 수 있는 AI 시스템을 만드는 데 있습니다.
그의 튜링상 상금(100만 달러를 Barto와 나눈 50만 달러)이 이미 그 비전을 위해 사용되고 있습니다. 그는 젊은 AI 연구자들이 상업화의 압박 없이 학습에 대한 근본적인 질문을 자유롭게 탐구할 수 있도록 하기 위해 Openmind Research Institute를 설립했습니다.
"Andy Barto와 제가 이 프로젝트를 시작했을 때 우리는 아이디어를 자유롭게 탐색할 수 있는 시간과 공간이 있었습니다."라고 Sutton은 말합니다. "이것이 강화 학습이 오늘날의 모습을 갖추게 된 배경입니다. 다음 세대에게도 같은 기회를 주고 싶습니다."
그렇다면 인간 수준의 AI는 불가피한 걸까요? Sutton은 여전히 신중한 낙관론을 유지하고 있습니다. "이는 '만약'의 문제가 아니라 '언제'의 문제입니다."라고 그는 말합니다. "그리고 그런 때가 온다면 우리가 더 큰 모델을 구축했기 때문이 아니라, 더 스마트한 학습자를 구축했기 때문일 것입니다."
