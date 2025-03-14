인공 지능이 우리의 세상을 점점 더 변화시키고 있는 가운데, 인공 지능의 창시자 중 한 명은 과장된 기대와 공포에 대해 경고합니다.
앤드류 바르토(Andrew Barto)는 컴퓨팅 분야 최고 영예인 튜링 어워드를 최근 수상한 인물로, 수십 년간 강화 학습 기술을 개발해 왔습니다. 이 기술은 현재 게임 AI 챔피언부터 신약 개발 시스템, 그리고 오늘날 대형 언어 모델의 추론 능력까지 모든 것을 구동하고 있습니다. IBM Think 인터뷰에서 바르토는 기술 낙관주의와 종말 시나리오를 관통하는, AI의 발전, 잠재력, 한계를 냉정하게 평가합니다.
바르토가 개발에 기여한 강화 학습, 즉 상호 작용을 통해 배우는 계산적 접근법은 오늘날 AI 분야에서 어디에나 퍼져 있습니다. 많은 사람들이 이를 통해 힘든 게임에서 세계 챔피언을 꺾는 것과 같은 화제의 성과를 떠올리지만, 바르토는 이를 보다 실용적인 영역에서 가장 의미 있게 적용할 수 있다고 생각합니다.
그는 "이미 많은 곳에서 사용되고 있으며, 특히 로보틱 분야에서 많이 사용되고 있습니다."라고 설명했습니다. "로봇이 강화 학습을 통해 매우 세밀하고 유용한 동작을 수행하여 집에서 사람을 돕거나 장애가 있는 사람들을 도울 수 있는 가능성이 큽니다."
바르토는 강화 학습이 장기간에 걸쳐 치료 프로토콜을 최적화하는 의료 분야를 강조합니다. 바로 이 기술이 탁월한 성능을 발휘하는 순차적 의사 결정 문제가 필요한 분야입니다.
"강화 학습의 특징 중 하나는 시간이 지남에 따라 여러 결정이 내려지고 각각의 경우 시스템 상태가 이전 결정에 따라 달라지는 순차적 결정 문제를 처리할 수 있다는 점입니다."라고 그는 말합니다. 일련의 행동 후에야 실현되는 결과인 지연 보상을 처리하는 능력은 강화 학습 알고리즘이 해결해야 하는 근본적인 과제를 나타냅니다.
IBM AI Foundations Lab의 딥러닝 연구 엔지니어 매트 리머(Matt Riemer)는 더 최근의 적용 사례를 언급합니다.
"연구원들은 매우 유망한 결과를 보기 시작한 신약 개발 문제에 강화 학습 기반 접근 방식을 성공적으로 적용했습니다."라고 그는 Think와의 인터뷰에서 말했습니다. "최근에는 정수 처리 과정의 최적화 및 자동화와 같은 중요한 문제에서도 성공을 거두었습니다."
오늘날 챗봇의 놀라운 능력 이면에는 강화 학습이 있습니다. 리머는 다음과 같이 설명합니다. “최근에 LLM이 성공을 거두면서 LLM의 능력을 향상하는 강화 학습(RL)의 사용 사례가 큰 주목받고 있습니다.” 첫 번째 주요 적용 사례는 인간 피드백을 통한 강화 학습인 RLHF로, 이는 이러한 시스템이 사람들이 원하는 응답을 더 잘 생성하도록 돕습니다.
대규모 언어 모델은 사람과 유사한 텍스트를 생성하는 능력으로 대중의 관심을 끌었지만, 이러한 모델의 발전은 강화 학습 덕분입니다. 리머는 "최근에 RL이 LLM의 능력을 향상시키는 일련의 사고 과정을 학습하는 이른바 '사고' 모델을 훈련하는 가장 중요한 접근 방식으로 부상하고 있습니다."라고 설명합니다.
수학 문제는 이러한 시스템을 위한 이상적인 훈련의 장이 됩니다. "수학적 추론과 같은 문제의 경우 '상담원이 문제에 올바르게 답했는지, 아닌지'와 같은 검증 가능한 보상을 쉽게 구성할 수 있습니다."라고 리머는 설명합니다. 이러한 옳고 그름에 대한 명확한 답변은 AI가 반복적인 연습을 통해 학습할 수 있는 '의사(pseudo) 시뮬레이션 환경'을 만듭니다.
강화 학습의 영향은 학술 연구나 전문 응용 분야를 넘어 확장됩니다. 일상적인 사용자와 상호 작용하는 기술에서 그 영향력이 점점 더 커지고 있습니다. "이번에도 이는 시작에 불과할 것입니다. 웹 브라우저 및 기타 도구와 상호 작용하여 사용자를 더 잘 지원하는 'AI 에이전트'를 개발하기 시작하면서 RL이 훨씬 더 중요한 역할을 할 것으로 예상됩니다."라고 리머는 예측합니다.
바르토는 수많은 기술의 과장된 기대 사이클을 목격한 과학자의 신중한 낙관주의를 유지합니다. 그는 AI 시스템이 인간의 가치에 따라 작동하도록 보장하는 AI 안전성 및 정렬에 대한 질문을 받았을 때, 이 문제를 인정합니다.
"정렬 문제는 사소한 문제가 아닙니다."라고 그는 말합니다. "RL 시스템이 시스템을 사용하는 인간의 가치를 반영하도록 AI에 지시할 수 있기를 바랍니다. 그렇게 될 수 있기를 바랄 뿐입니다. 하지만 구체적인 방안은 모르겠습니다."
AI의 보상에 대한 영감을 얻기 위해 바르토는 우리의 두뇌로 눈을 돌립니다. "우리의 보상 기능은 수백만 년에 걸쳐 진화한 메커니즘에서 비롯된 것입니다."라고 그는 설명합니다. 단순한 컴퓨터 보상과 달리 인간의 동기 부여는 조상이 생존하고 번식할 수 있도록 하는 복잡한 진화적 압력에서 비롯됩니다.
이러한 진화적인 관점은 시스템이 하나의 보상 신호가 아닌 여러 개의 보상 신호에 반응하는 다중 기준 강화 학습에 대한 그의 생각에 영향을 주었으며, 이는 인간 두뇌의 다양한 부분이 다양한 형태의 피드백을 처리하는 방식과 비슷합니다.
"다중 기준 강화 학습은 정말 중요한 기능이라고 생각합니다."라고 바르토는 말합니다. "보상 기능은 하나만 있는 것이 아니라 여러 개가 있을 수 있으며, 예를 들어 뇌의 각 부위마다 다른 신호를 받을 수 있습니다."
강화 학습은 비디오 게임과 시뮬레이션에서는 탁월하지만 현실 세계에서는 어려움을 겪습니다. 문제가 무엇일까요? 이러한 시스템은 다양한 행동을 탐색하면서 학습하는데, 이는 가상 환경에서는 강점이지만 현실에서는 큰 위험이 될 수 있습니다. "탐색은 RL의 가장 큰 장점이자 실제 사용에 있어 가장 큰 제한 요소입니다." 리머는 이렇게 설명하며 두 연구자가 이러한 전환을 중요한 과제로 보는 이유를 강조합니다.
"시뮬레이션이 아닌 현실 세계에서 탐색은 에이전트가 예측할 수 없는 일을 하게 만들 수 있으며, 이는 AI 안전성의 주요 우려 사항입니다."라고 리머는 설명합니다. "또한 탐색을 허용할 수 있는 사용 사례의 경우에도 RL의 표본 효율성에 문제가 있습니다. 같은 상황에서 인간보다 훨씬 더 많은 것을 탐색해야 하는 것처럼 느껴지는 경우가 많습니다."
바르토는 비슷한 어려움을 지적합니다. "시뮬레이션은 현실 세계에서의 실제 경험보다 훨씬, 훨씬 더 빠르게 진행될 수 있기 때문에 이 과정에는 훨씬 더 오랜 시간이 걸릴 것입니다." 그는 "로봇이라면 시행착오를 통해 학습하고, 오류로 인해 넘어지거나 기계가 손상되는 경우 문제가 발생합니다."라고 덧붙입니다.
실제 배포에 대한 이러한 신중한 접근 방식은 실용성과 안전성을 모두 고려한 결과입니다. 바르토는 "시스템이 예상치 못한 문제를 일으킬 수 있는 무언가를 생성하지 않도록" 보상 함수를 신중하게 지정해야 한다고 강조합니다.
이 과제는 단순한 구현을 넘어서는 것입니다. 리머가 지적하듯, 강화 학습 시스템은 변화하는 환경에도 적응할 수 있어야 합니다. "지속적 강화 학습(RL)은 실제 세계의 환경의 변화하는 특성, 즉 사전 학습 당시나 시뮬레이터에서의 훈련 때와 세상이 달라졌을 때, RL 에이전트가 어떻게 그 변화에 적응할 수 있는지를 연구하는 분야입니다.”
이러한 적응성은 리머가 "'안정성-가소성 딜레마’의 고전적인 문제라고 부르는 상황을 야기합니다. 이 문제에서 에이전트는 새로운 경험에서의 성능과 기존 경험에서의 성능 중 무엇을 우선시할지를 결정해야 합니다." 사전 지식을 유지하면서 새로운 상황에 적응하는 것 사이의 균형을 맞추는 것은 이 분야의 지속적인 과제입니다.
이러한 장애물에도 불구하고, 연구자들은 강화 학습과 다른 AI 접근법을 결합해 유망한 해결책을 찾고 있습니다. 리머는 대규모 언어 모델과 통합에서 특히 가능성이 있다고 생각합니다. “RL의 가장 아쉬웠던 점은 세계를 충분히 이해하여 보다 논리적으로 탐색을 구조화할 수 있는 능력이었습니다. 우리는 LLM이 RL 교육을 구축하기 위한 전 세계 지식의 강력한 기반으로 사용될 수 있다는 증거를 보기 시작했으며, 이는 RL의 실제 적용 가능성을 열어 준다는 점에서 매우 흥미로운 발전입니다.”
강화 학습과 다른 AI 기술 간의 통합이 빠르게 진화하고 있습니다. “우리가 주목하는 주요한 추세는, 다른 기법들이 RL이 세상의 표현을 구축하고 이해하도록 도움으로써 이를 더 효율적으로 탐색할 수 있게 하는 방식입니다.”라고 리머는 말합니다. "예를 들어, 언어 영역에서 RL은 사전 학습된 LLM을 기반으로 사용하는 매우 효과적인 도구가 되었습니다."
이 상호 보완적인 관계는 두 가지 방식으로 작동합니다. 강화 학습은 언어 모델을 향상하며, 언어 모델은 강화 학습 시스템에 더 나은 세계 표현을 제공해 세계를 더 잘 이해할 수 있도록 합니다. 리머는 “로보틱이나 AI 에이전트 구축과 같은 사용 사례에서도 비슷한 현상이 나타나고 있습니다. 시각적 능력을 갖춘 VLM에 내재된 지식과 결합될 때, RL의 효율성이 더 커지고 있습니다.”라고 설명했습니다.
대화가 인공 일반 지능(AGI), 즉 여러 영역에 걸쳐 인간과 유사한 인지 능력을 갖춘 시스템에 대한 주제로 옮겨가자, 바르토는 연구 목표로서의 실현 가능성과 이것이 바람직한 것인지에 대해 회의적인 견해를 표명했습니다.
"저는 인간 수준의 지능을 목표로 삼는 것이 얼마나 유용할지 모르겠습니다."라며 솔직하게 말합니다. "인간의 지능이 어떻게 작동하는지 이해하려는 목표는 인간과 같은 수준의 지능을 지닌 기계를 만드는 것은 전혀 다른 목표입니다."
바르토가 특히 흥미로운 연구 분야로 꼽은 것은 다중 에이전트 강화 학습입니다. 이는 서로 다른 목표를 지닐 수도 있는 학습 에이전트들이 상호 작용하는 시스템입니다. 이 접근 방식은 AI 개발에 영향을 미칠 뿐만 아니라 우리의 두뇌가 어떻게 작동하는지를 밝혀 줄 수 있습니다.
“뉴런이 강화학습 에이전트이며, 뇌는 서로 다른 목표를 가질 수도 있는 에이전트들이 상호 작용하는 하나의 사회라는 가설”은 여전히 “이례적인 가설”이라고 그는 인정합니다. 그러나 이 가설이 신경과학에 잠재적으로 중요한 시사점을 지니고 있다고 덧붙입니다.
바르토에게 있어 강화 학습의 가장 가치 있는 공헌은 인간과 유사한 지능을 만드는 데 있는 것이 아니라, 인간의 삶을 개선하는 구체적인 문제들을 해결하는 데 있을지도 모릅니다. 어쩌면 이것이 튜링상 자체보다 더 의미 있는 유산이 될 수도 있습니다.
