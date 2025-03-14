강화 학습은 비디오 게임과 시뮬레이션에서는 탁월하지만 현실 세계에서는 어려움을 겪습니다. 문제가 무엇일까요? 이러한 시스템은 다양한 행동을 탐색하면서 학습하는데, 이는 가상 환경에서는 강점이지만 현실에서는 큰 위험이 될 수 있습니다. "탐색은 RL의 가장 큰 장점이자 실제 사용에 있어 가장 큰 제한 요소입니다." 리머는 이렇게 설명하며 두 연구자가 이러한 전환을 중요한 과제로 보는 이유를 강조합니다.

"시뮬레이션이 아닌 현실 세계에서 탐색은 에이전트가 예측할 수 없는 일을 하게 만들 수 있으며, 이는 AI 안전성의 주요 우려 사항입니다."라고 리머는 설명합니다. "또한 탐색을 허용할 수 있는 사용 사례의 경우에도 RL의 표본 효율성에 문제가 있습니다. 같은 상황에서 인간보다 훨씬 더 많은 것을 탐색해야 하는 것처럼 느껴지는 경우가 많습니다."

바르토는 비슷한 어려움을 지적합니다. "시뮬레이션은 현실 세계에서의 실제 경험보다 훨씬, 훨씬 더 빠르게 진행될 수 있기 때문에 이 과정에는 훨씬 더 오랜 시간이 걸릴 것입니다." 그는 "로봇이라면 시행착오를 통해 학습하고, 오류로 인해 넘어지거나 기계가 손상되는 경우 문제가 발생합니다."라고 덧붙입니다.

실제 배포에 대한 이러한 신중한 접근 방식은 실용성과 안전성을 모두 고려한 결과입니다. 바르토는 "시스템이 예상치 못한 문제를 일으킬 수 있는 무언가를 생성하지 않도록" 보상 함수를 신중하게 지정해야 한다고 강조합니다.

이 과제는 단순한 구현을 넘어서는 것입니다. 리머가 지적하듯, 강화 학습 시스템은 변화하는 환경에도 적응할 수 있어야 합니다. "지속적 강화 학습(RL)은 실제 세계의 환경의 변화하는 특성, 즉 사전 학습 당시나 시뮬레이터에서의 훈련 때와 세상이 달라졌을 때, RL 에이전트가 어떻게 그 변화에 적응할 수 있는지를 연구하는 분야입니다.”

이러한 적응성은 리머가 "'안정성-가소성 딜레마’의 고전적인 문제라고 부르는 상황을 야기합니다. 이 문제에서 에이전트는 새로운 경험에서의 성능과 기존 경험에서의 성능 중 무엇을 우선시할지를 결정해야 합니다." 사전 지식을 유지하면서 새로운 상황에 적응하는 것 사이의 균형을 맞추는 것은 이 분야의 지속적인 과제입니다.

이러한 장애물에도 불구하고, 연구자들은 강화 학습과 다른 AI 접근법을 결합해 유망한 해결책을 찾고 있습니다. 리머는 대규모 언어 모델과 통합에서 특히 가능성이 있다고 생각합니다. “RL의 가장 아쉬웠던 점은 세계를 충분히 이해하여 보다 논리적으로 탐색을 구조화할 수 있는 능력이었습니다. 우리는 LLM이 RL 교육을 구축하기 위한 전 세계 지식의 강력한 기반으로 사용될 수 있다는 증거를 보기 시작했으며, 이는 RL의 실제 적용 가능성을 열어 준다는 점에서 매우 흥미로운 발전입니다.”

강화 학습과 다른 AI 기술 간의 통합이 빠르게 진화하고 있습니다. “우리가 주목하는 주요한 추세는, 다른 기법들이 RL이 세상의 표현을 구축하고 이해하도록 도움으로써 이를 더 효율적으로 탐색할 수 있게 하는 방식입니다.”라고 리머는 말합니다. "예를 들어, 언어 영역에서 RL은 사전 학습된 LLM을 기반으로 사용하는 매우 효과적인 도구가 되었습니다."

이 상호 보완적인 관계는 두 가지 방식으로 작동합니다. 강화 학습은 언어 모델을 향상하며, 언어 모델은 강화 학습 시스템에 더 나은 세계 표현을 제공해 세계를 더 잘 이해할 수 있도록 합니다. 리머는 “로보틱이나 AI 에이전트 구축과 같은 사용 사례에서도 비슷한 현상이 나타나고 있습니다. 시각적 능력을 갖춘 VLM에 내재된 지식과 결합될 때, RL의 효율성이 더 커지고 있습니다.”라고 설명했습니다.

대화가 인공 일반 지능(AGI), 즉 여러 영역에 걸쳐 인간과 유사한 인지 능력을 갖춘 시스템에 대한 주제로 옮겨가자, 바르토는 연구 목표로서의 실현 가능성과 이것이 바람직한 것인지에 대해 회의적인 견해를 표명했습니다.

"저는 인간 수준의 지능을 목표로 삼는 것이 얼마나 유용할지 모르겠습니다."라며 솔직하게 말합니다. "인간의 지능이 어떻게 작동하는지 이해하려는 목표는 인간과 같은 수준의 지능을 지닌 기계를 만드는 것은 전혀 다른 목표입니다."

바르토가 특히 흥미로운 연구 분야로 꼽은 것은 다중 에이전트 강화 학습입니다. 이는 서로 다른 목표를 지닐 수도 있는 학습 에이전트들이 상호 작용하는 시스템입니다. 이 접근 방식은 AI 개발에 영향을 미칠 뿐만 아니라 우리의 두뇌가 어떻게 작동하는지를 밝혀 줄 수 있습니다.

“뉴런이 강화학습 에이전트이며, 뇌는 서로 다른 목표를 가질 수도 있는 에이전트들이 상호 작용하는 하나의 사회라는 가설”은 여전히 “이례적인 가설”이라고 그는 인정합니다. 그러나 이 가설이 신경과학에 잠재적으로 중요한 시사점을 지니고 있다고 덧붙입니다.

바르토에게 있어 강화 학습의 가장 가치 있는 공헌은 인간과 유사한 지능을 만드는 데 있는 것이 아니라, 인간의 삶을 개선하는 구체적인 문제들을 해결하는 데 있을지도 모릅니다. 어쩌면 이것이 튜링상 자체보다 더 의미 있는 유산이 될 수도 있습니다.