강화 학습이란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

강화 학습이란 무엇인가요?

강화 학습(RL)은 자율적인 에이전트가 주변 환경과 상호 작용하여 결정을 내리는 법을 배우는 일종의 머신 러닝 프로세스입니다.

자율 에이전트는 인간 사용자의 직접적인 지시에 관계없이 환경에 대응하여 결정을 내리고 조치를 취할 수 있는 모든 시스템입니다. 로봇과 자율 주행 자동차가 자율 주행 에이전트의 예입니다.

강화 학습에서 자율 에이전트는 인간 사용자의 지침 없이 시행착오를 거쳐 작업을 수행하는 방법을 학습합니다.1 이는 특히 불확실한 환경에서 발생하는 순차적 의사 결정 문제를 해결하고 인공 지능 개발의 가능성을 보여줍니다.

지도 학습과 비지도 학습

문헌은 종종 강화 학습을 지도 학습과 비지도 학습과 대조합니다. 지도 학습은 수동으로 라벨이 지정된 데이터를 사용하여 예측 또는 분류를 생성합니다. 비지도 학습은 라벨이 지정되지 않은 데이터에서 숨겨진 패턴을 발견하고 학습하는 것을 목표로 합니다. 지도 학습과 달리, 강화 학습은 올바른 동작이나 잘못된 행동에 대한 라벨이 지정된 예제를 사용하지 않습니다. 그러나 강화 학습은 숨겨진 패턴의 정보를 추출하는 것이 아니라 시행착오와 보상 기능을 통해 학습한다는 점에서 비지도 학습과 다릅니다.2

지도 및 비지도 학습 방법은 입력 데이터의 각 레코드가 데이터 세트의 다른 레코드와 독립적이지만 각 레코드가 공통의 기본 데이터 배포 모델을 구현한다고 가정합니다. 이러한 방법은 예측 정확도 최대화에 따라 측정된 모델 성능을 사용하여 예측하는 방법을 학습합니다.

반면 강화 학습은 행동하는 법을 배웁니다. 입력 데이터를 상호 의존적인 튜플(즉, 정렬된 데이터 시퀀스)로 가정하고 state-action-reward로 구성됩니다. 강화 학습 알고리즘의 많은 응용 프로그램은 긍정적 강화를 통해 실제 생물학적 학습 방법을 모방하는 것을 목표로 합니다.

이 둘은 문헌에서 자주 비교되지 않지만 강화 학습은 자기 지도 학습과도 구별됩니다. 후자는 라벨이 지정되지 않은 학습 데이터에서 파생된 의사 라벨을 기초 자료로 사용하여 모델 정확도를 측정하는 비지도 학습의 한 형태입니다. 그러나 강화 학습은 분류 방법이 아니라 액션 러너이기 때문에 의사 레이블을 생성하거나 기준 진실에 대해 측정하지 않습니다. 그러나 이 두 가지는 유망한 결과로 결합되었습니다.3

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

강화 학습 프로세스

강화 학습은 기본적으로 에이전트, 환경, 목표 간의 관계로 구성됩니다. 문헌에서는 이 관계를 마르코프 결정 과정(MDP) 측면에서 널리 공식화합니다.

Markov 의사 결정 프로세스

강화 학습 에이전트는 주변 환경과 상호 작용하여 문제에 대해 학습합니다. 환경은 현재 상태에 대한 정보를 제공합니다. 그런 다음 상담원은 해당 정보를 사용하여 어떤 조치를 취할지 결정합니다. 해당 작업이 주변 환경으로부터 보상 신호를 얻으면 에이전트는 향후 유사한 상태에 있을 때 해당 작업을 다시 수행하도록 권장됩니다. 이후 모든 새로운 상태에 대해 이 프로세스가 반복됩니다. 시간이 지남에 따라 에이전트는 보상과 처벌을 통해 환경 내에서 지정된 목표를 충족하는 조치를 취하는 방법을 배웁니다.4

강화 학습 주제 페이지에 대한 다이어그램

마르코프 결정 과정에서 상태 공간은 환경의 상태가 제공하는 모든 정보를 나타냅니다. 작업 공간은 에이전트가 상태 내에서 수행할 수 있는 모든 가능한 작업을 나타냅니다.5

탐사-착취 트레이드오프

RL 에이전트에는 동작을 안내하는 수동으로 레이블이 지정된 입력 데이터가 없기 때문에 환경을 탐색하고 보상을 받는 작업을 찾기 위해 새로운 작업을 시도해야 합니다. 이러한 보상 신호에서 에이전트는 이익을 극대화하기 위해 보상을 받은 행동을 선호하는 방법을 배웁니다. 그러나 에이전트는 새로운 상태와 작업도 계속 탐색해야 합니다. 그렇게 함으로써 그 경험을 활용하여 의사 결정을 개선할 수 있습니다.

따라서 RL 알고리즘은 에이전트가 이전에 보상을 받은 상태 행동에 대한 지식을 활용하고 다른 상태 행동을 탐색해야 합니다. 에이전트는 탐사나 착취만을 독점적으로 추구할 수 없습니다. 지속적으로 새로운 작업을 시도하는 동시에 가장 큰 누적 보상을 생성하는 단일(또는 일련의) 작업을 선호해야 합니다.6

강화 학습의 구성 요소

행위자-환경-목표의 삼두정치 외에도, 강화 학습 문제를 특징짓는 네 가지 주요 하위 요소가 있습니다.

- 정책. 이는 인식된 환경 상태를 에이전트가 해당 상태에 있을 때 수행해야 하는 특정 작업에 매핑하여 RL 에이전트의 동작을 정의합니다. 그것은 기초적인 기능 또는 더 복잡한 계산 과정의 형태를 취할 수 있습니다. 예를 들어, 자율 주행 차량을 안내하는 정책은 보행자 감지를 정지 조치에 매핑할 수 있습니다.

- 보상 신호. 이는 RL 문제의 목표를 나타냅니다. 각 RL 에이전트의 작업은 환경으로부터 보상을 받거나 받지 못합니다. 에이전트의 유일한 목표는 환경으로부터의 누적 보상을 극대화하는 것입니다. 자율 주행 차량의 경우 보상 신호를 통해 주행 시간 단축, 충돌 감소, 도로 및 적절한 차선 유지, 극심한 감속 또는 가속 방지 등의 효과를 얻을 수 있습니다. 이 예는 RL이 상담원을 안내하기 위해 여러 보상 신호를 통합할 수 있음을 보여줍니다.

- 값 함수. 보상 신호는 전자가 즉각적인 이익을 나타내고 후자가 장기적인 이익을 지정한다는 점에서 가치 함수와 다릅니다. 가치는 뒤따를 가능성이 있는 모든 주(현직 보상 포함)에 대한 주의 선호도를 나타냅니다. 자율 주행 차량은 차선을 벗어나고, 보도를 주행하고, 빠르게 가속함으로써 이동 시간을 줄일 수 있지만, 후자의 세 가지 행동은 전반적인 가치 기능을 감소시킬 수 있습니다. 따라서, RL 대리인으로서의 차량은 후자의 세 영역에서 보상을 증가시키기 위해 약간 더 긴 이동 시간을 교환할 수 있습니다.

-모델. 이는 강화 학습 시스템의 선택적 하위 요소입니다. 모델을 사용하면 에이전트가 가능한 행동에 대한 환경 동작을 예측할 수 있습니다. 그런 다음 에이전트는 모델 예측을 사용하여 잠재적 결과를 기반으로 가능한 행동 방침을 결정합니다. 이는 자율 주행 차량을 안내하는 모델이 될 수 있으며, 최적의 경로, 위치와 속도를 감안할 때 주변 차량에서 기대할 수 있는 것 등을 예측하는 데 도움이 됩니다.7 일부 모델 기반 접근 방식은 초기 학습에서 인간의 직접적인 피드백을 사용한 다음 자율 학습으로 전환합니다.

온라인 학습과 오프라인 학습

에이전트는 학습 정책에 대한 데이터를 수집하는 일반적인 두 가지 방법이 있습니다.

- 온라인. 여기서 에이전트는 주변 환경과 상호 작용하여 직접 데이터를 수집합니다. 이 데이터는 에이전트가 해당 환경과 계속 상호 작용하면서 반복적으로 처리되고 수집됩니다.

- 오프라인. 에이전트가 환경에 직접 액세스할 수 없는 경우 해당 환경의 로깅된 데이터를 통해 학습할 수 있습니다. 이것이 바로 오프라인 학습입니다. 많은 연구가 오프라인 학습으로 전환되었는데, 이는 환경과의 직접적인 상호 작용을 통해 모델을 훈련하는 데 실질적인 어려움이 있기 때문입니다.8

강화 학습 주제 페이지에 대한 다이어그램

강화 학습의 유형

강화 학습은 활발하고 지속적으로 연구되고 있는 분야인 만큼, 개발자들은 강화 학습에 대한 수많은 접근 방식을 만들어 냈습니다. 널리 논의되는 기본적인 강화 학습 방법 3가지는 동적 프로그래밍, 몬테카를로, 시간차 학습입니다.

동적 프로그래밍

동적 프로그래밍은 더 큰 작업을 더 작은 작업으로 나눕니다. 따라서 문제를 불연속적인 시간 단계에서 이루어진 순차적 결정의 워크플로로 모델링합니다. 각 결정은 가능한 다음 상태의 관점에서 이루어집니다. 주어진 행동에 대한 에이전트의 보상(r)은 해당 행동(a), 현재 환경 상태(s) 및 잠재적인 다음 상태(s')의 함수로 정의됩니다.

동적 프로그래밍 공식

이 보상 함수는 에이전트의 행동을 제어하는 정책(의 일부)으로 사용할 수 있습니다. 에이전트 행동에 대한 최적의 정책을 결정하는 것은 강화 학습을 위한 동적 프로그래밍 방법의 주요 구성 요소입니다. 벨만(Bellman) 방정식을 입력합니다.

Bellman 방정식은 다음과 같습니다.

벨만 방정식 공식

간단히 말해서, 이 방정식은 vt(s)를 시점 t에서 시작하여 의사 결정 워크플로가 끝날 때까지 예상되는 총 보상으로 정의합니다. 이는 에이전트가 시점 t에서 상태 s를 점유하는 것으로 시작한다고 가정합니다. 이 방정식은 궁극적으로 시점 t에서의 보상을 즉각적인 보상 rt(s,a)(즉, 보상 공식)와 에이전트의 총 기대 보상으로 나눕니다. 따라서 에이전트는 각 상태에서 보상 신호를 받는 행동을 일관되게 선택함으로써 벨만 방정식의 총 값인 가치 함수를 최대화합니다.9

몬테카를로 방법

동적 프로그래밍은 모델 기반으로, 보상을 인식하고, 패턴을 식별하고, 환경을 탐색하기 위해 환경 모델을 구성합니다. 그러나 Monte Carlo는 블랙박스 환경을 가정하여 모델이 없습니다.

동적 프로그래밍은 의사 결정 시 잠재적인 미래 상태와 보상 신호를 예측하는 반면, 몬테카를로 방식은 환경과의 상호작용을 통해서만 상태, 행동, 보상의 시퀀스를 샘플링하는 경험 기반 방식입니다. 따라서 몬테카를로 방법은 확률적 분포보다는 시행착오를 통해 학습합니다.

Monte Carlo는 가치 함수 결정에서 동적 프로그래밍과 더욱 다릅니다. 동적 프로그래밍은 연속적인 상태에서 보상이 있는 행동을 일관되게 선택하여 가장 큰 누적 보상을 추구합니다. 반면, 몬테카를로는 각 상태-행동 쌍에 대한 수익의 평균을 냅니다. 이는 Monte Carlo 방법이 가치 함수를 계산한 다음 정책을 업데이트하기 전에 주어진 에피소드(또는 계획 기간)의 모든 작업이 완료될 때까지 기다려야 함을 의미합니다.10

시간 차이 학습

문헌에서는 TD(시간차) 학습을 동적 프로그래밍과 몬테카를로의 조합으로 널리 설명합니다. 전자와 마찬가지로 TD는 최종 값을 기다리지 않고 각 단계 후에 정책을 업데이트하므로 미래 상태에 대한 추정치가 업데이트됩니다. 그러나 몬테카를로에서와 마찬가지로 TD는 모델을 사용하는 대신 환경과의 원시 상호 작용을 통해 학습합니다.11

이름에 따라 TD 학습 에이전트는 각 주에서 예측된 보상과 실제로 받은 보상의 차이에 따라 정책을 수정합니다. 즉, 동적 프로그래밍과 Monte Carlo는 받은 보상만 고려하는 반면 TD는 기대치와 받은 보상 간의 차이를 더 중요하게 생각합니다. 이 차이를 사용하여 에이전트는 이벤트 계획 지평선까지 기다리지 않고 다음 단계에 대한 추정치를 업데이트합니다.12

TD에는 다양한 변형이 있습니다. 두 가지 두드러진 변형은 SARSA(State-action-reward-state-action)와 Q-learning입니다. SARSA는 온-폴리시(on-policy) TD 방법으로, 의사결정 관리 정책을 평가하고 개선하려고 시도합니다. Q-learning은 정책에 어긋납니다. 오프 정책 방법은 두 가지 정책, 즉 익스플로잇(대상 정책)과 행동을 생성하기 위한 탐색(행동 정책)을 사용하는 방법입니다.13

추가 방법

무수히 많은 추가 강화 학습 방법이 있습니다. 동적 프로그래밍은 가치 기반 방법으로, 가치 기능을 최대화하는 것을 목표로 하는 정책에 따라 추정된 값을 기반으로 작업을 선택한다는 것을 의미합니다. 반면, 정책 그래디언트 방법은 가치 함수를 참조하지 않고 작업을 선택할 수 있는 매개 변수가 있는 정책을 학습합니다. 이를 정책 기반이라고 하며 고차원 환경에서 더 효과적인 것으로 간주됩니다.14

액터-크리틱 방법(Actor-critic method)은 가치 기반과 정책 기반을 모두 사용합니다. 이른바 '액터(actor)'는 어떤 조치를 취해야 하는지를 결정하는 정책 경사고, '크리틱(critic)'은 행동을 평가하는 가치 함수입니다. 액터-크리틱 방법은 본질적으로 TD의 한 형태입니다. 좀 더 구체적으로 말하자면, 액터-크리틱은 그 자체의 보상뿐만 아니라 행동의 보상에 추가되는 다음 상태의 가능한 가치를 기반으로 주어진 행동의 가치를 평가합니다. 액터-크리틱의 장점은 의사 결정에서 가치 기능과 정책을 구현하기 때문에 사실상 환경과의 상호 작용이 덜 요구된다는 것입니다.15

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

강화 학습 예시

로봇 공학

강화 학습은 예측할 수 없는 환경에서의 의사 결정과 관련이 있기 때문에 로보틱의 핵심 관심 분야였습니다. 단순하고 반복적인 작업의 경우 의사 결정이 간단할 수 있습니다. 그러나 인간의 행동을 시뮬레이션하거나 운전을 자동화하려는 시도와 같은 더 복잡한 작업에는 변수가 많고 변경 가능한 실제 환경과의 상호 작용이 포함됩니다. 연구에 따르면 심층 신경망을 사용한 심층 강화 학습은 특히 일반화 및 고차원 감각 입력을 제어 시스템 출력에 매핑하는 것과 관련하여 이러한 작업에 도움이 됩니다.16 연구에 따르면 로봇을 사용한 심층 강화 학습은 수집된 데이터 세트에 크게 의존하므로 최근 연구에서는 강화 학습 시스템을 개선하기 위해 실제 데이터17를 수집하고 이전 데이터18를 용도 변경하는 방법을 모색하고 있습니다.

자연어 처리

최근 연구에서는 자연어 처리 기술과 툴을 활용할 것을 제안합니다. 대규모 언어 모델(LLM)은 실제 환경의 텍스트 표현을 통해 강화 학습 시스템의 일반화를 개선할 수 있습니다.19 많은 연구에서 학습 에이전트에게 연속적인 의사 결정 작업을 지시할 때 대화형 텍스트 환경이 3차원 환경에 대한 비용 효율적인 대안을 어떻게 제공하는지 보여줍니다.20 심층 강화 학습은 챗봇의 텍스트 의사 결정도 뒷받침합니다. 실제로 강화 학습은 챗봇 대화 응답을 개선하는 다른 방법보다 성능이 뛰어납니다.21

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기