AI 에이전트 학습이란 무엇인가요?

작성자

Cole Stryker

Staff Editor, AI Models

IBM Think

AI 에이전트는 시간의 흐르는 과정에서 어떻게 학습하고 적응하나요?

AI 에이전트 학습이란 인공 지능(AI) 에이전트가 환경과 상호 작용하고, 데이터를 처리하고, 의사 결정을 최적화하면서 점차적으로 성능을 개선하는 과정을 말합니다. 이 학습 과정을 통해 자율 에이전트는 동적 환경에 적응하고 효율성을 개선하며 복잡한 작업을 처리합니다. 학습은 많은 에이전틱 AI 시스템의 근본이 되는 구성 요소입니다.

모든 AI 에이전트 유형에 학습 능력이 있는 것은 아닙니다. 학습 능력 없이 데이터를 수동적으로 받아들여서 프로그래밍된 동작을 반응적으로 수행하는 단순 반사 에이전트도 있습니다.

환경에 대해 추론할 수 있는 모델 기반 반사 에이전트, 특정 목표를 추구할 수 있지만 학습하지 않는 능동적 목표 기반 에이전트가 있습니다. 유용성 기반 반사 에이전트는 유용성 함수를 사용하여 전체 이익을 극대화하는 행동을 평가하고 선택합니다.

학습 에이전트는 새로운 경험과 데이터에 적응하여 시간이 지남에 따라 성능을 향상시킵니다. 다른 AI 에이전트들이 미리 정의된 규칙이나 모델을 사용하는 반면, 학습 에이전트는 환경으로부터의 피드백을 바탕으로 지속적으로 행동을 업데이트합니다.

이를 통해 동적이고 불확실한 상황에서 의사 결정 능력을 향상시키고 더 나은 성과를 낼 수 있습니다. 학습 에이전트는 사람의 개입을 최소화하면서 다단계 문제 해결 워크로드를 처리하는 AI 도구의 잠재력을 최대치로 보여줍니다.

학습 에이전트는 일반적으로 다음과 같은 4가지 주요 구성 요소로 구성됩니다.

  1. 성능 요소: 지식 기반을 바탕으로 근거 있는 결정을 내립니다.

  2. 학습 요소: 피드백과 경험을 기반으로 에이전트의 지식을 조정하고 개선합니다.

  3. 비판자: 에이전트의 행동을 평가하고 종종 보상이나 페널티의 형태로 피드백을 제공합니다.

  4. 문제 생성기: 에이전트가 새로운 전략을 발견하고 학습을 개선하는 데 도움이 되는 탐색적 작업을 제안합니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

AI 에이전트 학습 유형

머신 러닝(ML)은 다양한 AI 에이전트 학습 유형의 중추를 형성합니다. 학습을 통해 에이전트는 패턴을 식별하고, 예측을 수행하고, 데이터를 기반으로 성능을 개선합니다.

AI 에이전트에 주로 사용되는 세 가지 머신 러닝 기술은 지도 학습, 비지도 학습, 강화 학습입니다. 더 구체적으로 말하자면, 여러 계층으로 구성된 복잡한 신경망을 사용하여 방대한 데이터를 처리하고 복잡한 패턴을 학습하는 딥 러닝 기술입니다.

지도 학습

지도 학습은 레이블이 지정된 데이터 세트에서 머신 러닝 알고리즘을 훈련하는 것이며, 인풋 각각이 알려진 아웃풋에 대응됩니다. 에이전트는 이 정보를 사용하여 예측 모델을 구축합니다.

예를 들어 AI 챗봇은 고객 서비스 대화와 그에 따른 해결 방법을 학습하여 예측된 응답을 제공할 수 있습니다. 이 방식은 이미지 인식, Speech to Text 처리, 의료 진단에 널리 적용됩니다.

AI 에이전트는 전이 학습을 통해 한 작업에서 얻은 지식을 사용하여 다른 작업에 적용할 수 있습니다. 예를 들면 일반 데이터 세트를 학습한 대규모 언어 모델(LLM)을 법률, 의료 텍스트 처리 같은 특정 영역에 맞춰 미세 조정할 수 있습니다.

비지도 학습

이와 반대로 비지도 학습을 택하면 AI 에이전트가 레이블이 지정되지 않은 데이터를 분석해서 사람의 감독 없이 패턴과 구조를 찾을 수 있습니다.

이 방법은 마케팅 전략을 개선하기 위한 고객 행동 클러스터링, 사이버 보안 영역의 이상 징후 감지, 스트리밍 서비스에서와 같은 추천 시스템 작업에 유용합니다.

자기 지도 학습은 일반적으로 지도 학습이 필요한 작업에 비지도 학습을 사용합니다. 자기 지도 AI 모델은 감독 신호에 대해 레이블이 지정된 데이터 세트에 의존하는 대신 비정형 데이터에서 암시적 레이블을 생성합니다.

자기 지도 학습은 컴퓨팅 비전자연어 처리(NLP)처럼 레이블이 지정된 학습 데이터가 대량으로 필요한 분야에서 유용합니다.

강화 학습

강화 학습은 자율 에이전트의 의사 결정 워크플로에 초점을 맞추는 머신 러닝 프로세스로서 불확실한 환경에서의 순차적인 의사 결정 프로세스를 다룹니다.

지도 학습과 달리, 강화 학습은 올바른 동작이나 잘못된 행동에 대한 라벨이 지정된 예제를 사용하지 않습니다. 그러나 강화 학습은 숨겨진 패턴의 정보를 추출하는 것이 아니라 시행착오와 보상 기능을 통해 학습한다는 점에서 비지도 학습과 다릅니다.

강화 학습은 분류 방법이 아니라 액션 러너이기 때문에 의사 레이블을 생성하거나 실측 정보에 대해 측정하지 않는다는 점에서 자기 지도 학습과 구분됩니다.

강화 학습을 사용하는 AI 에이전트는 환경 안에서 행동을 하고 결과를 관찰하여 전략을 적절하게 조정하는 시행착오 프로세스를 통해 작동합니다. 학습 프로세스에는 상태를 행동에 매핑하는 정책을 정의하고, 즉각적인 이익보다는 장기적인 누적 보상에 맞춰 최적화하는 작업이 수반됩니다.

시간이 지나면서 에이전트는 반복적인 상호 작용을 통해 의사 결정 기능을 개선하고 복잡한 작업을 효과적으로 수행하는 능력을 점진적으로 향상시킵니다. 이 방식은 사전 정의된 규칙이 성능 최적화를 위해 충분하지 않을 수 있는 동적 환경에서 유용합니다.

자율 주행 차량은 강화 학습을 사용하여 최적의 운전 행동을 학습합니다. AI는 시행착오를 통해 도로를 탐색하고, 장애물을 피하고, 실시간으로 운전 관련 결정을 내리는 능력을 향상시킵니다. AI 기반 챗봇은 사용자 상호작용을 통해 학습하고 응답을 최적화하여 참여를 강화함으로써 대화 능력을 향상시킵니다.

지속적인 학습

AI 에이전트에서 지속적 학습이란, 인공 지능 시스템이 학습하고 적응을 지속하면서 과거의 지식을 잊지 않고 새로운 데이터와 경험을 통합하는 능력을 말합니다.

일반적으로 고정된 데이터 세트를 훈련시키는 기존 머신 러닝과 달리, 지속적인 학습을 통해 AI가 새로운 정보나 환경 변화를 마주할 때 모델을 지속적으로 업데이트할 수 있습니다. 이렇게 하면 에이전트가 새로운 패턴, 진화하는 상황, 동적 조건에 적응하면서 실시간으로 성능을 개선할 수 있습니다.

데이터가 끊임없이 변화하고 AI가 새로운 인풋을 통해 항상 최신 상태를 유지해야 하는 실제 애플리케이션에서는 지속적인 학습이 중요합니다. 그래야 모델이 새로운 정보를 학습하면서 오래된 지식을 잊어버리는 '치명적인 망각'을 방지하고 시스템이 끊임없이 진화하는 작업과 과제들을 처리할 수 있습니다.

다중 에이전트 학습 및 협업

AI 에이전트의 이점 중 하나는 함께 일할 수 있다는 것입니다. 다중 에이전트 아키텍처에서 AI 에이전트는 협업과 경쟁을 통해 학습합니다. 협동 학습에서 에이전트들은 지식을 공유해서 공동 목표를 달성합니다. 군집 로봇이 그러한 예입니다.

그러나 금융 거래 AI 등에서는 에이전트들이 전략을 정교화할 때 적대적인 환경에서 경쟁을 벌이며 경쟁 학습을 하기도 합니다.

병원 네트워크에 존재하는 AI 에이전트 네트워크가 환자 치료를 개선하고, 워크플로를 간소화하며, 윤리적 요건을 준수하도록 장려하고, 리소스 할당을 최적화하기 위해 노력하고 있다고 상상해 봅시다.

이러한 다중 에이전트 프레임워크에서는 생성형 AI를 탑재한 고급 학습 에이전트가 단순 반사 에이전트 또는 목표 기반 에이전트를 감독하는 경우가 있습니다. 이 경우 각 에이전트는 의료 시스템 안에서 서로 다른 역할이나 작업을 맡으며, 서로 돕고 정보를 공유하여 치료 결과와 운영 효율성을 향상시킬 수 있습니다.

AI 에이전트

AI 에이전트의 5가지 유형: 자율 기능 및 실제 애플리케이션

목표 중심 및 유틸리티 기반 AI가 워크플로와 복잡한 환경에 어떻게 적응하는지 알아보세요.

피드백 메커니즘

AI 시스템은 피드백 메커니즘을 통해 행동이나 예측의 결과에 대한 정보를 수신하여, 행동의 정확성이나 효과를 평가할 수 있습니다.

이 피드백은 긍정적(올바른 행동 강화)일 수도, 부정적(잘못된 행동 처벌)일 수도 있으며 시스템의 결정을 안내하고 성능을 개선하는 데 필수적입니다. 피드백은 AI에서 학습이 이루어지게 하는 중요한 구성 요소이지만 학습 프로세스의 전부는 아닙니다.

실시간 피드백은 동적인 환경에서 작동하는 AI 에이전트에 매우 중요합니다. 자율 주행 자동차와 Robotic Process Automation(RPA) 같은 자율 시스템은 센서 데이터를 지속적으로 수집하고 즉각적인 피드백을 기반으로 행동을 조정합니다. 이를 통해 변화하는 조건에 적응하고 실시간 의사결정을 개선할 수 있습니다.

비지도 학습 피드백

비지도 학습에서는 레이블이 지정된 데이터 또는 직접적인 감독의 형태로 명시적인 피드백이 제공되지 않습니다. 그보다는 AI 에이전트가 데이터 자체에서 패턴, 구조, 관계를 찾습니다.

예를 들어 클러스터링 또는 차원 축소 작업에서는 에이전트가 모델의 기본 구조를 가장 잘 나타내도록 조정할 때 암시적인 피드백이 발생합니다.

모델은 오류 최소화와 같은 지표를 통해 데이터에 대한 이해도를 높입니다. 예를 들어 오토인코더에서 재구성 오류를 줄이거나 클러스터링의 데이터 유사성 최대화와 같은 특정 기준을 최적화하는 등

여러 창고 및 매장에 걸쳐 제품 수요를 예측하고 재고 수준을 최적화해야 하는 공급망 관리 시스템에서, AI 에이전트는 클러스터링 또는 이상 징후 감지 같은 비지도 학습 기술을 사용하여 명시적인 레이블이나 사전 정의된 카테고리 없이도 방대한 과거 판매 데이터를 분석할 수 있습니다.

지도 학습 피드백

지도 학습에서 피드백은 레이블이 지정된 명시적인 데이터의 형태로 제공됩니다. AI 에이전트는 인풋/아웃풋 쌍(예: 이미지와 레이블 쌍)을 사용하여 훈련을 받습니다. 에이전트가 예측을 하면, 아웃풋을 정확한 레이블(실측 정보)과 비교해서 피드백을 제공합니다.

예측된 아웃풋과 실제 아웃풋(오류) 간의 차이는 보통 손실 함수를 사용하여 계산합니다. 이제 이 피드백을 사용해서 모델 매개변수를 조정하면, 모델이 앞으로 예측 결과를 개선할 수 있습니다.

AI 에이전트는 지도 학습을 사용하여, 고객이 과거 행동과 구매 내역, 선호도를 비추어 볼 때 관심을 가질 만한 제품이나 서비스를 예측할 수 있습니다.

예를 들어 전자 상거래 플랫폼용 AI 솔루션은 구매 내역과 평점 같은 과거 데이터를 레이블이 지정된 예시로 사용하여 고객이 다음에 구매하고 싶어 할 만한 제품을 예측하는 모델을 훈련하고, 고객 경험을 개선할 수 있습니다.

지도 학습은 AI 에이전트가 사람의 피드백을 받아들여 자신의 모델을 정교화하고, 의사 결정과 적응 능력을 개선하고, 새로운 상황에 적응하기 때문에 휴먼인더루프 학습으로 간주됩니다.

이 방법은 자동화된 학습에 인간의 전문성을 결합하여 AI가 오류와 편견을 최소화하면서 복잡한 작업을 보다 효과적으로 처리할 수 있도록 합니다. 다른 학습 유형에도 휴먼인더루프를 피드백 메커니즘으로 접목할 수 있지만, 이를 필수적으로 요하는 학습 유형은 자기 지도 학습 뿐입니다.

강화 학습 피드백

강화학습(RL)에서는 보상이나 페널티의 형태로 피드백이 제공됩니다. RL 에이전트는 환경과 상호 작용하여 작업을 수행하며 다양한 결과를 초래합니다. 작업이 끝날 때마다 에이전트는, 목표에 비해 결과가 얼마나 좋았는지 혹은 나빴는지를 나타내는 스칼라 보상 또는 페널티의 형태로 피드백을 받습니다.

에이전트는 이 피드백을 사용하여 정책이나 의사 결정 전략을 조정합니다. 이를 통해 시간이 흐른 뒤의 누적 보상을 극대화하는 것이 목표입니다. 이 피드백 루프를 택하면 에이전트는 시행착오를 통해 최적의 행동이나 전략을 학습하고 환경을 탐색하면서 행동을 개선할 수 있습니다.

자기 지도 학습 피드백

자기 지도 학습에서 에이전트는 데이터에서 자체 레이블을 생성하여, 데이터 내부 구조로부터 피드백 형태를 생성합니다. 이 모델은 데이터 일부를 사용하여 다른 부분을 예측합니다. 예를 들면 문장에서 누락된 단어를 예측하거나 비디오의 미래 프레임을 예측하는 것입니다.

모델의 예측을 실제로 누락된 데이터 또는 미래 데이터와 비교해서 피드백을 만듭니다. 에이전트는 예측 오류를 최소화하고 이 자체 생성 피드백을 바탕으로 내부 표현을 개선하여 학습합니다.

관련 솔루션
비즈니스용 AI 에이전트

생성형 AI로 워크플로와 프로세스를 자동화하는 강력한 AI 어시스턴트 및 에이전트를 구축, 배포, 관리하세요.

    watsonx Orchestrate 살펴보기
    IBM AI 에이전트 솔루션

    믿을 수 있는 AI 솔루션으로 비즈니스의 미래를 설계하세요.

    AI 에이전트 솔루션 살펴보기
    IBM Consulting AI 서비스

    IBM Consulting AI 서비스는 기업이 AI 활용 방식을 재구상하여 혁신을 달성하도록 지원합니다.

    인공 지능 서비스 살펴보기
    다음 단계 안내

    사전 구축된 앱과 스킬을 사용자 정의하든, AI 스튜디오를 사용하여 맞춤형 에이전틱 서비스를 구축하고 배포하든, IBM watsonx 플랫폼이 모든 것을 지원합니다.

    watsonx Orchestrate 살펴보기 watsonx.ai 살펴보기