머신 러닝(ML)은 다양한 AI 에이전트 학습 유형의 중추를 형성합니다. 학습을 통해 에이전트는 패턴을 식별하고, 예측을 수행하고, 데이터를 기반으로 성능을 개선합니다.



AI 에이전트에 주로 사용되는 세 가지 머신 러닝 기술은 지도 학습, 비지도 학습, 강화 학습입니다. 더 구체적으로 말하자면, 여러 계층으로 구성된 복잡한 신경망을 사용하여 방대한 데이터를 처리하고 복잡한 패턴을 학습하는 딥 러닝 기술입니다.

지도 학습

지도 학습은 레이블이 지정된 데이터 세트에서 머신 러닝 알고리즘을 훈련하는 것이며, 인풋 각각이 알려진 아웃풋에 대응됩니다. 에이전트는 이 정보를 사용하여 예측 모델을 구축합니다.



예를 들어 AI 챗봇은 고객 서비스 대화와 그에 따른 해결 방법을 학습하여 예측된 응답을 제공할 수 있습니다. 이 방식은 이미지 인식, Speech to Text 처리, 의료 진단에 널리 적용됩니다.

AI 에이전트는 전이 학습을 통해 한 작업에서 얻은 지식을 사용하여 다른 작업에 적용할 수 있습니다. 예를 들면 일반 데이터 세트를 학습한 대규모 언어 모델(LLM)을 법률, 의료 텍스트 처리 같은 특정 영역에 맞춰 미세 조정할 수 있습니다.

비지도 학습

이와 반대로 비지도 학습을 택하면 AI 에이전트가 레이블이 지정되지 않은 데이터를 분석해서 사람의 감독 없이 패턴과 구조를 찾을 수 있습니다.



이 방법은 마케팅 전략을 개선하기 위한 고객 행동 클러스터링, 사이버 보안 영역의 이상 징후 감지, 스트리밍 서비스에서와 같은 추천 시스템 작업에 유용합니다.

자기 지도 학습은 일반적으로 지도 학습이 필요한 작업에 비지도 학습을 사용합니다. 자기 지도 AI 모델은 감독 신호에 대해 레이블이 지정된 데이터 세트에 의존하는 대신 비정형 데이터에서 암시적 레이블을 생성합니다.



자기 지도 학습은 컴퓨팅 비전과 자연어 처리(NLP)처럼 레이블이 지정된 학습 데이터가 대량으로 필요한 분야에서 유용합니다.

강화 학습

강화 학습은 자율 에이전트의 의사 결정 워크플로에 초점을 맞추는 머신 러닝 프로세스로서 불확실한 환경에서의 순차적인 의사 결정 프로세스를 다룹니다.

지도 학습과 달리, 강화 학습은 올바른 동작이나 잘못된 행동에 대한 라벨이 지정된 예제를 사용하지 않습니다. 그러나 강화 학습은 숨겨진 패턴의 정보를 추출하는 것이 아니라 시행착오와 보상 기능을 통해 학습한다는 점에서 비지도 학습과 다릅니다.



강화 학습은 분류 방법이 아니라 액션 러너이기 때문에 의사 레이블을 생성하거나 실측 정보에 대해 측정하지 않는다는 점에서 자기 지도 학습과 구분됩니다.

강화 학습을 사용하는 AI 에이전트는 환경 안에서 행동을 하고 결과를 관찰하여 전략을 적절하게 조정하는 시행착오 프로세스를 통해 작동합니다. 학습 프로세스에는 상태를 행동에 매핑하는 정책을 정의하고, 즉각적인 이익보다는 장기적인 누적 보상에 맞춰 최적화하는 작업이 수반됩니다.



시간이 지나면서 에이전트는 반복적인 상호 작용을 통해 의사 결정 기능을 개선하고 복잡한 작업을 효과적으로 수행하는 능력을 점진적으로 향상시킵니다. 이 방식은 사전 정의된 규칙이 성능 최적화를 위해 충분하지 않을 수 있는 동적 환경에서 유용합니다.

자율 주행 차량은 강화 학습을 사용하여 최적의 운전 행동을 학습합니다. AI는 시행착오를 통해 도로를 탐색하고, 장애물을 피하고, 실시간으로 운전 관련 결정을 내리는 능력을 향상시킵니다. AI 기반 챗봇은 사용자 상호작용을 통해 학습하고 응답을 최적화하여 참여를 강화함으로써 대화 능력을 향상시킵니다.

지속적인 학습

AI 에이전트에서 지속적 학습이란, 인공 지능 시스템이 학습하고 적응을 지속하면서 과거의 지식을 잊지 않고 새로운 데이터와 경험을 통합하는 능력을 말합니다.



일반적으로 고정된 데이터 세트를 훈련시키는 기존 머신 러닝과 달리, 지속적인 학습을 통해 AI가 새로운 정보나 환경 변화를 마주할 때 모델을 지속적으로 업데이트할 수 있습니다. 이렇게 하면 에이전트가 새로운 패턴, 진화하는 상황, 동적 조건에 적응하면서 실시간으로 성능을 개선할 수 있습니다.

데이터가 끊임없이 변화하고 AI가 새로운 인풋을 통해 항상 최신 상태를 유지해야 하는 실제 애플리케이션에서는 지속적인 학습이 중요합니다. 그래야 모델이 새로운 정보를 학습하면서 오래된 지식을 잊어버리는 '치명적인 망각'을 방지하고 시스템이 끊임없이 진화하는 작업과 과제들을 처리할 수 있습니다.

다중 에이전트 학습 및 협업

AI 에이전트의 이점 중 하나는 함께 일할 수 있다는 것입니다. 다중 에이전트 아키텍처에서 AI 에이전트는 협업과 경쟁을 통해 학습합니다. 협동 학습에서 에이전트들은 지식을 공유해서 공동 목표를 달성합니다. 군집 로봇이 그러한 예입니다.



그러나 금융 거래 AI 등에서는 에이전트들이 전략을 정교화할 때 적대적인 환경에서 경쟁을 벌이며 경쟁 학습을 하기도 합니다.

병원 네트워크에 존재하는 AI 에이전트 네트워크가 환자 치료를 개선하고, 워크플로를 간소화하며, 윤리적 요건을 준수하도록 장려하고, 리소스 할당을 최적화하기 위해 노력하고 있다고 상상해 봅시다.



이러한 다중 에이전트 프레임워크에서는 생성형 AI를 탑재한 고급 학습 에이전트가 단순 반사 에이전트 또는 목표 기반 에이전트를 감독하는 경우가 있습니다. 이 경우 각 에이전트는 의료 시스템 안에서 서로 다른 역할이나 작업을 맡으며, 서로 돕고 정보를 공유하여 치료 결과와 운영 효율성을 향상시킬 수 있습니다.