대규모 언어 모델(LLM)에서 인공 지능 에이전트(AI 에이전트) 통합으로의 진화는 인공 지능(AI) 환경을 변화시켰습니다. 이제 다중 에이전트 시스템(MAS)은 완전히 새로운 AI 네이티브 제품 및 소프트웨어 개발 서비스의 물결을 이끌고 있습니다.
생성형 AI(Gen AI)를 기반으로 한 기존 LLM 애플리케이션은 주로 생산성 향상, 질문에 대한 답변, 정보 요약에 중점을 두었습니다. 하지만 에이전트의 도입과 AI 에이전트 의사소통 기능의 등장으로 연구, 지원, 분석 및 운영과 관련된 수작업을 크게 줄일 수 있는 워크플로를 구축할 수 있게 되었습니다. 이제 다중 에이전트 시스템은 고객 서비스 분류, 재무 분석, 기술 문제 해결 및 규정 준수 모니터링과 같은 복잡한 실제 작업을 처리하며 확장가능하고 자율적이며 지속적으로 개선 가능한 시스템으로 발전했습니다.
분산 시스템에서 각각 지역적 지식과 의사 결정 역량을 갖춘 여러 독립적인 에이전트의 협력적인 행동을 다중 에이전트 협업이라고 합니다.
다중 에이전트 협업에서 에이전트는 확립된 통신 프로토콜을 사용하여 상태 정보를 교환하고 책임을 할당하며 작업을 조정함으로써 협력합니다. 협력에는 일반적으로 작업 분해, 자원 분배, 갈등 해결 및 협력 계획 방법이 포함됩니다. 메시지 전달을 통해 명시적이거나 공유 환경에 대한 수정을 통해 암시적으로 이루어질 수 있습니다. 이러한 시스템은 중앙 집중식 제어 없이 작동하도록 설계에서 확장성, 내결함성 및 긴급 협력 행동을 우선시합니다. 드론 함대가 생존자나 정보를 찾기 위해 재난 현장을 수색하고 있다고 가정해 보겠습니다. 각 드론은 고유한 경로를 따라 이동하고, 다른 드론을 피하며, 발견한 내용을 보고하고, 예상치 못한 사건이 발생할 경우 방향을 변경합니다. 이 시나리오를 다중 에이전트 협업으로 생각하면 모든 드론은 어시스턴트와 같은 의미에서 단독으로 작동할 뿐만 아니라 집단적으로 작동합니다. 하나의 리더가 모두를 관리하지 않고 함께 작업하며, 서로 조정하고, 자신이 보는 것을 공유합니다. 이러한 접근 방식은 자율적인 에이전트 무리가 복잡한 문제를 해결하기 위해 지능적이고 신속하게 협력하는 방법입니다.
이 협업 아키텍처는 제품 아키텍처를 재정의하여 거의 언제든지 실행되고, 증가하는 수요에 적응하며, 수동 개입 없이 지속적으로 학습하고 최적화하는 다양한 사용 사례를 창출합니다. 에이전틱 자동화 프로세스는 적응 기능을 갖추고 있어 정밀성과 자율성으로 특정 작업을 처리하도록 설계된 전문 에이전트를 통해 가능합니다. 전문 AI 에이전트가 실시간으로 협력하여 새로운 유형의 다중 에이전트 애플리케이션인 챗봇(래그 프레임워크 사용)에서 지능형 맞춤형 엔드투엔드 서비스를제공합니다.1
다중 에이전트 간의 협력은 지능형 시스템을 설계하고 배포할 때 중요한 요구 사항으로, 특히 매우 복잡하고 분산되어 있으며 개인 정보 제약이 있는 환경에서 더욱 그렇습니다. 다중 에이전트 협업은 다른 에이전틱 아키텍처 유형, 특히 단일 에이전트 시스템과 비교해 수많은 아키텍처적, 계산적, 운영상의 이점을 제공합니다. 이는 여러 수준의 개인 정보 보호가 내재되어 있는 복잡한 분산 실시간 시스템에서 특히 그렇습니다. 다중 에이전트 시스템(MAS)을 사용하면 분산된 자율 에이전트가 함께 작업하여 공동의 목표나 상호 의존적인 목표를 달성할 수 있으므로 제한된 단일 에이전트 시스템의 일부 구조적 한계를 극복하는 데 도움이 됩니다. 예를 들어, 단일 에이전트 시스템으로 구성된 모놀리식 시스템은 확장성이 제한적이며 지연 시간이나 기능적 일반성에 한계가 있습니다. 각 에이전트는 일정 수준의 자율성을 유지하며, 로컬 계산을 완료하고, 통신 프로토콜을 사용하여 다른 에이전트와 협력하여 환경에 대한 부분적인 지식을 공유하며, 의사 결정에 협력하고, 분산 제어 전략을 조정합니다. 모듈식 확장성을 유지하는 기능을 통해 새로운 에이전트 또는 하위 시스템을 원활하게 통합하는 동시에 동적 환경에서 실시간으로 적응형 동작을 제공할 수 있습니다. 예를 들어, 스마트 의료 시스템에서 에이전트의 하위 집합 또는 모든 에이전트에 생리적 신호 모니터링, 이상 식별, 치료법 권장 및 정책에 따라 환자 식별 가능한 데이터 관리 등 의료 분야에 특화된 작업이 할당될 수 있습니다. 또한 이들의 협력을 통해 전체 프로세스에서 연속성, 정확성 및 내결함성이 가능합니다. 에이전트 간에 계산을 정규화하는 기능은 에이전트 간에 매개변수화를 공유하여 계산 효율성을 높이고 중앙 집중식 계산에 대한 의존성을 제거합니다.2
다중 에이전트 시스템이 어떻게 작동하는지 이해하기 위해 협력 프로세스를 잘 조정된 일련의 단계로 분석해 보겠습니다. 각 단계는 독립적인 개체들이 어려운 작업을 수행하기 위해 상호 작용하고, 할당하며, 함께 작업하는 방법에 초점을 맞춥니다.
에이전트는 구조화된 채널을 통해 협업하고 조정하며, 이 채널에서 각 에이전트는 5가지 핵심 요소를 갖춘 지능형 구성 요소입니다.
a. 파운데이션 모델(𝑚): 이 요소는 에이전트의 주요 추론 엔진으로, 자연어를 생성하고 이해할 수 있습니다.
b. 목표(o): 에이전트가 집중하고 있는 목표 또는 작업은 목표(𝑜)에 의해 정의됩니다.
c. 환경(𝑒): 이 요소는 에이전트가 기능하는 상황을 나타냅니다. 여기에는 다른 에이전트, 도구, 공유 메모리 또는 애플리케이션 프로그래밍 인터페이스(API)가 포함될 수 있습니다.
d. 에이전트가 주변 환경이나 다른 에이전트로부터 받는 정보를 입력 인식(𝑥)이라고 합니다.
e. 아웃풋 또는 행동(𝑦): 현재 목표와 추론 방향에 따른 에이전트의 행동이나 반응입니다.
협업은 여러 AI 에이전트가 팀으로 협력하여 작업을 수행할 때 발생합니다. 협업 단계에서 시스템은 사용자 또는 환경으로부터 작업을 수신합니다. 시스템은 어떤 에이전트가 필요하고 해당 에이전트가 어떤 역할을 수행할 것인지 결정합니다.
이 시스템은 복잡한 문제를 관리 가능한 부분으로 나눕니다. 이는 플래너 또는 추론 기능이 있는 언어 모델에 의해 달성됩니다. 의사소통은 공유 메모리 또는 중간 아웃풋을 통해 이루어집니다. 할당된 작업은 에이전트가 동시에, 순차적 또는 동적으로 수행합니다.
다양한 에이전트의 결과를 취합하여 중요한 답변을 생성합니다. 오케스트레이터나 최종 에이전트가 작업을 시작하거나 사용자에게 최종 답변을 제공합니다.3
에이전트는 상호 작용하고 조정하며 공통 목표에 기여하는 방법을 결정하는 다양한 전략을 사용하여 다른 에이전트와 협력합니다. 다양한 협업 전략에는 다음이 포함됩니다.
- 규칙 기반 협업:
이 협업 유형에서 에이전트 간의 상호 작용은 특정 규칙 또는 지침 집합에 의해 엄격하게 제어됩니다. 이러한 규칙은 에이전트가 예측 가능한 방식으로 행동하고, 의사 소통하며, 선택하는 방법을 규정합니다. 에이전트가 특정 조건이나 입력에 따라 설정된 정책을 고수하기 때문에 학습 또는 적응의 범위가 제한됩니다. 이 방법은 종종 if-then 문, 상태 머신 또는 논리 기반 프레임워크를 사용하여 수행됩니다. 이러한 협업은 일관성을 유지하는 것이 중요하며, 고도로 구조화되거나 예측 가능한 작업에 가장 적합합니다.
장단점: 이 접근 방식은 매우 효율적이며 공정하지만, 특히 빠르게 변화하거나 복잡한 상황에서는 적응성과 확장성에 어려움을 겪습니다.
- 역할 기반 협업:
이 접근 방식에서는 에이전트에게 명확한 조직 프레임워크 또는 커뮤니케이션 프레임워크에 부합하는 특정 역할이나 책임이 부여됩니다. 각 역할은 자체적인 기능, 권한 및 목표를 갖추고 있으며, 이는 종종 전체 시스템 목표의 다양한 부분과 연결되어 있습니다. 에이전트는 지정된 역할 내에서 반독립적으로 작업하지만 서로 정보를 조정하고 공유함으로써 전체적인 상황에서 중요한 역할을 합니다. 이 개념은 인간 팀의 역학 관계에서 영감을 얻었으며, 여기서 개별 에이전트는 리더, 관찰자 또는 실행자 등 다양한 역할을 맡습니다. 이는 작업을 세분화하고, 모듈식 시스템을 설계하며, 다양한 전문 지식을 갖춘 에이전트들이 효과적으로 협업할 수 있도록 하는 데 특히 유용합니다.
장단점: 모듈식 전문가 중심 협업이 가능하지만, 유연성과 통합에 대한 의존성 측면에서 문제에 직면할 수 있습니다.
- 모델 기반 협업:
이러한 유형의 협업에서 에이전트는 자신의 상태, 주변 환경, 다른 상담원 및 모두가 노력하고 있는 공통 목표를 이해하기 위해 내부 모델을 생성합니다. 이러한 모델은 일반적으로 확률적이거나 학습되므로, 상황이 불확실할 때에도 에이전트가 행동을 계획하는 데 도움이 됩니다. 에이전트의 상호 작용은 신념을 업데이트하고, 추론하며, 결과를 예측하는 데 의존하며, 이를 통해 전략은 유연하고 맥락을 인식할 수 있습니다. 여기에서 사용하는 몇 가지 일반적인 방법에는 베이지안 추론, 마르코프 의사 결정 프로세스(MDP) 및 다양한 머신 러닝 모델이 포함됩니다. 이 접근 방식은 에이전트가 알려지지 않은 요인에 대해 생각하거나, 변화에 적응하거나, 완전한 가시성 없이 협력해야 하는 상황에서 특히 유용합니다.
장단점: 이 접근 방식은 뛰어난 유연성과 강력한 의사 결정 기능을 제공하지만 상당한 수준의 복잡성과 막대한 계산 비용이 발생합니다.4
여러 잘 알려진 프레임워크가 개발되고 있으며, 각 프레임워크는 에이전트가 실제 애플리케이션에서 효과적으로 협력할 수 있도록 고유한 방법을 사용하고 있습니다. 일반적으로 사용되는 프레임워크를 살펴보겠습니다.
1. IBM® Bee Agent 프레임워크: 확장가능한 다중 에이전트 프로세스의 개발 및 관리를 용이하게 하는 오픈 소스 애플리케이션입니다. IBM® Granite, gpt-4 및 Llama 3와 같은 대규모 LLM을 사용하여, 여러 AI 에이전트가 협업하여 까다로운 작업을 수행하는 애플리케이션의 기반을 구축합니다. 이 프레임워크는 에이전트, 도구, 메모리 관리, 모니터링 등을 위해 즉시 사용할 수 있는 구성 요소를 통한 모듈식 설계를 자랑합니다. 에이전트 상태 직렬화는 가장 눈에 띄는 특징 중 하나입니다. 이 기능을 통해 데이터를 지우지 않고도 복잡한 절차를 중지 및 재개할 수 있습니다. 프로덕션 수준 제어, 확장성, 모듈성에 중점을 둔 이 시스템은 다양한 애플리케이션을 위한 정교한 멀티 에이전트 시스템을 만들 수 있으며, 다중 에이전트 오케스트레이션을 더욱 발전시킬 계획입니다.
2. LangChain 에이전트: LangChain은 강력한 에이전트 기반 아키텍처를 강조하는 언어 모델 기반 애플리케이션을 구축하기 위한 견고한 프레임워크입니다. 이 옵션은 에이전트가 환경을 인식하고 정보를 수집하고 해석하고 행동하는 데 사용할 수 있는 많은 도구를 사용할 수 있음을 의미합니다. 개발자는 LangChain 자체 내에서 에이전트가 복잡한 추론, 역동적인 의사 결정 및 작업 달성을 더 쉽게 수행할 수 있도록 다양한 도구 및 통합에 액세스할 수 있습니다. LangChain을 통해 개발자는 지능형 시스템을 개발할 때 대규모 언어 모델(LLM)의 최고 기능을 활용하여 맥락에 맞는 질문 답변, 다단계 워크플로 및 자연어 생성과 같은 정교한 작업을 수행할 수 있습니다.
3. OpenAI Swarm 프레임워크: 이 구조는 루틴 및 핸드오프 측면에서 여러 에이전트를 조정하는 새로운 방법을 제시합니다. 하나의 에이전트가 독립적으로 행동하는 대신 각 에이전트가 맞춤형 도구와 맞춤형 방향으로 작업하는 전문 단위로 간주될 수 있습니다. 기존 작업이나 대화를 한 에이전트에서 다른 에이전트로 전송하면 각 에이전트가 특정 역할에 특화되어 있는 환경에서 원활한 사용자 경험을 제공할 수 있습니다. 이 접근 방식은 궁극적으로 시스템 전체의 전반적인 효율성, 모듈성, 응답성을 향상시킵니다. Swarm이라는 용어는 가벼운 수준의 협력과 효과적인 작업 수행을 강조하여 실제 작업에 더 큰 규모로 적용될 수 있도록 합니다.5
watsonx Orchestrate를 사용하면 AI 지원 워크플로를 오케스트레이션하기 위해 함께 작동하는 상호 연결된 구성 요소 집합을 사용하여 다중 에이전트 협업을 쉽게 수행할 수 있습니다. 스킬은 이메일 전송 또는 데이터 쿼리와 같은 특정 작업을 실행하는 독립적인 에이전트로, 기능과 메타데이터를 설명하는 스킬 레지스트리에 설명되고 등록됩니다. 사용자가 요청을 제출하면 인텐트 파서(Intent Parser)가 자연어 처리(NLP)를 사용하여 사용자의 입력을 읽고 이를 스킬과 연결합니다.
플로 오케스트레이터(Flow Orchestrator)는 작업 순서 지정, 분기, 오류 및 재시도를 포함한 실행 논리 및 흐름을 제공하여 에이전트가 필요한 순서대로 실행되고 실패한 단계를 다시 시도할 수 있도록 합니다. 플로 오케스트레이터를 사용하면 필요할 때 에이전트를 동시에 실행할 수 있습니다. 공유 컨텍스트(Shared Context) 및 메모리 저장소(Memory Store)는 데이터, 중간 아웃풋, 의사 결정을 한 공간에 저장할 수 있는 공통 공간을 제공하여 에이전트가 서로를 인식하고 워크플로 중에 연속성을 유지할 수 있도록 합니다. LLM 어시스턴트는 대규모 언어 모델을 사용하여 추론, 변화하는 맥락 탐색을 돕고 협업하는 동안 지식 격차를 메웁니다.
휴먼 인터페이스(Human Interface)는 사용자가 참여하려는 경우 흐름을 보고 에이전트 워크플로를 관리할 수 있도록 합니다. 이 구성 요소는 다중 에이전트 협업을 지원하여 watsonx Orchestrate가 복잡한 다중 에이전트 워크플로를 독립적으로 관리하는 동시에 사람이 개입할 수 있도록 합니다.6
창발적 집단 지성: 자율 에이전트가 정렬, 안전, 작업 관련성을 보장하도록 지원하는 가드레일이 포함되며 잘 정의된 협업 프레임워크를 통해 함께 작업함에 따라 단일 에이전트의 개별 능력을 능가하는 지능형 행동이 나타나기 시작했습니다. 정확성, 관련성, 효율성, 설명 가능성, 전반적인 시스템 일관성은 이러한 시스템의 효율성을 지속적으로 평가하고 개선하는 데 사용할 수 있는 다면적인 지표 중 일부입니다.
집단 지성은 이러한 시스템에 분산 추론과 자동화, 의사 결정, 다단계 워크플로의 오케스트레이션을 통한 작업 분해를 통해 복잡하고 다차원적인 문제를 해결할 수 있는 능력을 부여합니다.
IBM watsonx.ai 스튜디오를 사용하여 개발자가 AI 에이전트를 구축, 배포 및 모니터링할 수 있도록 지원합니다.
기업이 AI 에이전트 및 어시스턴트를 구축, 사용자 지정, 관리할 수 있도록 지원하며, 업계에서 가장 포괄적인 기능 세트 중 하나를 사용하여 획기적인 생산성을 창출하세요.
개발자 효율성을 높이는 Granite의 소형 개방형 모델을 사용하여 90% 이상의 비용 절감을 달성하세요. 이러한 엔터프라이즈급 모델은 사이버 보안부터 RAG까지 광범위한 엔터프라이즈 작업과 안전 벤치마크에 대해 탁월한 성능을 제공합니다.
1 Tran, K.-T., Dao, D., Nguyen, M.-D 외(2025년 1월 10일). Multi-Agent Collaboration Mechanisms: A Survey of LLMs. arXiv. https://arxiv.org/abs/2501.06322
2 Han, S., Zhang, Q., Yao, Y., Jin, W., & Xu, Z.(2024년). LLM Multi-Agent Systems: Challenges and Open Problems. arXiv. https://arxiv.org/abs/2402.03578
3 Jennings, NR, & Wooldridge, M.(1996년). Intelligent agents: Theory and practice. The Knowledge Engineering Review, 10(2), 115–152. https://www.cambridge.org/core/journals/knowledge-engineering-review/article/abs/intelligent-agents-theory-and-practice/CF2A6AAEEA1DBD486EF019F6217F1597
4 Wang, Jialin, Zhihua Duan, “Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models.” CoRR, abs/2412.03801, 2024년 12월 5일. arXiv:2412.03801
5 Framework for evaluating LLM-based agents, https://github.com/vladfeigin/llm-agents-evaluation
6 Gomez-Sanz, JJ, & Pavón, J.(2004년). Methodologies for developing multi-agent systems. Journal of Universal Computer Science, 10(4), 404–426.