大規模言語モデル(LLM) から人工知能エージェント(AIエージェント)の統合への進化により、人工知能(AI)の環境は変化しました。現在は、マルチエージェント・システム(MAS)が、AIネイティブ製品とソフトウェア開発サービスのまったく新しい波をもたらしています。
生成AIを搭載した従来のLLMアプリケーションは、主に生産性の向上、質問への回答、情報の要約に重点を置いていました。しかし、エージェントの導入とAIエージェント通信機能により、調査、サポート、分析、オペレーションに伴う手作業を大幅に削減する自律的なワークフローを作成できるようになりました。現在、マルチエージェント・システムは、カスタマー・サービスのトリアージ、財務分析、技術的なトラブルシューティング、コンプライアンスの監視といった複雑な現実世界のタスクを処理し、スケーラブルで、自律的で、継続的に改善可能になっています。
分散システム内の複数の独立したエージェントが調整してアクションを起こし、それぞれがローカルな知識と意思決定能力を備えていることを、マルチエージェント・コラボレーションと呼びます。
マルチエージェント・コラボレーションでは、エージェントは確立された通信プロトコルを使用して連携し、状態情報を交換し、責任を割り当て、アクションを調整します。連携には通常、作業の分解、リソースの分配、競合の解決、共同の計画に関する方法が含まれます。メッセージの受け渡しによって明示的に行うことも、共有環境への変更によって暗黙的に行うこともできます。これらのシステムは、拡張性、フォールト・トレランス、新興の協力的動作を優先し、集中制御なしで動作できるように設計されています。例えを考えてみましょう。ドローンの一群が生存者や情報を求めて災害現場を探索しているとします。各ドローンは独自の経路を進み、他のドローンを回避し、発見したことを報告し、予期せぬ出来事が発生した場合には方向を変更します。このシナリオをマルチエージェント・コラボレーションと考えてください。各ドローンは単独で動作することも、まとまって動作することもある、アシスタントのようなものです。リーダーが単独で管理しなくても、協力して働き、互いに調整し、発見したことを共有します。このアプローチにより、自律的なエージェント群が協力的かつインテリジェントに、そして迅速に連携し、複雑な問題を解決します。
このコラボレーション・アーキテクチャーは、製品アーキテクチャーを再定義し、ほぼいつでも実行でき、増大する需要に適応し、手動介入なしで継続的に学習して最適化するさまざまなユースケースを生み出しています。エージェント自動化のプロセスは、特定のタスクを正確かつ自律的に処理するように設計された適応機能を備えた専門のエージェントによって実現されます。専門のAIエージェントがリアルタイムで連携し、新しいタイプのマルチエージェント・アプリケーションであるチャットボット(RAGフレームワークを使用)で、インテリジェントでカスタマイズされたエンドツーエンドのサービスを提供します。1
非常に複雑で分散していて、プライバシーの制約がある環境では特に、インテリジェント・システムを設計してデプロイする際に、複数のエージェント間で連携することが重要です。マルチエージェント・コラボレーションは、他のエージェント・アーキテクチャーのタイプ、特にシングル・エージェント・システムと比べて、構造上、計算上、運用上の数多くのメリットをもたらします。これは、元々複数の異なるレベルのプライバシーが設定されている、複雑で分散型のリアルタイム・システムで特に当てはまります。マルチエージェント・システム(MAS)は、分散された自律的なエージェントが連携して、集合的または相互依存の目標を達成することを可能にし、制約のあるシングル・エージェント・システムの構造上の限界の一部を克服するのに役立ちます。たとえば、限られた程度までしか拡張できないモノリシックなシングル・エージェント・システムや、レイテンシーや機能の一般性に制限があるものなどです。各エージェントは自律性のレベルを維持し、ローカル計算を完了し、通信プロトコルを使用して他のエージェントと連携し、環境に関する部分的な知識を共有し、意思決定でコラボレーションし、分散制御戦略を調整します。モジュール式の拡張性を維持できるため、動的な環境でリアルタイムに適応型の動作を実現しながら、新しいエージェントやサブシステムをシームレスに統合できます。たとえば、スマート医療システムでは、エージェントのサブセットまたはすべてのエージェントにドメイン固有の割り当てがある場合があります。生理学的な信号の監視、異常の特定、治療法の推奨、ポリシーに従った患者を特定できるデータの管理などです。また、プロセス全体で継続性、精度、フォールト・トレランスも実現します。エージェント間で計算を正規化する機能により、エージェント間でパラメーター化が共有されて計算効率が向上し、集中計算への依存がなくなります。2
マルチエージェント・システムがどのように機能するかを理解するために、協力的なプロセスをうまく調整された一連のステップに分解します。各ステップでは、独立した個人がどのようにやり取りし、割り当てを行い、協力して困難なタスクを達成するかについて強調しています。
エージェントは、各エージェントが5つの重要な要素を持つインテリジェントなコンポーネントである構造化されたチャネルを通じてコラボレーションと調整を行います。
a.基盤モデル(𝑚): この要素はエージェントの主な推論エンジンであり、自然言語の生成と理解を可能にします。
b. 目的(o): エージェントが集中して行う目標やタスクは、目的(𝑜)によって定義されます。
c. 環境(𝑒): この要素は、エージェントが機能する状況を示します。これには、他のエージェント、ツール、共有メモリー、またはアプリケーション・プログラミング・インターフェース(API)が含まれる場合があります。
d.エージェントが環境や他のエージェントから受け取る情報は、インプット認識(𝑥)と呼ばれています。
e. アウトプットまたはアクション(𝑦): 現在の目標と推論の方向に照らしたエージェントの行動または応答。
コラボレーションは、複数のAIエージェントがチームとして連携してタスクを達成するときに発生します。コラボレーション・フェーズにおいて、システムはユーザーまたは環境からタスクを受け取ります。システムは、どのエージェントが必要で、どのような役割を果たすかを決定します。
このシステムは、複雑な問題を管理可能な部分に分割します。これは、プランナーまたは推論機能を備えた言語モデルによって実現されます。通信は、共有メモリーまたは中間出力を介して行われます。割り当てられたタスクは、エージェントによって同時に、順番に、または動的に実行されます。
さまざまなエージェントの結果をまとめ、重要な応答を作成します。オーケストレーターまたは最終エージェントは、アクションを開始するか、ユーザーに完全な応答を提供します。3
エージェントは、共有された目標に対してどのように対話し、調整し、貢献するかを決定する戦略を使用して他のエージェントとコラボレーションします。コラボレーション戦略には次のようなものがあります。
- ルールベースのコラボレーション:
このコラボレーション・タイプでは、エージェント間のやり取りは、特定のルールまたはガイドラインに基づいて厳密に制御されます。これらのルールは、エージェントがどのように行動し、通信し、予測可能な方法を選択するかを規定します。エージェントは特定の条件やインプットに基づいて設定されたポリシーを遵守するため、学習または適応の範囲は制限されます。この方法は、多くの場合、if-thenステートメント、ステート・マシン、またはロジック・ベースのフレームワークを使用して実行されます。このコラボレーションは、一貫性を維持することが重要な、高度に構造化されたタスクや予測可能なタスクに最適です。
長所と短所: このアプローチは効率と公平性に優れていますが、特に急速に変化する状況や複雑な状況では適応性と拡張性の点で苦労します。
- 役割ベースのコラボレーション:
このアプローチでは、エージェントには、明確な組織またはコミュニケーションのフレームワークに沿った特定の役割または責任が与えられます。各役割には独自の機能、権限、目標があり、多くの場合、システム全体の目標のさまざまな部分にリンクされています。エージェントはそれぞれの役割の中で半独立で作業しますが、互いに情報を調整して共有することで、全体像の一部を形成します。この概念は、個人がリーダー、観察者、実行者などのさまざまな役割を担う人間のチーム・ダイナミクスからインスピレーションを得ています。タスクを細分化し、モジュール・システムを設計し、多様な専門知識を持つエージェントが効果的にコラボレーションできるようにするうえで、特に有益です。
長所と短所: モジュール式で専門家主導のコラボレーションが可能ですが、柔軟性とエージェントの統合への依存により課題に直面する可能性があります。
- モデル・ベースのコラボレーション:
このタイプのコラボレーションでは、エージェントは自分の状態、周りの環境、他のエージェント、および全員が目指している共通の目標を理解するための内部モデルを作成します。これらのモデルは通常、確率的または学習的であり、不確実な場合でもエージェントが行動を計画するのに役立ちます。そのやり取りは、信念の更新、推論、結果の予測に依存しているため、戦略が柔軟になり、コンテキストを認識できるようになります。よく使用される一般的な方法には、ベイズ推論、マルコフ決定過程(MDP)、さまざまな機械学習モデルなどがあります。このアプローチは、完全な可視性がないエージェントが未知の要因について考えたり、変化に適応したり、協力したりする必要がある状況で特に役立ちます。
長所と短所: このアプローチは優れた柔軟性と確実な意思決定能力を提供しますが、かなりのレベルで複雑化し、多大な計算コストを伴います。4
いくつかのよく知られたフレームワークが開発されており、それぞれが独自の方法を用いて、実際のアプリケーションでエージェントが効果的に連携できるようにしています。一般的に使用されているフレームワークを見てみましょう。
1. IBM Beeエージェント・フレームワーク: マルチエージェントのスケーラブルなプロセスの開発と管理を容易にするオープンソースのアプリケーションです。IBM® Granite、gpt-4、Llama 3などの大規模なLLMを使用して、複数のAIエージェントがコラボレーションして困難なタスクを達成するアプリケーションの基盤を確立します。エージェント、ツール、メモリー管理、モニタリング用のすぐに使用できるコンポーネントを備えたこのフレームワークは、モジュール式設計が特徴です。エージェント状態の直列化は、その最も注目すべき特性の1つです。この機能により、データを消去することなく、複雑な手順を停止したり再開したりできます。実稼働レベルの制御、拡張性、モジュール性に重点を置くことで、幅広いアプリケーション向けの洗練されたマルチエージェント・システムを作成でき、マルチエージェント・オーケストレーションのさらなる進歩も計画されています。
2. LangChainエージェント: LangChainは、強力なエージェント・ベースのアーキテクチャーを重視した言語モデル駆動型アプリケーションを構築するための堅固なフレームワークです。このオプションは、エージェントが環境を認識し、利用できるさまざまなツールを使用して情報を収集し、解釈し、行動できることを意味します。LangChain自体の内部では、開発者が多くのツールや統合にアクセスでき、エージェントが複雑な推論、動的な意思決定、タスクの達成を容易に行えるように設計されています。LangChainを使用すると、開発者は大規模言語モデル(LLM)の最高の機能を活用してインテリジェントなシステムを開発し、コンテキストに応じた質問応答、マルチステップのワークフロー、自然言語生成などの高度なタスクを完了できます。
3. OpenAI Swarmフレームワーク: この構造は、ルーチンとハンドオフの観点から複数のエージェントを調整する新しい方法を示します。1つのエージェントが独立して動作するのではなく、各エージェントをカスタム・ツールやカスタマイズされた指示で動作する専門ユニットと見なすことができます。既存のタスクや会話をあるエージェントから別のエージェントに転送することで、各エージェントが特定の役割に特化しているスムーズなユーザー・エクスペリエンスが実現します。このアプローチにより、最終的には、システム全体の効率性、モジュール性、応答性が向上します。Swarm(群れ)という用語に、軽量に調整できることやタスクを効果的に実行できることが強調されており、現実世界のタスクで大規模にデプロイできます。5
Watsonx Orchestrate®は、 AI対応ワークフローをオーケストレーションするために連携して動作する相互接続されたコンポーネントのコレクションを使用することで、マルチエージェントのコラボレーションを簡単に実現します。スキルは、Eメールの送信やデータのクエリーなど、特定のタスクを実行する独立したエージェントであり、機能とメタデータを概説したスキル・レジストリーに記述・登録されています。ユーザーが要求を送信すると、インテント・パーサーが自然言語処理(NLP)を使用してユーザーのインプットを読み取り、スキルに関連付けます。
フロー・オーケストレーターは、タスクの順序付け、分岐、エラー、再試行などの実行ロジックとフローを提供し、エージェントが必要な順序で実行され、失敗したステップを再試行できるようにします。フロー・オーケストレーターでは、必要に応じてエージェントを同時に実行できます。共有コンテキストとメモリー・ストアは、データ、中間出力、意思決定を1つのスペースに保管するための共通スペースを提供するため、エージェントが互いに認識し、ワークフロー中の継続性を維持できるようになります。LLMアシスタントは、大規模言語モデルを使用して、推論や変化するコンテキストのナビゲートを支援し、コラボレーションしながら知識のギャップを埋めます。
ヒューマン・インターフェイスを使用すると、ユーザーがフローを確認し、関与したい場合はエージェント・ワークフローを管理できます。コンポーネントはマルチエージェントのコラボレーションをサポートし、Watsonx Orchestrateが複雑でマルチエージェントのワークフローを独立して管理しながら、人間が介入できるようにします。6
創発的な集合知: 自律エージェントがガードレールを備え、明確に定義されたコラボレーション・フレームワークを通じて連携し、整合性、安全性、タスクとの関連性を確保するにつれて、シングル・エージェントの個々の機能を超えたインテリジェントな動作が見られるようになります。精度、関連性、効率性、説明可能性、システム全体の一貫性は、これらのシステムの有効性を継続的に評価して改善するために使用できる多面的なメトリクスの一部です。
集合知により、これらのシステムは、分散推論とタスクの分解を使用して複雑で多次元の問題を解決する能力を獲得し、その結果、複数ステップのワークフローの自動化、意思決定、オーケストレーションが可能になります。
開発者が、IBM watsonx.aiを使用してAIエージェントの構築、デプロイ、および監視を行えるようにします。
業界で最も包括的な機能セットの1つを使用して、企業がAIエージェントとアシスタントを構築、カスタマイズ、管理できるようにすることで、生産性を飛躍的に向上させます。
開発者の効率性を考慮したGraniteの小型オープンモデルで、コストを90%以上削減します。エンタープライズ対応モデルは、安全性ベンチマークに対して、さらにサイバーセキュリティーからRAGまでの幅広い企業タスクに対して優れたパフォーマンスを発揮します。
1 Tran, K.-T., Dao, D., Nguyen, M.-D 他(2025年1月10日)。Multi-Agent Collaboration Mechanisms: A Survey of LLMs(マルチエージェント・コラボレーション・メカニズム: LLMの調査)。arXiv:https://arxiv.org/abs/2501.06322
2 Han, S., Zhang, Q., Yao, Y., Jin, W.,およびXu, Z.(2024)。LLM Multi-Agent Systems: Challenges and Open Problems(LLMマルチエージェント・システム: 課題と未解決の問題)。arXiv:https://arxiv.org/abs/2402.03578
3 Jennings, N.R., Wooldridge, M.(1996)。Intelligent agents: Theory and practice(インテリジェント・エージェント: 理論と実践)。The Knowledge Engineering Review、10(2)、115–152。https://www.cambridge.org/core/journals/knowledge-engineering-review/article/abs/intelligent-agents-theory-and-practice/CF2A6AAEEA1DBD486EF019F6217F1597
4 Wang, Jialin, Zhihua Duan、「Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models(LangGraphを使用したエージェントAI: 大規模言語モデルを使用して機械翻訳を強化するためのモジュラー・フレームワーク)」CoRR、abs/2412.03801、2024年12月5日。arXiv: 2412.03801
5 Framework for evaluating LLM-based agents(LLMベースのエージェントを評価するためのフレームワーク)、https://github.com/vladfeigin/llm-agents-evaluation
6 Gomez-Sanz, J. J., & Pavón, J.(2004)。Methodologies for developing multi-agent systems(マルチエージェント・システム開発のための方法論)。Journal of Universal Computer Science、10(4)、404〜426。