エージェント・アーキテクチャーとは

執筆者

Vanna Winland

AI Advocate & Technology Writer

Jess Bozorg

Lead, AI Advocacy

IBM

Cole Stryker

Staff Editor, AI Models

IBM Think

エージェント型アーキテクチャーとは

エージェント・アーキテクチャーとは、エージェント型人工知能（AI）フレームワークの構造と設計を指します。エージェント・アーキテクチャーは、エージェント型AIシステム内のAIモデルを自動化するための仮想空間とワークフロー構造を形成します。

エージェント型AIは、AIエージェントを使用してユーザーまたは別のシステムに代わってタスクを自律的に実行するシステムまたはプログラムです。エージェントアーキテクチャーは、生成AIシステム内で動作するAI搭載エージェントの動作をサポートおよび規制するために機能します。エージェント型AIシステムにおけるエージェントは、適応力があり、望ましい結果を達成するために動的な環境をナビゲートできる能力が必要です。

このモデルは人間の心理とそれほど変わらず、エージェンシーとは、自分の行動に基づいて意図的に何かを実現させる能力を指します¹。望ましい結果を達成するには、計画、行動、記憶、考察を活用する必要があります。これらの特性は、単一エージェントとマルチエージェントの両方のフレームワークで使用される最新のAIエージェントの特徴と一致します。

OpenAIのGPTなどの機械学習（ML）アルゴリズムと大規模言語モデル（LLM）の進歩がAIエージェントの開発を推進してきました。エージェント・アーキテクチャーの目的は、LLMが複雑なタスクを完了するためにエージェントを自動化するための構造を提供することです。

AIエージェントの自律的な行動や意思決定的な行動は、それを可能にするインフラストラクチャーに依存します。エージェント・アーキテクチャーは、動的な環境に適応するように設計されており、相互運用性を向上させます。

例えば、エージェントはさまざまなデータ・ソースや形式、アプリケーション・プログラミング・インターフェース（API）またはシステムと連携できます。この適応可能な行動により、エージェントは情報に基づいた意思決定を行うことができます。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

エージェント型アーキテクチャーのしくみ

エージェント型AIアーキテクチャーは、意図性（計画性）、先見性、自己反応性、自己反省性といったエージェンシーの中核要素に対応する構成要素で構成する必要があります²。これらの要素により、AIエージェントは自律性が得られるため、目標設定、計画、性能の監視、特定の目標の達成に向けた反映が可能になります。

エージェント・テクノロジーは、バックエンド・ツールの呼び出しを使用して最新の情報を収集し、複雑なワークフローの最適化を実行し、複雑な目標を達成するためのタスクを自動的に生成します。

動作するにつれて、自律型エージェントは時間の経過とともにユーザーの好みに適応し、よりパーソナライズされたエクスペリエンスを提供し、より詳細な応答を提供します。このツール呼び出しプロセスは人間のインプットなしで実行できるため、現実世界にAIを応用できる可能性が広がります。

AIエージェント

AIエージェントの5つのタイプ：自律機能と実世界アプリケーション

目標主導型でユーティリティーベースのAIがワークフローや複雑な環境にどのように適応するかをご覧ください。

AIエージェントを構築、展開、監視

エージェント型と非エージェント型の比較

エージェント・アーキテクチャーは、AIエージェントにおけるエージェントの動作をサポートします。AIエージェントは、外部環境と対話し、ツールを使用して特定の目標を達成することができる機械学習モデルを用いた適応性のあるシステムです。すべてのAIエージェントがエージェント型であるわけではありません。オーケストレーション・フレームワークまたはシステムの複雑さと機能に依存します。

エージェント・アーキテクチャーにより、AIエージェントはある程度の自律性を持って行動し、人間による継続的なインプットを必要とせずに目標に基づいて意思決定を行うことができます³。自律型AIエージェントは、特定のタスクを完了するために人間の介入をほとんど、またはまったく必要としません。

非エージェント・アーキテクチャーでは、LLMは単一または線形のタスクを実行できます⁴。非生成アーキテクチャーにおけるAIモデルの機能は、インプットとコンテキストに基づいてアウトプットを提供することです。

明示的なオーケストレーションがなければ、LLMは新しい情報をリアルタイムで保持できず、コンテキストが限られているため、複雑な問題で苦労することがよくあります。例えば、複雑なエージェント・ワークフローを必要としない一般的なAIアプリケーションには、意味構造分析、チャットボット、テキスト生成などがあります。

理想的なエージェント・アーキテクチャーは、アプリケーションとユースケースの要件によって異なります。単一エージェント・システムは、焦点を絞った特定の問題に対処することに優れており、基本的には個々の問題解決のソルバーとして機能します。

ただし、一部の課題では専門エージェントの独自の専門知識が必要な場合もあれば、複数のエージェントがチームとして協力するアプローチが有効な場合もあります。

エージェント型アーキテクチャーの種類

この表では、垂直型、水平型、ハイブリッド型のさまざまなAIエージェント・アーキテクチャー・システム・タイプを明確に比較しています。構造や主要な機能、強み、弱み、最適なユースケースを浮き彫りにし、さまざまなタスクに最適なアプローチを決定するのに役立ちます。

シングルエージェント・アーキテクチャー

シングルエージェント・アーキテクチャーは、環境内で集中的な意思決定を行う単一の自律型エンティティーを主要な機能としています。

構造
- シングルエージェント・アーキテクチャーは、単一のAIエージェントが独立して動作し、環境を認識し、決断を下し、目標を達成するためのアクションを実行するシステムです。
主要な機能
- 自律性：エージェントは他のエージェントと対話することなく、独立して動作します。
強み
- 簡易性：マルチエージェント・システムと比較して、設計、開発、デプロイが容易です。複数のエージェントや通信プロトコルを管理する必要がないため、必要なリソースが少なくて済みます。
- 予測可能性：エージェントが独立して動作するため、デバッグや監視が容易です。
- 速度：複数のエージェント間での交渉や合意形成が不要です。
- コスト：複雑なマルチエージェント・アーキテクチャーと比較して、維持管理や更新のコストが低額です。エンタープライズ・アプリケーションにデプロイした場合の統合の課題が少なくなります。
弱点
- 拡張性の制約：大量のタスクや複雑なタスクを処理する場合、シングル・エージェントがボトルネックになる可能性があります。
- 厳格性：複数ステップのワークフローや、異なるドメイン間の調整が必要なタスクを苦手としています。
- 特化型：通常、特定の機能またはドメイン向けに設計されます。
最適なユースケース
- シンプルなチャットボット：チャットボットは独立して動作し、他のエージェントとの調整を必要とせず、自己完結型で構造化されたユーザー・インタラクションで適切に機能します。
- 推奨システム：ストリーミング・サービスで体験するようなパーソナライズされたコンテンツの推奨機能は、シングル・エージェント・アーキテクチャーで十分に実現可能です。

マルチエージェント・アーキテクチャー

マルチエージェント・アーキテクチャーは、従来のシングルエージェント・セットアップのAI機能を超えており、いくつかのメリットをもたらします。各エージェントは、性能分析、負傷防止、市場調査などの特定の分野に特化しながら、複雑な問題を解決するためにシームレスに連携します。

エージェントは、進化するタスクに基づいて役割を適応させ、動的なシナリオでの柔軟性と応答性の確保を支援します。

マルチエージェント・システムは、より柔軟です。自然言語処理（NLP）を使用するエージェントや、コンピューター・ビジョンに特化しているエージェントなど、さまざまな用途があります。エージェントは、外部データセットからデータを取得するために、検索拡張生成（RAG）を使用する場合があります。

LangChain上で動作するPythonベースのマルチエージェント・フレームワークであるcrewAIなど、マルチエージェント・フレームワーク・プロバイダーは数多くあります。もう1つのAIソリューションは、DeepWisdomです。これは、標準操作手順によってガイドされる構造化されたワークフローを使用するフレームワークであるMetaGPTを提供します。

垂直型AIアーキテクチャー

構造
- 垂直型アーキテクチャーでは、リーダー・エージェントがサブタスクと決定を監視し、エージェントが一元管理するために報告します⁵。階層型AIエージェントは自分の役割を認識しており、それに応じて他のエージェントに報告したり監視したりします。
主要な機能
- 階層構造：役割が明確に定義されています。
- 一元的なコミュニケーション：エージェントはリーダーに報告します。
強み
- タスク効率：シーケンシャル・ワークフローに最適です。
- 明確な責任分担：リーダーが目標を明確に示し、方向性を一致させます。

弱点
- ボトルネック：リーダーへの依存が進行を遅らせる可能性があります。
- 単一障害点：リーダーの問題に対して脆弱です。

最適なユースケース
- ワークフロー・オートメーション：マルチステップで承認します。
- ドキュメントの生成：リーダーによって監督されるセクションです。

水平型AIアーキテクチャー

構造
- ピア・コラボレーション・モデル：エージェントは分散型システムで対等に働き、自由に協力してタスクを解決します⁶。

主な機能
- 分散型コラボレーション：すべてのエージェントがリソースとアイデアを共有します。
- 分散型意思決定：共同作業による自律性を実現するグループ主導の意思決定です。

強み
- 動的な問題解決：イノベーションを促進します。
- 並列処理：エージェントがタスクを同時に処理します。

弱点
- 調整の課題：管理の不備により非効率を引き起こす可能性があります。
- 意思決定の遅延：過剰な検討によって意思決定が遅れる可能性があります。

最適なユースケース
- ブレインストーミング：多様なアイデアが生成されます。
- 複雑な問題解決：多分野にわたる課題に対応できます。

ハイブリッド型AIアーキテクチャー

構造
- 構造化されたリーダーシップとコラボレーションの柔軟性を組み合わせます。タスク要件に基づいてリーダーシップを調整します。

主な機能
- 動的なリーダーシップ：リーダーシップはタスクの段階に応じて適応します。
- 協働型リーダーシップ：リーダーは同僚とオープンに連携します。

強み
- 汎用性：両モデルの特長を組み合わせた設計です。
- 適応力：構造と創造性を要するタスクを適切に処理できます。

弱点
- 複雑さ：リーダーシップの役割と協業のバランスを取るためには、堅牢な仕組みが不可欠です。
- リソース管理：より要求が厳しくなります。

最適なユースケース
- 多様な業務：戦略計画を策定し、チーム・プロジェクトを遂行します。
- 動的プロセス：構造化された要求と創造的な要求のバランスを取ります。

エージェント型フレームワーク

エージェント・フレームワークとは、エージェント（人工、自然に関わらず）が自律的かつインテリジェントな方法でタスクを実行し、意思決定を行い、環境と対話する方法を定義する設計アーキテクチャーまたはモデルを指します。これらのフレームワークは、エージェントがさまざまな設定で動作し、推論し、適応する仕組みについて、その構造とガイドラインを提供します。

反応型アーキテクチャー

反応型アーキテクチャーは、状況を行動に直接マッピングします。反射的で、記憶や機能に頼るのではなく、環境からの直接の刺激に基づいて意思決定を行います。ただし、過去から学ぶことも、将来の計画を立てることもできません。

審議型アーキテクチャー

審議型アーキテクチャーとは、世界における推論、計画、内部モデルに基づいて意思決定を行うAIシステムのことです。反応型エージェントとは異なり、審議型エージェントは環境を分析し、将来の結果を予測し、情報に基づいた選択を行ってから行動に移します。

認知型アーキテクチャー

認知型エージェント・アーキテクチャーとは、人間のような思考、推論、学習、意思決定を模倣する高度なAIシステムのことです。

これらのエージェントは、認知、記憶、推論、適応の要素を組み込み、それぞれが個別のモジュールで表されるため、複雑で不確実な環境において時間の経過とともに改善しながら動作できるようになります。これは、最も高度なタイプのエージェント・アーキテクチャーです。

BDIアーキテクチャー（通常はモデルまたはフレームワークと呼ばれます）は、インテリジェント・エージェントにおける合理的な意思決定をモデル化するように設計されており、信念、欲求、意図（BDI）フレームワークに基づいています。

このアーキテクチャーは、以下により、BDIエージェントにおける人間のような推論をモデル化します。

信念（B）：世界に関するエージェントの知識です。これには、環境の理解、現在の状況、および感覚データが含まれる可能性があります。

例：「ドアが閉じている」

欲望（D）：エージェントの目標や目的であり、達成したいものを表します。欲望は必ずしも行動ではなく、高レベルの目標です。

例：「部屋に入りたい」

意図（I）：エージェントが欲望を達成するためにコミットする行動方針です。意図は、エージェントの信念と希望を考慮して、エージェントが積極的に追求している予定された行動を表します。

例：「部屋に入るためにドアを開ける」

脚注

¹ Bandura A.著『Social cognitive theory: an agentic perspective』Annu Rev Psychol. 2001;52:1-26. doi: 10.1146/annurev.psych.52.1.1. https://pubmed.ncbi.nlm.nih.gov/11148297/

² Bandura A.著『Social cognitive theory: an agentic perspective』

³ T. Masterman、S. Besen、M. Sawtell、A. Chao著『The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey』arXiv preprint arXiv:2404.11584, 2024年4月。[オンライン]。閲覧可能：https://arxiv.org/abs/2404.11584。

⁴ E. H. Durfee、V. Lesser著『Negotiating Task Decomposition and Allocation Using Partial Global Planning』Distributed Artificial Intelligence Volume II、ed. L. Gasser、M. Huhns（London：Pitman Publishing, San Mateo, CA: Morgan Kaufmann, 1989）、229-244。

⁵ Masterman, et al、『The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey』

⁶ Masterman, et al、『The Landscape of Emerging AI Agent Architectures for reasoning, Planning, and Tool Calling: A Survey』