AIエージェント・プロトコルとは

執筆者

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

AIエージェント・プロトコルは、人工知能エージェント間およびAIエージェントと他のシステム間の通信の標準を確立します。これらのプロトコルは、メッセージの構文、構造、シーケンスと、エージェントが会話において果たす役割や、メッセージにいつどのように応答するかなどの通信規則を指定します。

エージェントベースのAIシステムは、多くの場合サイロ内で実行されます。これらは、多様なAIエージェント・フレームワークを使用し、異なるエージェント・アーキテクチャーを採用するさまざまなプロバイダーによって構築されています。現実世界の統合は課題になり、これらの断片化されたシステムを結合するには、考えられるすべてのタイプのエージェントの対話に対応するためにカスタマイズされたコネクターが必要です。

ここでプロトコルが登場します。これらは、異種のマルチエージェントシステムを相互にリンクされたエコシステムに変換し、AI搭載エージェントが相互に発見、理解、連携する方法を共有します。

エージェント・プロトコルはAIエージェントオーケストレーションの一部ですが、オーケストレーターとしては機能しません。コミュニケーションは標準化されますが、エージェントによるワークフローの調整、実行、最適化は管理されません。

AIエージェント・プロトコルのメリット

AIエージェント・プロトコルには、次の利点があります。

相互運用性
エージェント開発の複雑さを軽減
標準化とよりスムーズな統合

相互運用性

エージェント・プロトコルはサイロを破壊し、エージェント型AIがそれぞれの独自の基盤となる実装に関係なく相互に通信できるようにします。さまざまなデバイス、環境、プラットフォーム間でのシームレスなエージェントのコラボレーションを促進します。

エージェント開発の複雑さの軽減

プロトコルはエージェント間のやり取りの複雑さに対処し、ソフトウェア開発キット（SDK）を通じて複雑性を抽象化するため、マルチエージェントシステムの構築プロセスを効率化するのに役立ちます。AI開発者は、新しいエージェント機能の作成と既存のエージェント機能の強化に集中できます。

標準化とよりスムーズな統合

AIエージェント・プロトコルは、設定され、構造化された通信手段を提供します。また、これらの標準化されたプロトコルの多くは確立されたテクノロジーの上に構築されています。そのため、現在のテクノロジー・スタックとの互換性が確保され、よりスムーズなエンタープライズ統合が実現します。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

AIエージェント・プロトコルの例

多くのプロトコルはまだ初期段階にあるため、大規模に使用または適用されるまでには至っていません。この成熟度の欠如は、組織が破壊的変化や進化する仕様に適応し、早期導入者として行動する準備をしなければならないことを意味します。

エージェントのテクノロジーが進化するにつれて、新しいプロトコルが登場する可能性があります。現在のAIエージェントのプロトコルをいくつかご紹介します。

Agent2Agent（A2A）プロトコル
エージェント通信プロトコル（ACP）
エージェント・ネットワーク・プロトコル（ANP）
エージェント-ユーザー・インタラクション（AG-UI）プロトコル
Agora
LMOSプロトコル
モデル・コンテキスト・プロトコル（MCP）

フローチャートは、ユーザー、アプリケーション/システムUI、およびマルチエージェント・システム間の相互作用を示します。

Agent2Agent（A2A）プロトコル

A2Aプロトコルは、当初Googleによって開始され、現在はLinux Foundationによって管理されているAIエージェント通信のオープン・スタンダードです。これは、3つのステップのワークフローによるクライアントサーバー・モデルのセットアップに従います。

発見は、エンティティ（人間のユーザーまたは別のAIエージェント）がクライアント・エージェントにタスク要求を開始したときに発生します。その後、クライアント・エージェントがリモート・エージェントを検索して、最適なエージェントを決定します。
クライアント・エージェントは、タスクを遂行できるリモート・エージェントを特定すると、認証を受けます。リモート・エージェントは、アクセス制御権限の承認と付与を担当します。
通信は、クライアント・エージェントがタスクを送信し、リモート・エージェントがそれを処理することで進行します。エージェント間の通信は、データ交換の形式としてJSON-RPC（リモート手順コール）2.0を使用し、安全なトランスポートのためにHTTPS経由で行われます。

エージェント通信プロトコル（ACP）

A2Aと同様に、エージェント通信プロトコル（ACP）はエージェント間通信のもう1つのオープン・スタンダードであり、最初はIBMのBeeAIによって導入され、現在はLinux Foundationの一部となっています。

その主要なコンポーネントには、ACPクライアントとACPサーバーが含まれています。ACPクライアントは、HTTP経由のRESTful APIを介してACPサーバーに要求を送信します。ACPサーバーは、単一のHTTPエンドポイントの背後に1つ以上のエージェントをホストし、タスクを適切なエージェントにルーティングします。

ACPのその他の主要な機能は次のとおりです。

このプロトコルは、Postmanなどの標準のHTTPツールやブラウザでも使用できますが、SDKも利用できます。
検出は、ACPサーバーに直接クエリし、既知のURLの公開マニフェストファイルをクエリすることで、オンラインで行うことができます。オフライン検出は、集中レジストリを通じて、またはエージェント・メタデータを配布パッケージに直接埋め込むことによって行われます。
ACPでは、オーディオ、画像、テキスト、ビデオ、カスタム・バイナリー形式など、さまざまなタイプのメッセージを受け入れます。

エージェント・ネットワーク・プロトコル（ANP）

エージェント・ネットワーク・プロトコル（ANP）は、「エージェントWeb時代のHTTP」となることを目標とするオープンソース・プロトコルです。そのため、データ転送にはHTTP、データのフォーマットにはJSON-LD（JSON for Linked Data）を採用しています。

ANPは、次の3つの層で構成されるピアツーピア・アーキテクチャーを採用しています。

アイデンティティ層は、安全な通信のためのエンドツーエンド暗号化と、W3C DID（分散型識別子）標準に基づく分散型ID認証の両方を実装しています。
メタプロトコル層は、エージェントが通信方法について交渉し、合意することを可能にします。
アプリケーション・プロトコル層を使用すると、自律型エージェントはその機能を説明できるようになり、エージェントの検出をサポートできます。

エージェント・ユーザー・インタラクション（AG-UI）プロトコル

エージェント・ユーザー・インタラクション（AG-UI）プロトコルは、バックエンドAIエージェントがフロントエンドまたはユーザー向けアプリケーションに接続する方法を標準化することを目的としています。これは、AIアシスタントやチャットボットとのチャット、状態更新のライブストリーミング、人間が介入するアプローチを伴うその他のエージェント自動化など、リアルタイムの人間とエージェントのインタラクション向けに設計されています。

AG-UIのイベント駆動型アーキテクチャーにより、AIエージェントは特定のシステム・トリガーやユーザーからのインプットに基づいてイベントを生成できます。プロトコルは、メッセージの送受信、ツールの呼び出し、タスクの実行など、さまざまなカテゴリーを定義します。

ミドルウェア層は、サーバー送信イベント（SSE）、Webhook、WebSocketなどのいくつかのトランスポート方式をサポートしています。AG-UIを使用すると、エージェントとユーザーインターフェイスの間でリクエストを安全にルーティングする安全なプロキシーも可能になります。

Agora

Agoraは、大規模言語モデル（LLM）を活用したエージェント用の通信プロトコルです。これは、自然言語理解、指示の追跡、コードの作成と実行、自律ネゴシエーションなど、いくつかのコアLLMエージェント機能に依存しています。

LLMエージェントは、プロトコル文書内にプレーンテキストで記述した独自のプロトコルを実装し、サポートできます。ドキュメントの最初の部分には、プロトコル名、説明、および単一または複数ラウンドの会話を識別するメタデータが含まれています。第二の部分では、自然言語とコードを組み合わせた指示と共に、コミュニケーションがどのように行われるかについて概説します。その後、エージェントはどのプロトコルを採用するかを自律的に交渉できます。

Agoraはデータの送信にHTTPSを、フォーマットにはJSONを採用しています。また、プロトコル文書にはハッシュ・ベースの識別システムを使用します。

LMOSプロトコル

Eclipse Foundationによって開発された言語モデル・オペレーティング・システム（LMOS）プロトコルは、インターネット規模のマルチエージェント・エコシステムであるエージェントのインターネット（IoA）の導入を目指しています。ANPと同様に、その構造化アーキテクチャーは次の3つの層で構成されています。

IDおよびセキュリティ層は、暗号化通信を提供し、W3C DIDやOAuth 2.0などのさまざまな認証スキームをサポートします。
トランスポート・プロトコル層は、エージェントがそれぞれのインタラクションの目的に合ったトランスポート・プロトコルを選択し、適応させることを可能にします。
アプリケーション・プロトコル・レイヤーは、エージェントとツールの記述、検出方法、セマンティック・データ・モデル、およびWebソケット・サブプロトコルの形式の概要を示します。

LMOSプロトコルでは、JSON-LDを使用してツールとエージェントの機能、およびその他のメタデータを記述します。検出は、セントラルディレクトリにクエリを実行すること、または分散ネットワークを通じて動的に行われます。

モデル・コンテキスト・プロトコル（MCP）

Anthropicによって導入されたモデル・コンテキスト・プロトコル（MCP）は、AIモデルがタスクを実行するために必要なコンテキストを取得するための標準化された方法を提供します。エージェント領域では、MCPはAIエージェントがAPI、データベース、ファイル、Web検索、その他のデータ・ソースなどの外部サービスやツールに接続して通信するための層として機能します。

MCPには、次の3つの主要なアーキテクチャー要素が含まれています。

MCPホストにはオーケストレーション・ロジックが含まれ、各MCPクライアントをMCPサーバーに接続することができます。複数のクライアントをホストできます。
MCPクライアントは、ユーザーのリクエストをプロトコルが処理できる構造化された形式に変換します。各クライアントは、MCPサーバーと1対1の関係を持っています。クライアントはセッションを管理し、応答を解析してVerifyし、エラーを処理します。
MCPサーバーは、ユーザーのリクエストをサーバーのアクションに変換します。通常、サーバーはさまざまなプログラミング言語で利用可能なGitHubリポジトリであり、ツールへのアクセスを提供します。また、IBMやOpenAIなどのAIプラットフォームプロバイダーを通じてLLM推論をMCP SDKに接続するためにも使用できます。

クライアントとサーバー間のトランスポート層では、軽量の同期メッセージングの場合は標準インプット/アウトプット（stdio）、非同期のイベント駆動型呼び出しの場合はSSEのいずれかを使用して、JSON-RPC 2.0形式でメッセージが送信されます。

AIエージェント

AIエージェントの5つのタイプ：自律機能と実世界アプリケーション

目標主導型でユーティリティーベースのAIがワークフローや複雑な環境にどのように適応するかをご覧ください。

AIエージェントを構築、展開、監視

AIエージェント・フレームワークを選択する際に考慮すべき事柄

標準化された評価のベンチマークがないため、企業は自社のビジネスニーズに最適なプロトコルを独自に評価する必要があります。小規模で制御されたユースケースと徹底的かつ厳密なテストを組み合わせて開始する必要があるかもしれません。

エージェントのプロトコルを評価する際に留意すべき点は、次のとおりです。

効率性
信頼性
拡張性
セキュリティー

効率性

理想的には、プロトコルはレイテンシーを制限するように設計されており、その結果、迅速なデータ転送と高速な応答時間が実現されます。ある程度の通信オーバーヘッドが発生することは予想されますが、最小限に抑える必要があります。

信頼性の確保

AIエージェント・プロトコルは、障害や中断を管理するメカニズムを備え、エージェント・ワークフロー全体で変化するネットワーク状況に対応できる必要があります。例えば、ACPはデフォルトとして非同期通信を使用するように設計されており、複雑なタスクや長時間実行されるタスクに適しています。一方、A2AはSSEを使用したリアルタイム・ストリーミングをサポートし、大規模または長時間のアウトプットや連続ステータスの更新を可能にします。

拡張性

プロトコルは、性能を低下させることなく、成長するエージェント・エコシステムに対応できる十分な堅牢性を備えていなければなりません。拡張性の評価には、一定期間にわたってエージェントの数や外部ツールへのリンクを徐々にまたは突然、一定期間にわたって増やし、それらの条件でプロトコルがどのように動作するかを観察することが含まれます。