AIエージェント・プロトコルとは

執筆者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

AIエージェント・プロトコルは、人工知能エージェント間およびAIエージェントと他のシステム間の通信の標準を確立します。これらのプロトコルは、メッセージの構文、構造、シーケンスと、エージェントが会話において果たす役割や、メッセージにいつどのように応答するかなどの通信規則を指定します。

エージェントベースのAIシステムは、多くの場合サイロ内で実行されます。これらは、多様なAIエージェント・フレームワークを使用し、異なるエージェント・アーキテクチャーを採用するさまざまなプロバイダーによって構築されています。現実世界の統合は課題になり、これらの断片化されたシステムを結合するには、考えられるすべてのタイプのエージェントの対話に対応するためにカスタマイズされたコネクターが必要です。

ここでプロトコルが登場します。これらは、異種のマルチエージェント システムを相互にリンクされたエコシステムに変換し、AI搭載エージェントが相互に発見、理解、連携する方法を共有します。

エージェント・プロトコルはAIエージェント オーケストレーションの一部ですが、オーケストレーターとしては機能しません。コミュニケーションは標準化されますが、エージェントによるワークフローの調整、実行、最適化は管理されません。

AIエージェント・プロトコルのメリット

AIエージェント・プロトコルには、次の利点があります。

  • 相互運用性

  • エージェント開発の複雑さを軽減

  • 標準化とよりスムーズな統合

相互運用性

エージェント・プロトコルはサイロを破壊し、エージェント型AIがそれぞれの独自の基盤となる実装に関係なく相互に通信できるようにします。さまざまなデバイス、環境、プラットフォーム間でのシームレスなエージェントのコラボレーションを促進します。

エージェント開発の複雑さの軽減

プロトコルはエージェント間のやり取りの複雑さに対処し、ソフトウェア開発キット(SDK)を通じて複雑性を抽象化するため、マルチエージェント システムの構築プロセスを効率化するのに役立ちます。AI開発者は、新しいエージェント機能の作成と既存のエージェント機能の強化に集中できます。

標準化とよりスムーズな統合

AIエージェント・プロトコルは、設定され、構造化された通信手段を提供します。また、これらの標準化されたプロトコルの多くは確立されたテクノロジーの上に構築されています。そのため、現在のテクノロジー・スタックとの互換性が確保され、よりスムーズなエンタープライズ統合が実現します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

AIエージェント・プロトコルの例

多くのプロトコルはまだ初期段階にあるため、大規模に使用または適用されるまでには至っていません。この成熟度の欠如は、組織が破壊的変化や進化する仕様に適応し、早期導入者として行動する準備をしなければならないことを意味します。

エージェントのテクノロジーが進化するにつれて、新しいプロトコルが登場する可能性があります。現在のAIエージェントのプロトコルをいくつかご紹介します。

  • Agent2Agent(A2A)プロトコル

  • エージェント通信プロトコル(ACP)

  • エージェント・ネットワーク・プロトコル(ANP)

  • エージェント-ユーザー・インタラクション(AG-UI)プロトコル

  • Agora

  • LMOSプロトコル

  • モデル・コンテキスト・プロトコル(MCP)

フローチャートは、ユーザー、アプリケーション/システムUI、およびマルチエージェント・システム間の相互作用を示します。

Agent2Agent(A2A)プロトコル

A2Aプロトコルは、当初Googleによって開始され、現在はLinux Foundationによって管理されているAIエージェント通信オープン・スタンダードです。これは、3つのステップのワークフローによるクライアントサーバー・モデルのセットアップに従います。

  1. 発見は、エンティティ(人間のユーザーまたは別のAIエージェント)がクライアント・エージェントにタスク要求を開始したときに発生します。その後、クライアント・エージェントがリモート・エージェントを検索して、最適なエージェントを決定します。
  2. クライアント・エージェントは、タスクを遂行できるリモート・エージェントを特定すると、認証を受けます。リモート・エージェントは、アクセス制御権限の承認と付与を担当します。
  3. 通信は、クライアント・エージェントがタスクを送信し、リモート・エージェントがそれを処理することで進行します。エージェント間の通信は、データ交換の形式としてJSON-RPC(リモート手順コール)2.0を使用し、安全なトランスポートのためにHTTPS経由で行われます。

エージェント通信プロトコル(ACP)

A2Aと同様に、エージェント通信プロトコル(ACP)はエージェント間通信のもう1つのオープン・スタンダードであり、最初はIBMのBeeAIによって導入され、現在はLinux Foundationの一部となっています。

その主要なコンポーネントには、ACPクライアントとACPサーバーが含まれています。ACPクライアントは、HTTP経由のRESTful APIを介してACPサーバーに要求を送信します。ACPサーバーは、単一のHTTPエンドポイントの背後に1つ以上のエージェントをホストし、タスクを適切なエージェントにルーティングします。

ACPのその他の主要な機能は次のとおりです。

  • このプロトコルは、Postmanなどの標準のHTTPツールやブラウザでも使用できますが、SDKも利用できます。

  • 検出は、ACPサーバーに直接クエリし、既知のURLの公開マニフェストファイルをクエリすることで、オンラインで行うことができます。オフライン検出は、集中レジストリを通じて、またはエージェント・メタデータを配布パッケージに直接埋め込むことによって行われます。

  • ACPでは、オーディオ、画像、テキスト、ビデオ、カスタム・バイナリー形式など、さまざまなタイプのメッセージを受け入れます。

エージェント・ネットワーク・プロトコル(ANP)

エージェント・ネットワーク・プロトコル(ANP)は、「エージェントWeb時代のHTTP」となることを目標とするオープンソース・プロトコルです。そのため、データ転送にはHTTP、データのフォーマットにはJSON-LD(JSON for Linked Data)を採用しています。

ANPは、次の3つの層で構成されるピアツーピア・アーキテクチャーを採用しています。

  • アイデンティティ層は、安全な通信のためのエンドツーエンド暗号化と、W3C DID(分散型識別子)標準に基づく分散型ID認証の両方を実装しています。

  • メタプロトコル層は、エージェントが通信方法について交渉し、合意することを可能にします。

  • アプリケーション・プロトコル層を使用すると、自律型エージェントはその機能を説明できるようになり、エージェントの検出をサポートできます。

エージェント・ユーザー・インタラクション(AG-UI)プロトコル

エージェント・ユーザー・インタラクション(AG-UI)プロトコルは、バックエンドAIエージェントがフロントエンドまたはユーザー向けアプリケーションに接続する方法を標準化することを目的としています。これは、AIアシスタントチャットボットとのチャット、状態更新のライブストリーミング、人間が介入するアプローチを伴うその他のエージェント自動化など、リアルタイムの人間とエージェントのインタラクション向けに設計されています。

AG-UIのイベント駆動型アーキテクチャーにより、AIエージェントは特定のシステム・トリガーやユーザーからのインプットに基づいてイベントを生成できます。プロトコルは、メッセージの送受信、ツールの呼び出し、タスクの実行など、さまざまなカテゴリーを定義します。

ミドルウェア層は、サーバー送信イベント(SSE)Webhook、WebSocketなどのいくつかのトランスポート方式をサポートしています。AG-UIを使用すると、エージェントとユーザーインターフェイスの間でリクエストを安全にルーティングする安全なプロキシーも可能になります。

Agora

Agoraは、大規模言語モデル(LLM)を活用したエージェント用の通信プロトコルです。これは、自然言語理解、指示の追跡、コードの作成と実行、自律ネゴシエーションなど、いくつかのコアLLMエージェント機能に依存しています。

LLMエージェントは、プロトコル文書内にプレーンテキストで記述した独自のプロトコルを実装し、サポートできます。ドキュメントの最初の部分には、プロトコル名、説明、および単一または複数ラウンドの会話を識別するメタデータが含まれています。第二の部分では、自然言語とコードを組み合わせた指示と共に、コミュニケーションがどのように行われるかについて概説します。その後、エージェントはどのプロトコルを採用するかを自律的に交渉できます。

Agoraはデータの送信にHTTPSを、フォーマットにはJSONを採用しています。また、プロトコル文書にはハッシュ・ベースの識別システムを使用します。

LMOSプロトコル

Eclipse Foundationによって開発された言語モデル・オペレーティング・システム(LMOS)プロトコルは、インターネット規模のマルチエージェント・エコシステムであるエージェントのインターネット(IoA)の導入を目指しています。ANPと同様に、その構造化アーキテクチャーは次の3つの層で構成されています。

  • IDおよびセキュリティ層は、暗号化通信を提供し、W3C DIDやOAuth 2.0などのさまざまな認証スキームをサポートします。

  • トランスポート・プロトコル層は、エージェントがそれぞれのインタラクションの目的に合ったトランスポート・プロトコルを選択し、適応させることを可能にします。

  • アプリケーション・プロトコル・レイヤーは、エージェントとツールの記述、検出方法、セマンティック・データ・モデル、およびWebソケット・サブプロトコルの形式の概要を示します。

LMOSプロトコルでは、JSON-LDを使用してツールとエージェントの機能、およびその他のメタデータを記述します。検出は、セントラルディレクトリにクエリを実行すること、または分散ネットワークを通じて動的に行われます。

モデル・コンテキスト・プロトコル(MCP)

Anthropicによって導入されたモデル・コンテキスト・プロトコル(MCP)はAIモデルがタスクを実行するために必要なコンテキストを取得するための標準化された方法を提供します。エージェント領域では、MCPはAIエージェントがAPI、データベース、ファイル、Web検索、その他のデータ・ソースなどの外部サービスやツールに接続して通信するための層として機能します。

MCPには、次の3つの主要なアーキテクチャー要素が含まれています。

  • MCPホストにはオーケストレーション・ロジックが含まれ、各MCPクライアントをMCPサーバーに接続することができます。複数のクライアントをホストできます。

  • MCPクライアントは、ユーザーのリクエストをプロトコルが処理できる構造化された形式に変換します。各クライアントは、MCPサーバーと1対1の関係を持っています。クライアントはセッションを管理し、応答を解析してVerifyし、エラーを処理します。

  • MCPサーバーは、ユーザーのリクエストをサーバーのアクションに変換します。通常、サーバーはさまざまなプログラミング言語で利用可能なGitHubリポジトリであり、ツールへのアクセスを提供します。また、IBMやOpenAIなどのAIプラットフォームプロバイダーを通じてLLM推論をMCP SDKに接続するためにも使用できます。

クライアントとサーバー間のトランスポート層では、軽量の同期メッセージングの場合は標準インプット/アウトプット(stdio)、非同期のイベント駆動型呼び出しの場合はSSEのいずれかを使用して、JSON-RPC 2.0形式でメッセージが送信されます。

AIエージェント

AIエージェントの5つのタイプ:自律機能と実世界アプリケーション

目標主導型でユーティリティーベースのAIがワークフローや複雑な環境にどのように適応するかをご覧ください。

AIエージェント・フレームワークを選択する際に考慮すべき事柄

標準化された評価のベンチマークがないため、企業は自社のビジネスニーズに最適なプロトコルを独自に評価する必要があります。小規模で制御されたユースケースと徹底的かつ厳密なテストを組み合わせて開始する必要があるかもしれません。

エージェントのプロトコルを評価する際に留意すべき点は、次のとおりです。

  • 効率性

  • 信頼性

  • 拡張性

  • セキュリティー

効率性

理想的には、プロトコルはレイテンシーを制限するように設計されており、その結果、迅速なデータ転送と高速な応答時間が実現されます。ある程度の通信オーバーヘッドが発生することは予想されますが、最小限に抑える必要があります。

信頼性の確保

AIエージェント・プロトコルは、障害や中断を管理するメカニズムを備え、エージェント・ワークフロー全体で変化するネットワーク状況に対応できる必要があります。例えば、ACPはデフォルトとして非同期通信を使用するように設計されており、複雑なタスクや長時間実行されるタスクに適しています。一方、A2AはSSEを使用したリアルタイム・ストリーミングをサポートし、大規模または長時間のアウトプットや連続ステータスの更新を可能にします。

拡張性

プロトコルは、性能を低下させることなく、成長するエージェント・エコシステムに対応できる十分な堅牢性を備えていなければなりません。拡張性の評価には、一定期間にわたってエージェントの数や外部ツールへのリンクを徐々にまたは突然、一定期間にわたって増やし、それらの条件でプロトコルがどのように動作するかを観察することが含まれます。

セキュリティー

セキュリティの維持は最も重要であり、エージェント・プロトコルには安全対策がますます組み込まれています。これらには、認証、暗号化、アクセス制御が含まれます。

関連ソリューション
ビジネス向けAIエージェント

生成AIを使用してワークフローとプロセスを自動化する強力なAIアシスタントとエージェントを構築、デプロイ、管理しましょう。

    watsonx Orchestrateの詳細はこちら
    IBM AIエージェント・ソリューション

    信頼できるAIソリューションでビジネスの未来を構築します。

    AIエージェント・ソリューションの詳細はこちら
    IBM®コンサルティング AIサービス

    IBMコンサルティングAIサービスは、企業がAIをトランスフォーメーションに活用する方法を再考するのに役立ちます。

    人工知能サービスの詳細はこちら
    次のステップ

    事前構築済みのアプリケーションとスキルをカスタマイズする場合でも、AIスタジオを使用してカスタム・エージェント・サービスを構築し、デプロイする場合でも、IBM watsonxプラットフォームが対応します。

    watsonx Orchestrateの詳細はこちら watsonx.aiの詳細はこちら