前後にダッシュボードのアイコンが描かれたiPadを持っている女性を横から見たデジタル・イラスト

VAKRAのご紹介:AIエージェントのマルチホップ、マルチソースのツール呼び出し機能を評価するベンチマーク

VAKRAがエンドツーエンドのエージェントの動作を評価する方法はこちら。

VAKRA(マルチホップ、マルチソース対話を使用したAPIおよび知識検索エージェントの評価)は、エンタープライズ向けの設定でAIエージェントがエンドツーエンドでどの程度適切に推論できるかを評価するために設計された、ツールベースの実行可能なベンチマークです。

VAKRAは、分離されたスキルをテストするのではなく、APIやドキュメント全体の構成的な推論を測定し、完全な実行トレースを使用して、エージェントが個々のステップだけでなく複数ステップのワークフローを確実に完了できるかどうかを評価します。

VAKRAは、エージェントが62のドメインにわたる実際のデータベースとドメインに合わせたドキュメント・コレクションによって支えられ、8,000を超えるローカルでホストされているAPIと対話する実行可能な環境を提供します。タスクには、構造化されたAPI対話と、自然言語ツールの使用制約の下での非構造化検索を組み合わせた、3~7ステップの推論チェーンが必要になる場合があります。

  • ローカルでホストされ、データベースに支えられたツールは、評価時に決定論的で検証可能な応答を保証します。
  • ドキュメント検索はドメイン固有のインデックスVIA® 提供され、クロスソース基盤と抽出が可能になります。
  • トラック・レベルの検証では、ライブ・ツールに対してエージェントの完全なトレースを再生し、複数の有効な実行パスをサポートします。これは、エンタープライズ・ワークフローにとって重要です。

マルチホップ、マルチソースの推論が重要

Enterprise環境は、シングルターンのQ&Aや1回限りの関数呼び出しとは似ていません。Business Intelligence、カスタマー・サポート、コンプライアンスなどの分野のワークフローでは、エージェントが意思決定を連鎖させ、一致しないスキーマを調整し、自然言語で表現されたツール使用ポリシーに従う必要があります。失敗はツールの呼び出し中だけでなく、エンティティーの曖昧性解消、クロスソースのグラウンディング、パラメーターやスキーマの調整など、ツール間の言語を介した推論でも発生します。

eコマース・オペレーションにおける注文の遅れに関する苦情を考えてみましょう。 この問題を解決するには、エージェントは、顧客記録をリンクし、キャリアのドキュメンテーションを解釈し、ロジスティクスAPI間で識別子を調整し、自然言語で表現されるポリシーを適用するなど、システム全体で情報を正しく接続する必要があります。それぞれの決定はその前の決定に依存するため、ツール、データソース、制約をまたいだ持続的な推論が必要です。

VAKRAは、このような複数ステップの推論が成功するか、失敗するかを正確に明らかにするように設計されており、エージェントが実稼働環境で直面する現実を反映しています。

ユースケース:徐々に複雑化する3つの設定

VAKRAは、以前に注文が遅れた苦情の例のようなシナリオに触発され、タスクを3つの階層に整理しています。

  1. 多様なAPIインタラクション・スタイル:エージェントは、計画とツールの選択が必要な構成的または拡張的インターフェイスを公開するBusiness IntelligenceスタイルのAPIから、計算をカプセル化するものの正確なクエリー解釈と正しいパラメーター化を必要とするクエリーに合わせたエンドポイントまで、さまざまなインターフェースの抽象化に適応する必要があります。
  2. 構造化APIに対するマルチホップ推論:タスクには3~7回の依存するAPI呼び出しが必要で、前のステップのアウトプットを正しく解釈、変換し、後続のアクションをパラメーター化するために再利用する必要があります。
  3. ツール使用ポリシーによるマルチホップ、マルチソース推論:タスクには、非構造化ドキュメントと構造化APIにわたるマルチホップ推論が必要であり、エージェントは、取得するタイミング、取得した情報を下流のツール呼び出しに組み込む方法を決定し、自然言語ツール使用ポリシーに準拠する必要があります。

実行可能かつ検証可能な評価を目的として構築

VAKRAはセルフホスト環境で実行されます。永続的なデータベースと検索インデックスに支えられたAPIは標準インターフェースVIA® 公開され、エージェントはこれらのツールを通じてのみ対話できます。評価では、経路全体を再生して最終的な回答だけでなく、すべての中間ステップをVerifyため、エンティティーの曖昧さ回避、クロスソース・マッピング、ポリシーの解釈など、推論が壊れた箇所を特定できます。

VAKRAは次のような3種類の異なるユーザー向けに設計されています。

  • エージェント的推論、マルチツール・プランニング、グラウンディングを研究する研究者
  • 実稼働エージェント・ワークフローの基盤モデルを評価する開発者チームとエンジニアリング・チーム
  • 実用性のないタスクではなく、企業の複雑さを反映したベンチマークを求めているリーダー

開始方法と可用性

VAKRAは現在、一般公開されています。ソースコード、タスク仕様、評価ハーネスはGithub上でオープンソース化されており、成果を再現し、新しいエージェントをエンドツーエンドで実行するために必要なものがすべて含まれています。

  • 実際のデータベースに支えられた、ローカルで実行可能なAPI環境
  • 検索拡張推論のためのドメイン固有の文書コレクション
  • 網羅的なエージェントの軌跡をVerifyして再生する自己完結型の評価ランナー
  • APIのみ、マルチホップ、マルチソースのタスク設定全体で新しいモデルをベンチマークするためのスクリプト

また、 VAKRAの公開リーダーボードをホストするHugging Face Spaceも開設予定です。研究者、実務家、開発者の皆様に、成果を送信し、フィードバックや拡張を提供していただけます。

GitHubはこちら

Ankita Rajaram Naik

Research Data Scientist

その他の著者:

謝辞

著者より、このベンチマークの開発にあたり、貴重なフィードバック、議論、ご支援をいただいた研究チームおよびエンジニアリング・チームの同僚に感謝いたします。

特にインターンのRaavi Gupta氏とAbhinav Jain氏には、ベンチマークの生成と開発におけるご尽力に感謝いたします。また、Chulaka Gunasekara、Hamid Adebayo、Harold Ship、Himanshu Gupta、Huaiyu Zhu、Jaydeep Sen、Renuka Sindhgatta、Sameep Mehta、Sara Rosenthal、Segev Shlomovの貢献と洞察にも感謝します。