VAKRAがエンドツーエンドのエージェントの動作を評価する方法はこちら。
VAKRA(マルチホップ、マルチソース対話を使用したAPIおよび知識検索エージェントの評価)は、エンタープライズ向けの設定でAIエージェントがエンドツーエンドでどの程度適切に推論できるかを評価するために設計された、ツールベースの実行可能なベンチマークです。
VAKRAは、分離されたスキルをテストするのではなく、APIやドキュメント全体の構成的な推論を測定し、完全な実行トレースを使用して、エージェントが個々のステップだけでなく複数ステップのワークフローを確実に完了できるかどうかを評価します。
VAKRAは、エージェントが62のドメインにわたる実際のデータベースとドメインに合わせたドキュメント・コレクションによって支えられ、8,000を超えるローカルでホストされているAPIと対話する実行可能な環境を提供します。タスクには、構造化されたAPI対話と、自然言語ツールの使用制約の下での非構造化検索を組み合わせた、3~7ステップの推論チェーンが必要になる場合があります。
Enterprise環境は、シングルターンのQ&Aや1回限りの関数呼び出しとは似ていません。Business Intelligence、カスタマー・サポート、コンプライアンスなどの分野のワークフローでは、エージェントが意思決定を連鎖させ、一致しないスキーマを調整し、自然言語で表現されたツール使用ポリシーに従う必要があります。失敗はツールの呼び出し中だけでなく、エンティティーの曖昧性解消、クロスソースのグラウンディング、パラメーターやスキーマの調整など、ツール間の言語を介した推論でも発生します。
eコマース・オペレーションにおける注文の遅れに関する苦情を考えてみましょう。 この問題を解決するには、エージェントは、顧客記録をリンクし、キャリアのドキュメンテーションを解釈し、ロジスティクスAPI間で識別子を調整し、自然言語で表現されるポリシーを適用するなど、システム全体で情報を正しく接続する必要があります。それぞれの決定はその前の決定に依存するため、ツール、データソース、制約をまたいだ持続的な推論が必要です。
VAKRAは、このような複数ステップの推論が成功するか、失敗するかを正確に明らかにするように設計されており、エージェントが実稼働環境で直面する現実を反映しています。
VAKRAは、以前に注文が遅れた苦情の例のようなシナリオに触発され、タスクを3つの階層に整理しています。
VAKRAはセルフホスト環境で実行されます。永続的なデータベースと検索インデックスに支えられたAPIは標準インターフェースVIA® 公開され、エージェントはこれらのツールを通じてのみ対話できます。評価では、経路全体を再生して最終的な回答だけでなく、すべての中間ステップをVerifyため、エンティティーの曖昧さ回避、クロスソース・マッピング、ポリシーの解釈など、推論が壊れた箇所を特定できます。
VAKRAは次のような3種類の異なるユーザー向けに設計されています。
VAKRAは現在、一般公開されています。ソースコード、タスク仕様、評価ハーネスはGithub上でオープンソース化されており、成果を再現し、新しいエージェントをエンドツーエンドで実行するために必要なものがすべて含まれています。
また、 VAKRAの公開リーダーボードをホストするHugging Face Spaceも開設予定です。研究者、実務家、開発者の皆様に、成果を送信し、フィードバックや拡張を提供していただけます。
その他の著者:
著者より、このベンチマークの開発にあたり、貴重なフィードバック、議論、ご支援をいただいた研究チームおよびエンジニアリング・チームの同僚に感謝いたします。
特にインターンのRaavi Gupta氏とAbhinav Jain氏には、ベンチマークの生成と開発におけるご尽力に感謝いたします。また、Chulaka Gunasekara、Hamid Adebayo、Harold Ship、Himanshu Gupta、Huaiyu Zhu、Jaydeep Sen、Renuka Sindhgatta、Sameep Mehta、Sara Rosenthal、Segev Shlomovの貢献と洞察にも感謝します。