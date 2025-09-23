IBMチームによるもう1つのイノベーションは「Evaluation Studio」です。この機能は主に次の2つの性能を提供します。

異なるバージョンのプロンプトを並べて比較し、プロンプトを比較する エージェント向けの実験追跡

評価スタジオは、開発者がデータセット上のプロンプトのさまざまなバージョンを評価し、直感的なユーザー・インターフェイスで成果を比較するのに役立ちます。また、ユーザーがメトリクスを選択し、重要度に基づいて重みを割り当てることによって、カスタム・ランキング・スキームを考案できる、独自のカスタム・ランキングのサポートも提供しています。これにより、ユーザーはツールまたはエージェントで使用するプロンプトを簡単に最適化できます。

評価スタジオであるwatsonx.governanceは、より優れたエージェント型AIシステムを構築するための強力なツールである実験追跡もサポートしています。実験をすばやく設定し、さまざまな（エージェントの）変数を試し、使用したモデル、検索ツール、プロンプトなどの詳細をタグ付けできます。レイテンシー、コスト、品質（忠実度など）に基づいて並べて比較することで、最も優れている変数を簡単に確認できます。重要な点として、このプラットフォームが各実行の正確なコードを保存するのに役立つため、開発者は各バージョンを保存する時間から解放され、エージェントの構築と改善に集中できるようになります。