IBM、IDC Marketscape Worldwide GenAI Evaluation Technology Products 2025 Vendor Assessmentでリーダーに選出

オフィスで3人が机のどちらか一方に立ってアイデアについて話し合っている

執筆者

Maryam Ashoori

VP of Product and Engineering, watsonx.governance

IBM

Manish Bhide

Distinguished Engineer and CTO, watsonx.governance

IBM

Sahiba Pahwa

Product Marketing, watsonx.governance

IBM

IBMは、IDC MarketScape: Worldwide GenAI Evaluation Technology Products 2025 Vendor Assessmentでリーダーに選出されました。

この評価は、IBM® watsonx.governanceの影響力の拡大と継続的なイノベーション、および信頼性が高く、スケーラブルで、責任あるAIに対する現代の需要を満たすことにおけるIBMの取り組みを反映していると考えています。

「多様なテクノロジー環境を持つ企業は、IBMが中立的なサプライヤーであると感じるかもしれません。たとえば、同社は特定のクラウド・サービスに縛られていません。また、自動化されたドキュメンテーション、ガードレール、セキュリティ製品など、隣接するIBM製品の広範なセットを価値的だと考える企業は、IBMを検討する必要があります」とIDC MarketScapeレポートでは述べられています。

2025 IDC MarketScape Worldwide GenAl Evaluation Technology Productsからの図は、機能と戦略に従ってチャート上に分布したIBMと競合他社を強調しています。

IDC MarketScapeのベンダー分析モデルは、特定の市場におけるテクノロジーとサプライヤーの競争力の概要を提供するように設計されています。この調査方法では、定性的基準と定量的基準の両方に基づいた厳密なスコアリング手法を利用しており、これによって特定の市場における各サプライヤーの位置付けを単一のグラフィックで表示できます。機能スコアは、サプライヤーの製品、市場投入、および短期的なビジネスの実行を測定します。ストラテジー・スコアは、3~5年の期間でサプライヤー戦略と顧客要件との整合性を測定します。サプライヤーの市場シェアはアイコンのサイズで表されます

IDC MarketScape手法の5つのカテゴリー

IDC MarketScapeの厳格な評価フレームワークは、組織がAIモデル評価テクノロジーに関する意思決定を行う際に信頼できる、客観的な第三者によるアセスメントを提供します。

フレームワークでは、次の5つのカテゴリーを考慮します。

  1. 顧客満足度:顧客に直接インタビューすることで、現在のサービスだけでなく、新たなリスク課題に対処するためのビジョンとロードマップについても含め、実装の成功、ROI、継続的なサポートに関する洞察が得られます。
  2. 機能または提供:レポートでは、構築に使用されるツールや実行場所に左右されない使いやすさ、ダッシュボードとメトリクスの観点からカスタマイズなどの中立性を評価します。
  3. 技術革新:ベンダーは、顧客に注目すべき価値を提供する差別化された機能またはサービスについて評価されます。
  4. サービスの範囲:本レポートでは、エージェントを評価する能力に特に注意を払い、RAG評価による能力の範囲について考慮しました。
  5. ポートフォリオ:生産監視、モデル・ガバナンス、モデル・セキュリティーなど、モデル・チューニングに関連する製品の数や、開発から実稼働までのライフサイクル全体にわたってシームレスに統合された評価ツールの有無などに特に注意が必要です。

IBM watsonx.governanceの強み

私たちが考えるIBMの強みは次のとおりです。

1. 合理化されたモデル開発とガバナンス

IBM watsonx.governanceは、開発からデプロイメントまでAIライフサイクル全体を管理するための統合アプローチを提供します。ガイド付きアンケートを使用することで、ユーザーはビジネス上の問題を定義し、潜在的なリスクを検知・特定し、緩和ストラテジーを明らかにすることができます。

これらのリスクの側面は、評価プロセス中に使用できるメトリクスにマッピングされます。さらに、この統合プロセスは、評価プロセス中にメタデータを自動的に抽出し、一元化されたファクト・シートに保管し、モデルに関する情報やプロンプトのテンプレートなどを含むアプリケーション開発プロセスの透明性のある記録を提供します。ドキュメンテーションを含むこの緊密に統合されたライフサイクルに評価技術を組み込むことで、企業ユーザーにとって理想的なソリューションとして差別化を図っています。

2. 動的ダッシュボードによる実行時のリスクの自動識別

リスク・データ、リスクとコントロールのアセスメント、内部および外部の損失イベント、主要なリスク指標またはメトリクスを統合することで、チームは企業全体のリスク体制を包括的に把握できます。これにより、企業はリスクが発生したときに、リアルタイムで自動的に特定できるようになります。さらに、IBM watsonx.governanceが自動でリスク評価を提供するため、リスク担当チームはリスクレベルを明確かつ客観的に評価できます。動的なダッシュボードとチャートで迅速な特定、測定、監視、分析を容易にし、自動アラートは、リスクしきい値に達した場合の速やかな修復を可能にします。

3. すぐに使用できるメトリクス

IBM watsonx.governanceでは、ユーザーは、AIシステムの性能と有効性を評価するための、事前構築済みのさまざまなメトリクスにアクセスできます。これらには、ドリフトの特定、モデルの性能、およびその他の主要領域に関する以下のメトリクスが含まれます。

  • HAP
  • PII
  • プロンプト・インジェクション
  • コンテキストの関連性
  • 忠実さ
  • 回答の類似性
  • 回答の関連性
  • ヒット率
  • 平均精度
  • 逆順位
  • 失敗したリクエスト
  • その他多数

とりわけこれらのメトリクスは、AIシステムの性能と有効性を評価するための包括的なフレームワークを提供します。さらに、ユーザーはカスタム・メトリクスを作成し、特定のビジネス要件やリスク・プロファイルに合わせて評価を調整できるため、包括的な評価フレームワークが得られます。

4. 効率的でアジャイルなエージェントの最適化と実験

IBMチームによるもう1つのイノベーションは「Evaluation Studio」です。この機能は主に次の2つの性能を提供します。

  1. 異なるバージョンのプロンプトを並べて比較し、プロンプトを比較する
  2. エージェント向けの実験追跡

評価スタジオは、開発者がデータセット上のプロンプトのさまざまなバージョンを評価し、直感的なユーザー・インターフェイスで成果を比較するのに役立ちます。また、ユーザーがメトリクスを選択し、重要度に基づいて重みを割り当てることによって、カスタム・ランキング・スキームを考案できる、独自のカスタム・ランキングのサポートも提供しています。これにより、ユーザーはツールまたはエージェントで使用するプロンプトを簡単に最適化できます。

評価スタジオであるwatsonx.governanceは、より優れたエージェント型AIシステムを構築するための強力なツールである実験追跡もサポートしています。実験をすばやく設定し、さまざまな(エージェントの)変数を試し、使用したモデル、検索ツール、プロンプトなどの詳細をタグ付けできます。レイテンシー、コスト、品質(忠実度など)に基づいて並べて比較することで、最も優れている変数を簡単に確認できます。重要な点として、このプラットフォームが各実行の正確なコードを保存するのに役立つため、開発者は各バージョンを保存する時間から解放され、エージェントの構築と改善に集中できるようになります。

5. イン・ザ・ループ評価ツール:重要な市場差別化要因

IBM watsonx.governanceソリューションは、エージェント・ガバナンスの新しい基準を設定する、すぐに使用できるデコレーター・ベースのイン・ザ・ループ評価ツールをサポートすることで、お客様がメトリクスを評価し、それを使用してエージェントの実行フローを決定できるようにします。IBM watsonx.governanceは、エージェント評価ツールを介したオフラインでのエージェント評価もサポートしており、構築中のテストデータに基づいてAIエージェントを評価する際に役立ちます。主な機能には以下が含まれます。

  • ループ内評価ツール: LangGraphエージェントでツールまたはノードが実行されるたびにメトリクスを計算するために、イン・ザ・ループ評価ツールを使用できます。これは、コンテキストの関連性、忠実度、ツールの呼び出しハルシネーションなど、さまざまなメトリクスを計算するために使用できます。エージェントの実行フローは、計算されたメトリクスの値に基づいて調整できます。たとえば、エージェント型RAGアプリケーションで、コンテキストとの関連性が低い場合、取得したコンテキストを使用して回答を生成しても意味がありません。したがって、エージェントのフローは、計算されたコンテキスト関連値に基づいて変更され、回答生成ノードに進むのではなく、ユーザーに直接応答するようにできます。
  • 使いやすさ:イン・ザ・ループ評価ツールの典型的な使用方法は、カスタム・コードをLangGraphアプリケーションにノードとして追加することです。watsonx.governanceのイン・ザ・ループ評価はPythonデコレーターとして利用できるため、エージェント型AIアプリケーションを構築する際にとても使いやすくなっています。

この革新的なツールは、エージェントのパフォーマンスに対する比類のない可視性と制御を提供し、お客様がワークフローを最適化し、より良い結果をもたらすことを可能にします。

AI/ML Opsチームの進化するニーズをサポート:将来のロードマップ

AI/ML Opsチームをさらに支援するため、IBMは新機能のパイプラインを活用したイノベーションの推進に尽力しています。今後のリリースでは、次のような追加のエージェント・ガバナンス機能を提供予定です。

  1. エージェント型AI向けの高度な本番監視:IBMのwatsonx.governanceは、エージェント型アプリケーションの継続的な監視機能を提供し、指定されたメトリクスのいずれかが事前定義された制限を超えた場合にアラートを発する機能を搭載予定です。この機能により、最適かつ信頼できるAIの性能を維持するための事前対応型の管理と、タイムリーな介入が徹底されます。
  2. ガバナンス付きエージェントカタログ:これにより、ツールやエージェントをセントラル・カタログに追加するプロセスにガバナンスを加えることができます。これにより企業は、信頼できるツールとエージェントのみを開発者が利用できる状態を確保できます。

ガバナンスは、もはやコンプライアンスと監査によって定義される障壁ではありません。現在では、拡張のイネーブラーとなり、チームは堅牢で透明性が高く、エンタープライズでのデプロイメントに対応した生成AIシステムを構築する推進要因となります。ガバナンスとは、ゼロから効率的、安全、信頼できるAIエージェント、アプリケーション、モデルを構築することです。

生成AIが進化し続ける中、watsonx.governanceにより、チームは自信、透明性、コントロールを持って、迅速に行動できるようになります。当社の評価に対するアプローチは、リアルタイムのリスク管理、自動実験管理、あらゆる段階での追跡と透明性に重点を置いています。現実世界の複雑さを念頭に置いて構築されたwatsonx.governanceは、チームが責任を持って拡張し、リスクを軽減し、速度を低下させることなく生成AIの可能性を最大限に解放できるように支援します。

抜粋をダウンロード

IBM watsonx.governanceの詳細はこちら

製品を無料で試す