新しいwatsonx.governanceの機能でエージェント型AIを最大限に活用する

オフィスで働き、立っているビジネスパーソン2人

執筆者

Andrea Colmenares

AI Campaign, Product Marketing

Sahiba Pahwa

Product Marketing, watsonx.governance

IBM

エージェント型AIは変革をもたらす力であり、Gartnerは、2028年までに生成AIによるやりとりの3分の1でアクションモデルと自律エージェントが使用されるようになると予測しています。

しかし、管理されていないAIエージェントは、高度な自律性と権限を持って動作できるため、組織を数多くの予測不可能なリスクにさらし、それが企業や顧客の双方に有害で不可逆的な影響を及ぼす可能性があります。データに影響を受けた複雑な意思決定プロセスは、バイアスを生み、追跡性を複雑にし、セキュリティー上の懸念を引き起こす可能性があります。ハルシネーションや誤った選択はこれらの課題をさらに複雑にします。

これらの課題に対処するために、当社は3月にエージェントAIガバナンス機能の技術プレビューを発表しました。この流れを受け、当社はwatsonx.governanceの一環として、新たな機能を追加展開しています。

エージェント用のツールのインベントリーの合理化

管理されたエージェントカタログは、AIツール、エージェント、ワークフローを管理および選択するための包括的なリソースであり、ツール/エージェントの選択を合理化し、ユーザーおよびユースケース全体での再利用を促進するように設計されています。この一元化されたリポジトリにより、幅広いツールが統合され、それぞれがエージェント・システムの設計と構築に不可欠な特定のタスクを実行することで、チームは一貫性と効率を維持できます。これらのエージェント・ツールには、データ取得や外部接続などのさまざまな機能が含まれます。

カタログの主要な機能は次のとおりです。

  1. ツール・リネージュ・マッピングを有効にする:ユーザーがツールをそれぞれのユースケースまでさかのぼって追跡できるようにします。主要な機能は、今後のリリースで利用可能になります。また、ケースのタイプやドメインを使用した検索機能も提供するため、ユーザーは関連するツールをすばやく見つけて、プロジェクトの開始を迅速化することができます。
  2. 統合ビューでツールの比較を容易に:ユーザーは種類に基づいてツールをフィルターでき、各ツール・カードには明確な説明と品質メトリクスが表示されます。このカタログは、さまざまなツールを簡単に並べて比較するのを容易にし、ユーザーが情報に基づいた意思決定を行えるようにします。
  3. ツールの有効性と信頼性を確保:今後のリリースでは、ユーザーが他のコミュニティ・メンバーからの評価を閲覧し、ツールの有効性と信頼性を判断できるようになります。

管理されたエージェント・カタログを活用することで、チームはツールの無秩序な増加を管理し、ツールの適切な利用を確保し、部門間の一貫性を維持できます。ツール管理に対するこの包括的なアプローチにより、最終的には進捗が加速し、エージェント・システム開発のための共同環境が促進されます。

エージェント型AIの性能評価を加速

AIエージェントの普及により、これらの自律型AIエージェントの性能、信頼性、安全性、倫理的行動を評価する課題など、非常に複雑な課題が生じています。

エージェント型AI評価のベスト・プラクティスにより、さまざまな予測可能および未知のリスクにさらされるリスクを軽減できます。しかし、エージェントは出力だけでなく行動、決定、意図も観察する必要があるため、効果的なパフォーマンス追跡は組織や開発者にとって課題となる可能性があります。watsonx.governanceを使用すると、組織は次の機能を使用してエージェントの性能を評価できます。

  • ベンチマークによる評価指標:全体およびさまざまなタスクにおけるエージェントの能力を評価するのに役立ちます。
  • 根本原因分析:パフォーマンス追跡や意思決定プロセスにおいて、不十分な結果の根本的な原因を特定します。最終的な出力だけでなく、その意思決定の連鎖全体を把握し、改善の指針を得ることができます。例:偏りのないデータの欠如。
  • フィードバックまたはレッドチーム化:SMEはエージェントの行動(ループ内の人間)を観察および検証し、エージェントの感受性をテストできます。

watsonx.governanceは3月以降、追加の特殊なメトリクスをサポートする新しい機能を導入しました。新しいRAGエージェント型AI評価メトリクスが利用できるようになりました。パフォーマンスを評価するための包括的なメトリクスには、HAP、PII、プロンプト・インジェクション、コンテキスト適合性、忠実性、回答の類似性、回答の関連性、ヒット率、平均適合率、順位の逆数、失敗リクエスト数などが含まれており、当社システムの有効性を徹底的に評価できるよう設計されています。これにより、エージェントが適切に行動しているかを確認し、警告サインを検知できます。また、必要なガードレールを追加して、望ましい成果に向けてエージェントの行動を調整できます。

これらのメトリクスは、LangGraphアプリケーションのツール・ノードにシンプルなPythonデコレーターを追加することで利用できます。このデコレーターを追加すると、アプリケーションでノードを実行する副産物としてメトリクスが計算されます。計算されたメトリクスはアプリケーション内で使用してフローを決定できます。たとえば、ベクトル・データベースから取得したコンテキストがユーザーのクエリに関連していない場合、回答を生成せず、代わりにWeb検索を行って正しいコンテキストを取得することが推奨されます。これらの評価ツールは使いやすいだけでなく効率的であり、オープンソース・メトリクスとIBM高度なメトリクスの両方が含まれています。このように、幅広い評価機能を提供し、さまざまなユースケースやタスク・タイプに適しています。

Agenticの実験を迅速に進める

実験の追跡は、AIエージェントを管理する上で非常に重要です。開発プロセス中に行われたすべての変更、反復、改善の包括的な記録が得られるためです。これには、アルゴリズム、データインプット、ハイパーパラメーター、その他のクリティカルな側面の変更が含まれます。

Agenticアプリ開発は反復的なプロセスです。開発者はエージェント型AIアプリを構築してテストし、必要に応じてファイン・チューニングを行い、アウトプットを改善するために新しいバージョンを構築します。そして、このプロセスはさらなる最適化のために次に進む。Watsonx.governanceは、Evaluation Studioを使用してさまざまな実験と比較の追跡を自動的にサポートします。

  • エージェント開発の高速化:1つのインスタンスで複数のエージェントを評価することで、サードパーティのプラットフォームで構築された複数のエージェントを評価する開発者の時間を節約し、汎用性を提供します。
  • 意思決定と選択プロセスの強化:複数のエージェントを同時に可視化・比較し、運用効率を高めます。これにより、手作業によるレビューの必要性を排除し、ワークフローを合理化し、人的エラーの可能性を軽減します。
  • 業務効率の向上:手作業でのレビューの必要性を排除し、ワークフローを合理化し、潜在的な人為的ミスを低減します。

watsonx.governanceは、エージェント型AIアプリケーションの迅速な比較を可能にし、反復と開発のプロセスを加速します。この機能は、当社のwatsonxプラットフォーム上に構築されたAIアプリに限定されるものではありません。また、サード・パーティー・プラットフォームのサポートも拡張し、汎用性を提供しています。

本番環境のエージェント型AIアプリケーションをリアルタイムで監視

メトリクスの監視は、エージェントのパフォーマンスを追跡し、本番環境でのパフォーマンスの低下、データドリフトやモデルのバイアスなどの問題を検知し、改善を導くのに役立ちます。適切な評価がなければ、AIエージェントの信頼、制御、または調整/ファイン・チューニングして精度を向上させることが困難になり、意図しない結果が生じるリスクが高まります。

本番環境にエージェント型AIをデプロイするシナリオでは、継続的な監視が不可欠であり、エージェントのハルシネーション、応答時間、モデル・ドリフト、バイアスといった課題への対応が求められます。エージェント型AIアプリケーションを本番環境で継続的に監視しながらデプロイすることは、システムの信頼性と信用を維持するために不可欠です。リアルタイム監視により、MLOpsチームとAgentOpsチームは、モデルとエージェントの動作、性能のドリフト、アウトプットの予期しない変化を追跡できるため、逸脱が発生した場合には即座に介入できます。この運用準備により、自律システムは意図された目標と安全性上の制約に沿った状態を維持できます。

今後のリリースでは、IBMのwatsonx.governanceがエージェント・アプリケーションの継続的な監視を行う機能を備える予定で、指定されたメトリクスのいずれかが事前定義された制限を超えた場合にアラートを発する予定です。この機能により、最適なAIの性能を維持するための事前対応型の管理とタイムリーな介入が保証されます。

リスクをプロアクティブに評価する

他の急速に進化しているテクノロジーと同様、AIエージェントは潜在的なリスク、障害、社会的影響をもたらします。AIエージェントによってもたらされる新たなリスクには、データ・バイアス、冗長なアクション、機能呼び出しハルシネーション、機密情報の共有、AIエージェントの外部参考情報に対する攻撃などがあります。これらに加えて、エージェント型AIは既存のリスク、課題、社会的影響を拡大します。

IBM Risk Atlasは、データとAIに固有のリスクのリストを提供し、エージェントによるリスクと脅威を反映するように更新されています。

ライフサイクル全体にわたるAIガバナンス

AIガバナンスは、ユースケースの作成、開発、検証から本番環境での監視に至るまで、AIライフサイクル全体にわたって必要です。どの段階にもリスクや落とし穴があり、適切に管理しないと、現在または将来の問題を引き起こす可能性があります。たとえば、新しいユースケースを作成する際には、Watsonx.governanceがリスクアセスメントを提供し、ユースケースがどのリスクにさらされやすいかを特定できるようにします。これにより、必要なリスク管理手法を組み込むことができます。同様に、エージェント・アプリケーションの開発中は、アプリケーション内の各ツールまたはノードの性能を測定および評価して、将来のイテレーションで改善を行う必要があります。

Watsonx.governanceは、50を超えるメトリクスを備えたライブラリを提供しており、それらをアプリケーションにデコレーターとして追加することで、パフォーマンスを測定できます。ガバナンスがなければ、AIの拡張や信頼構築は不可能です。

watsonx.governanceを今すぐお試しください

効果的なガバナンスとセキュリティーは不可欠ですが、企業が成長し、AI を大規模に導入するにつれて、堅牢なAIガバナンス体制の構築が必要となります。これにより、安全な実験を確保し、AI普及に伴う複雑性を効率的に管理できます。

watsonx.governanceを活用して、新しい機能リリースやその他の強化を探り、企業がAIの真の可能性を引き出し、AIガバナンス体験を変革できるようにしましょう。

今すぐwatsonx.governanceを無料でお試しください

最新のAIガバナンス・ツールの活用方法を学ぶ

watsonx.governanceの機能について詳しく見る