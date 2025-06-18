2025年6月18日
エージェント型AIは変革をもたらす力であり、Gartnerは、2028年までに生成AIによるやりとりの3分の1でアクションモデルと自律エージェントが使用されるようになると予測しています。
しかし、管理されていないAIエージェントは、高度な自律性と権限を持って動作できるため、組織を数多くの予測不可能なリスクにさらし、それが企業や顧客の双方に有害で不可逆的な影響を及ぼす可能性があります。データに影響を受けた複雑な意思決定プロセスは、バイアスを生み、追跡性を複雑にし、セキュリティー上の懸念を引き起こす可能性があります。ハルシネーションや誤った選択はこれらの課題をさらに複雑にします。
これらの課題に対処するために、当社は3月にエージェントAIガバナンス機能の技術プレビューを発表しました。この流れを受け、当社はwatsonx.governanceの一環として、新たな機能を追加展開しています。
管理されたエージェントカタログは、AIツール、エージェント、ワークフローを管理および選択するための包括的なリソースであり、ツール/エージェントの選択を合理化し、ユーザーおよびユースケース全体での再利用を促進するように設計されています。この一元化されたリポジトリにより、幅広いツールが統合され、それぞれがエージェント・システムの設計と構築に不可欠な特定のタスクを実行することで、チームは一貫性と効率を維持できます。これらのエージェント・ツールには、データ取得や外部接続などのさまざまな機能が含まれます。
カタログの主要な機能は次のとおりです。
管理されたエージェント・カタログを活用することで、チームはツールの無秩序な増加を管理し、ツールの適切な利用を確保し、部門間の一貫性を維持できます。ツール管理に対するこの包括的なアプローチにより、最終的には進捗が加速し、エージェント・システム開発のための共同環境が促進されます。
AIエージェントの普及により、これらの自律型AIエージェントの性能、信頼性、安全性、倫理的行動を評価する課題など、非常に複雑な課題が生じています。
エージェント型AI評価のベスト・プラクティスにより、さまざまな予測可能および未知のリスクにさらされるリスクを軽減できます。しかし、エージェントは出力だけでなく行動、決定、意図も観察する必要があるため、効果的なパフォーマンス追跡は組織や開発者にとって課題となる可能性があります。watsonx.governanceを使用すると、組織は次の機能を使用してエージェントの性能を評価できます。
watsonx.governanceは3月以降、追加の特殊なメトリクスをサポートする新しい機能を導入しました。新しいRAGエージェント型AI評価メトリクスが利用できるようになりました。パフォーマンスを評価するための包括的なメトリクスには、HAP、PII、プロンプト・インジェクション、コンテキスト適合性、忠実性、回答の類似性、回答の関連性、ヒット率、平均適合率、順位の逆数、失敗リクエスト数などが含まれており、当社システムの有効性を徹底的に評価できるよう設計されています。これにより、エージェントが適切に行動しているかを確認し、警告サインを検知できます。また、必要なガードレールを追加して、望ましい成果に向けてエージェントの行動を調整できます。
これらのメトリクスは、LangGraphアプリケーションのツール・ノードにシンプルなPythonデコレーターを追加することで利用できます。このデコレーターを追加すると、アプリケーションでノードを実行する副産物としてメトリクスが計算されます。計算されたメトリクスはアプリケーション内で使用してフローを決定できます。たとえば、ベクトル・データベースから取得したコンテキストがユーザーのクエリに関連していない場合、回答を生成せず、代わりにWeb検索を行って正しいコンテキストを取得することが推奨されます。これらの評価ツールは使いやすいだけでなく効率的であり、オープンソース・メトリクスとIBM高度なメトリクスの両方が含まれています。このように、幅広い評価機能を提供し、さまざまなユースケースやタスク・タイプに適しています。
実験の追跡は、AIエージェントを管理する上で非常に重要です。開発プロセス中に行われたすべての変更、反復、改善の包括的な記録が得られるためです。これには、アルゴリズム、データインプット、ハイパーパラメーター、その他のクリティカルな側面の変更が含まれます。
Agenticアプリ開発は反復的なプロセスです。開発者はエージェント型AIアプリを構築してテストし、必要に応じてファイン・チューニングを行い、アウトプットを改善するために新しいバージョンを構築します。そして、このプロセスはさらなる最適化のために次に進む。Watsonx.governanceは、Evaluation Studioを使用してさまざまな実験と比較の追跡を自動的にサポートします。
watsonx.governanceは、エージェント型AIアプリケーションの迅速な比較を可能にし、反復と開発のプロセスを加速します。この機能は、当社のwatsonxプラットフォーム上に構築されたAIアプリに限定されるものではありません。また、サード・パーティー・プラットフォームのサポートも拡張し、汎用性を提供しています。
メトリクスの監視は、エージェントのパフォーマンスを追跡し、本番環境でのパフォーマンスの低下、データドリフトやモデルのバイアスなどの問題を検知し、改善を導くのに役立ちます。適切な評価がなければ、AIエージェントの信頼、制御、または調整／ファイン・チューニングして精度を向上させることが困難になり、意図しない結果が生じるリスクが高まります。
本番環境にエージェント型AIをデプロイするシナリオでは、継続的な監視が不可欠であり、エージェントのハルシネーション、応答時間、モデル・ドリフト、バイアスといった課題への対応が求められます。エージェント型AIアプリケーションを本番環境で継続的に監視しながらデプロイすることは、システムの信頼性と信用を維持するために不可欠です。リアルタイム監視により、MLOpsチームとAgentOpsチームは、モデルとエージェントの動作、性能のドリフト、アウトプットの予期しない変化を追跡できるため、逸脱が発生した場合には即座に介入できます。この運用準備により、自律システムは意図された目標と安全性上の制約に沿った状態を維持できます。
今後のリリースでは、IBMのwatsonx.governanceがエージェント・アプリケーションの継続的な監視を行う機能を備える予定で、指定されたメトリクスのいずれかが事前定義された制限を超えた場合にアラートを発する予定です。この機能により、最適なAIの性能を維持するための事前対応型の管理とタイムリーな介入が保証されます。
他の急速に進化しているテクノロジーと同様、AIエージェントは潜在的なリスク、障害、社会的影響をもたらします。AIエージェントによってもたらされる新たなリスクには、データ・バイアス、冗長なアクション、機能呼び出しハルシネーション、機密情報の共有、AIエージェントの外部参考情報に対する攻撃などがあります。これらに加えて、エージェント型AIは既存のリスク、課題、社会的影響を拡大します。
IBM Risk Atlasは、データとAIに固有のリスクのリストを提供し、エージェントによるリスクと脅威を反映するように更新されています。
AIガバナンスは、ユースケースの作成、開発、検証から本番環境での監視に至るまで、AIライフサイクル全体にわたって必要です。どの段階にもリスクや落とし穴があり、適切に管理しないと、現在または将来の問題を引き起こす可能性があります。たとえば、新しいユースケースを作成する際には、Watsonx.governanceがリスクアセスメントを提供し、ユースケースがどのリスクにさらされやすいかを特定できるようにします。これにより、必要なリスク管理手法を組み込むことができます。同様に、エージェント・アプリケーションの開発中は、アプリケーション内の各ツールまたはノードの性能を測定および評価して、将来のイテレーションで改善を行う必要があります。
Watsonx.governanceは、50を超えるメトリクスを備えたライブラリを提供しており、それらをアプリケーションにデコレーターとして追加することで、パフォーマンスを測定できます。ガバナンスがなければ、AIの拡張や信頼構築は不可能です。
効果的なガバナンスとセキュリティーは不可欠ですが、企業が成長し、AI を大規模に導入するにつれて、堅牢なAIガバナンス体制の構築が必要となります。これにより、安全な実験を確保し、AI普及に伴う複雑性を効率的に管理できます。
watsonx.governanceを活用して、新しい機能リリースやその他の強化を探り、企業がAIの真の可能性を引き出し、AIガバナンス体験を変革できるようにしましょう。
今すぐwatsonx.governanceを無料でお試しください