生成AIに対するオブザーバビリティーの適応

執筆者

Staff Writer

IBM Think

オブザーバビリティーとは、主にメトリクス、イベント、ログ、トレースなどのテレメトリー・データ（総称して「MELT データ」）を通じてシステムの出力を分析することで、システムの内部状態を理解する能力です。

オブザーバビリティーは従来のモニタリング・ソリューションを超えて、ソフトウェア・システムとクラウド・コンピューティング環境に関する重要な知見を提供することで、ITチームが可用性を確保し、パフォーマンスを最適化し、異常を検出できるようにします。

ほとんどのITシステムは決定論的に動作するため、根本原因の分析は非常に簡単です。アプリに障害が発生した場合、オブザーバビリティー・ツールはMELTデータを使用して信号を関連付け、障害を特定し、それがメモリー・リーク、データベース接続障害、APIタイムアウトのいずれであるかを判断できます。

しかし、大規模言語モデル（LLM）やその他の生成人工知能（AI）アプリケーションによって、オブザーバビリティーは複雑化します。従来のソフトウェアとは異なり、LLMは確率的なアウトプットを生成します。つまり、同じインプットから異なる応答が生成される可能性があります。この解釈可能性の欠如、つまり、インプットがアウトプットをどのように形成するかを追跡しにくいことは、従来のオブザーバビリティー・ツールに問題を引き起こす可能性があります。その結果、生成AIシステムでは、トラブルシューティング、デバッグ、パフォーマンス・モニタリングが大幅に複雑になります。

「オブザーバビリティーは、たとえば、AIの応答に個人情報が含まれているかどうかを検出できますが、それを止めることはできません」と、Instanaの南北アメリカ・セールス・リーダーであるIBMのDrew Flowersは説明します。「このモデルの意思決定プロセスは依然としてブラックボックスです」。

この「ブラックボックス」現象は、LLMのオブザーバビリティーの重大な課題を浮き彫りにします。オブザーバビリティー・ツールは、発生した問題を検出することはできるが、AIの説明可能性（モデルが特定の決定を下したり、特定の出力を生成したりした理由を、人間が理解できる形で提供する能力）に苦戦するため、これらの問題を防ぐことはできません。

説明可能性の問題が解決されるまで、AIオブザーバビリティー・ソリューションは、効果的に測定および分析できるものを優先順位付けする必要があります。これには、従来のMELTデータとAI固有のオブザーバビリティー・メトリクスが含まれます。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

生成AIオブサーバビリティーの重要なメトリクス

従来のメトリクスはモデルの動作を完全に可視化するものではありませんが、AIオブザーバビリティーにとっては重要な構成要素であることに変わりはありません。CPU、メモリー、ネットワークの性能は、AIシステムの機能とユーザー体験に直接影響します。これは、組織がAIワークロードをどの程度効率的に実行しているか、またインフラストラクチャーの制約がモデルの性能や応答時間に影響を与えているかどうかを評価するのに役立ちます。

ただし、包括的な AI オブザーバビリティーには、 AIモデルの動作とアウトプットに固有の品質を監視する次のような追加のメトリクスが必要です。

トークンの使用状況
モデルドリフト
応答の質
責任あるAIモニタリング

トークンの使用状況

トークンとは、AIモデルが理解できる言語の個々の単位のことで、通常は単語または単語の一部です。インプットの理解やアウトプットの生成のためにモデルが処理するトークンの数は、LLMベースのアプリケーションのコストと性能に直接影響します。トークンの使用量が増えると、運用コストが増加し、応答待ち時間が長くなる可能性があります。

トークンの使用状況を追跡するための主なメトリクスは次のとおりです。

トークンの使用率とコストは、運用コストを定量化する助けになります。
トークンの効率性：各トークンがどれだけ効果的に使用されているかを示す指標。効率的なやりとりにより、使用されるトークンの数を最小限に抑えながら、高品質のアウトプットが生成されます。
各種プロンプトにおけるトークンの使用パターン：リソースを大量に消費するモデルの使用を特定できます。

これらのメトリクスは、より少ないトークンでより多くの情報を伝えるためにプロンプトを改良するなど、トークン消費を削減する最適化の機会を特定するのに役立ちます。トークンの利用率を最適化することで、組織は高い応答の質を維持しながら、機械学習ワークロードの推論コストを削減できる可能性があります。

モデル・ドリフト

従来のソフトウェアとは異なり、AIモデルは実世界のデータが進化するにつれて徐々にその動作を変えることができます。モデル・ドリフトと呼ばれるこの現象は、AIシステムの信頼性とパフォーマンスに大きな影響を与える可能性があります。

モデル・ドリフトを追跡するための主なメトリクスは次のとおりです。

時間の経過に伴う応答パターンの変化：新しい矛盾を特定します。
アウトプットの質または関連性の変動：モデルのパフォーマンスwの低下を示すことがあります。
計算の非効率性を示す可能性のある、レイテンシーまたはリソース使用率の変化。

ドリフト検出メカニズムは、特定のユースケースでモデルの精度が低下した場合に早期に警告を発し、モデルが業務に支障をきたす前にチームが介入できるようにします。

レスポンスの質

信頼性とコンプライアンスを維持するためには、AIのアウトプットの質をモニタリングすることが不可欠です。メトリクスを追跡するための主なメトリクスは次のとおりです。

各種プロンプトにまたがるハルシネーションの頻度：不正確なアウトプットを出す可能性のあるトリガーを特定します。
生成された応答の事実に基づく精度：ただし多くの場合、外部での検証や人間による監視が必要になります。
類似のインプットに対するアウトプットの一貫性：モデルの経時的な安定性を検証します。
ユーザー・プロンプトに対する応答の関連性：モデルがユーザーの意図にどのように一致しているかを評価します。
レイテンシー・トラッキングは、スピードと精度のトレードオフが必要になることが多い、ユーザー向けAIアプリケーションにとって極めて重要です。プロンプトの応答時間を監視することで、組織はパフォーマンスのボトルネックや計算の非効率性を突き止めることができます。

これらのメトリクスを追跡することで、異常な反応にフラグを立てることはできますが、オブザーバビリティー・ツールは、ハルシネーションが起こる理由を完全に説明することはできず、AIが生成したコンテンツの正しさを自動的に判断することもできません。これらは、AIの信頼とガバナンスにおける中心的な課題であり、まだ誰も完全に対処できていません。

責任あるAIの監視

倫理的なAIの導入と規制遵守を確保するには、AIが生成したコンテンツを包括的に監視する必要があります。

責任あるAIを追跡するための主なメトリクスは次のとおりです。

応答に発生するバイアス：ユーザーのやり取り全体で公平性を確保します。
生成されたコンテンツ内のPIIのインスタンス：機密情報の保護に役立ちます。
業界標準と規制に沿った倫理的なAIガイドラインへの準拠
ブランドの評判とユーザーの信頼を維持するためのコンテンツの適切性。

自動異常検出機能を備えたリアルタイムの視覚化ダッシュボードは、AIアウトプットが予想される基準から逸脱した場合にチームに警告を発することができます。この先見的なアプローチにより、組織は問題に迅速に対処し、AIの性能を長期にわたって監視し、責任あるAIの大規模な導入を実現できます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

OpenTelemetryとAIオブサーバビリティー

OpenTelemetry（OTel）は、テレメトリー・データを収集および送信するための業界標準フレームワークとして登場しており、生成AIオブザーバビリティーも支援できます。このオープンソースプロジェクトは、オブザーバビリティーに対するベンダー中立のアプローチを提供して、複雑な AI エコシステムで特に価値を発揮します。

AIプロバイダーにとって、OpenTelemetryは、独自のモデルの詳細やソースコードを公開することなく、性能データをどのように共有すべきかを標準化する方法を提供します。企業にとっては、オブザーバビリティーのデータが、複数のモデル、さまざまな依存関係、検索拡張生成（RAG）システムを含む複雑なAIパイプライン間で一貫して流れるようになります。

生成AIのオブサーバビリティーにおけるOpenTelemetryの主要なメリットは次のとおりです。

ベンダーの独立性：組織は特定のオブザーバビリティー・プラットフォームにロックされることなく、AI テクノロジーの進化に合わせて柔軟性を維持します。
エンドツーエンドの可視性：テレメトリー・データが、AIアプリケーション・インフラストラクチャーのすべてのコンポーネントから一貫して流れます。
将来性：AIテクノロジーが進化するにつれて、OpenTelemetry標準もそれに適応し、オブザーバビリティー戦略の関連性が維持されます。
エコシステムの統合：オープン・スタンダードにより、マルチベンダーのAIソリューションとハイブリッド導入モデル全体のオブザーバビリティが可能になります。
メタデータの標準化：トレーニングのタイムスタンプ、データセットのソース、モデル・インプットなどの重要なメタデータを取得して、AI システムの動作を理解するための重要なコンテキストを提供します。

IBM® Instana Observabilityの力を解き放つ

IBM Instana Observabilityを使用すれば、219％のROIを達成し、開発者がトラブルシューティングに費やす時間を90％削減できます。

スピードがすべて

AIアプリケーションには、モデルのライセンス・コストからインフラストラクチャーの支出や開発者のリソースまで、多額の投資が必要です。生成AIオブザーバビリティーを遅らせている組織は、パフォーマンスの問題、倫理的な問題、または非効率的な実装を発見できないと、リソースを浪費するリスクがあります。

「AIのオブサーバビリティーにとっては、価値実現までの時間（TTV）がすべてです」とFlowers氏は言います。「すぐに知見を得ることができなければ、システムの最適化を待つ間、お金を浪費することになります」

AIオブザーバビリティーの導入を遅らせる一般的な課題には、次のようなものがあります。

大規模なセットアップと構成を必要とする複雑なカスタム・ダッシュボード
処理のボトルネックを生み出す圧倒的なデータ量
アラートの構成とレポートの生成における自動化の欠如
AI プラットフォームとオブザーバビリティ・ツール間の統合の難しさ
AI固有のテレメトリー・データの解釈におけるスキル・ギャップ

これらの課題を克服するには、組織は以下をサポートするオブザーバビリティー・ソリューションを検討する必要があります。

迅速な展開
自動的に生成される知見
統合されたAIワークフロー

迅速な導入

組織は、即座に知見を得られるように迅速に展開できるオブザーバビリティー・ソリューションを優先する必要があります。事前に構成されたプラットフォームはセットアップ時間を大幅に短縮し、TTVを高速化するため、チームは数週間ではなく数日でAIシステムの監視を開始できます。

AIオブザーバビリティーの導入を実現するためのオブザーバビリティー・ソリューションの主な機能には以下のようなものがあります。

最小限のカスタマイズですぐに使用できるAI固有のダッシュボード・テンプレート
一般的なAIフレームワークやプラットフォームからデータの収集をすぐに開始できる自動計測ツール
カスタム統合作業の必要性を排除する、一般的なLLMプロバイダーおよびAIインフラストラクチャー向けに事前構築されたコネクター
一般的なAIユースケースに対する実証済みのアプローチをチームが開始して実行できるように支援するクイック・スタート実装ガイド

自動的に生成される知見

AIによって生成された膨大なデータを手作業で分析するには、多大な時間と専門知識が必要であり、多くの場合、遅延やミス、問題の見落としにつながります。オブザーバビリティー・ソリューションを使用すると、このプロセスを自動化できるため、チームは生のテレメトリー・データを選別するよりも、より緊急性の高い問題に集中できるようになります。

AIオブザーバビリティー・ソリューションにおける主な自動化には以下が含まれます。

異常検知を使用することで、手動で閾値を設定することなく、AIの動作や性能の異常を特定。
問題を特定するだけでなく、システム最適化のための実行可能な推奨事項を生成
技術的な問題をビジネス関連の説明に変換
影響に基づいてアラートに優先順位を付けることで、アラート疲労を回避し、ダウンタイムを削減

統合AIワークフロー

オブザーバビリティーは後回しにすべきではありません。オブザーバビリティーをAI開発ライフサイクル全体に組み込むことで、組織全体のチームがAIシステムのパフォーマンスを可視化できるようになり、より迅速な問題解決とより多くの情報に基づいた意思決定が実現します。

AIオブザーバビリティーにとって、TTV は単にオブザーバビリティー・ツールをどれだけ早く実装できるかということだけではありません。これらのツールがAIへの投資を最適化し、ダウンタイムを防ぐための知見をどれだけ迅速に提供するかということも重要です。

AIオブザーバビリティーをAI開発ワークフローに統合する主な方法は次のとおりです。

AIアプリケーションのCI/CDパイプラインへのオブザーバビリティーの組み込み
本番環境前にオブザーバビリティー機器をテスト
本番環境の監視のために、開発段階のメトリクスを取得

監視から予測まで

AIオブザーバビリティーが成熟するにつれて、組織は事後対応型の監視から、問題がユーザーやビジネス成果に影響を与える前に予測する予測型アプローチへと移行しています。これをサポートするために、最先端のオブザーバビリティー・ソリューションには現在、テレメトリー・データ全体のパターンを分析し、問題が重大化する前に独自の特殊なAIツールが組み込まれています。

「オブザーバビリティーで最も価値のあるAIは、生成AIではなく、予測AIと因果AIです」とFlowers氏は説明します。

予測AIと因果AI機能を備えたオブザーバビリティー・ツールで次のことが可能となります。

モデル・ドリフトがいつ問題レベルに達するかを予測
AIの使用パターンに基づいてリソース要件を予測
ハルシネーションを引き起こす可能性のあるプロンプトのパターンを特定
微妙なバイアスの傾向が顕著になる前に検出

反応型から予測型へのオブザーバビリティーの変化は、AI運用の次のフロンティアであり、一貫性のある質の高いアウトプットを確保しながら、AI アプリケーションとインフラストラクチャーのより先見的な管理を可能にします。

適切な生成AIオブサーバビリティー・ソリューションを見つける

これまでに説明した課題と解決策を踏まえて、生成AIアプリケーションに適したオブザーバビリティー・ソリューションを探す際に留意すべき5つの重要な原則をご紹介します。

固有の限界を認識する

AIオブザーバビリティーは、パフォーマンスのパターンと異常に関する重要な知見を提供しますが、大規模言語モデルの内部意思決定プロセスを完全に説明することはできません。システムの健全性とパフォーマンスを示す測定可能なメトリクスに焦点を当てます。

従来のメトリクスの先を見据えて考える

包括的な生成AIオブザーバビリティーには、CPU使用率やメモリー消費量など従来のインフラストラクチャー・パフォーマンス・メトリクスに加えて、トークンの使用パターン、モデル・ドリフト・インジケーター、プロンプト/応答関係を監視する必要があります。

価値実現までの時間を重視する

事前構成されたダッシュボードと自動アラートを備えた迅速な導入機能を搭載したオブザーバビリティー・プラットフォームを選択して、AI 投資の回収を迅速化し、コストのかかる運用上の問題を回避します。

オブザーバビリティーをソフトウェア開発に統合する

ソフトウェア開発ライフサイクルの早い段階でオブザーバビリティー機器を統合し、導入前の問題を特定し、パフォーマンス基準を確立し、AIシステムの質を向上させるフィードバック・ループを作成します。

OpenTelemetryを採用する

オープン・オブサーバビリティー・フレームワークを標準化することで、複雑なAIシステム全体にわたって包括的なエンドツーエンドの可視性を実現し、ベンダー・ロックインを回避しながら、将来を見据えたオブサーバビリティー戦略を策定できます。

また、OpenTelemetryを採用するからといって、オープンソースのオブサーバビリティー・ソリューションを選択する必要はありません。組織ですでに使用している多くの商用プラットフォームは、エンタープライズ・グレードの追加機能を提供しながら、OTelを完全にサポートしています。

商用オブザーバビリティー・ソリューションは、AI駆動型の知見と継続的なサポートによって完全管理型オブザーバビリティーを実現できるため、手動のセットアップと保守が最小限に抑えられ、TTVが向上します。

「ダッシュボードを構築し、アラートを作成し、コンテキストとデータを構築しているとき、私は文字通りツールの構築に集中しています。私はシステムを最適化しているわけではないし、顧客のイニシアチブをサポートしているわけでもありません」とFlowers氏は言います。「私がしていることは基本的に、お金を稼ぐのには役立ちません」

商用オブザーバビリティー・ソリューションでは、その設定の多くを自動化したり、事前構成したりすることができます。代わりに、チームは生成AIモデルの性能と信頼性を最適化することに集中し、オブザーバビリティーへの投資とAIアプリケーションの実世界への影響の両方を最大化することができます。

IBM Instana Observabilityの力を解き放つ