オブザーバビリティーとは、主にメトリクス、イベント、ログ、トレースなどのテレメトリー・データ(総称して「MELT データ」)を通じてシステムの出力を分析することで、システムの内部状態を理解する能力です。
オブザーバビリティーは従来のモニタリング・ソリューションを超えて、 ソフトウェア・システムと クラウド・コンピューティング環境に関する重要な知見を提供することで、ITチームが可用性を確保し、パフォーマンスを最適化し、異常を検出できるようにします。
ほとんどのITシステムは決定論的に動作するため、根本原因の分析は非常に簡単です。アプリに障害が発生した場合、オブザーバビリティー・ツールはMELTデータを使用して信号を関連付け、障害を特定し、それがメモリー・リーク、データベース接続障害、APIタイムアウトのいずれであるかを判断できます。
しかし、大規模言語モデル(LLM)やその他の生成人工知能(AI)アプリケーションによって、オブザーバビリティーは複雑化します。従来のソフトウェアとは異なり、LLMは確率的なアウトプットを生成します。つまり、同じインプットから異なる応答が生成される可能性があります。この解釈可能性の欠如、つまり、インプットがアウトプットをどのように形成するかを追跡しにくいことは、従来のオブザーバビリティー・ツールに問題を引き起こす可能性があります。その結果、生成AIシステムでは、トラブルシューティング、デバッグ、パフォーマンス・モニタリングが大幅に複雑になります。
「オブザーバビリティーは、たとえば、AIの応答に 個人情報が含まれているかどうかを検出できますが、それを止めることはできません」と、Instanaの南北アメリカ・セールス・リーダーであるIBMのDrew Flowersは説明します。「このモデルの意思決定プロセスは依然としてブラックボックスです」。
この「ブラックボックス」現象は、LLMのオブザーバビリティーの重大な課題を浮き彫りにします。オブザーバビリティー・ツールは、発生した問題を検出することはできるが、AIの説明可能性(モデルが特定の決定を下したり、特定の出力を生成したりした理由を、人間が理解できる形で提供する能力)に苦戦するため、これらの問題を防ぐことはできません。
説明可能性の問題が解決されるまで、AIオブザーバビリティー・ソリューションは、効果的に測定および分析できるものを優先順位付けする必要があります。これには、従来のMELTデータとAI固有のオブザーバビリティー・メトリクスが含まれます。
従来のメトリクスはモデルの動作を完全に可視化するものではありませんが、AIオブザーバビリティーにとっては重要な構成要素であることに変わりはありません。CPU、メモリー、ネットワークの性能は、AIシステムの機能とユーザー体験に直接影響します。これは、組織がAIワークロードをどの程度効率的に実行しているか、またインフラストラクチャーの制約がモデルの性能や応答時間に影響を与えているかどうかを評価するのに役立ちます。
ただし、包括的な AI オブザーバビリティーには、 AIモデルの動作とアウトプットに固有の品質を監視する次のような追加のメトリクスが必要です。
トークンとは、AIモデルが理解できる言語の個々の単位のことで、通常は単語または単語の一部です。インプットの理解やアウトプットの生成のためにモデルが処理するトークンの数は、LLMベースのアプリケーションのコストと性能に直接影響します。トークンの使用量が増えると、運用コストが増加し、応答待ち時間が長くなる可能性があります。
トークンの使用状況を追跡するための主なメトリクスは次のとおりです。
これらのメトリクスは、より少ないトークンでより多くの情報を伝えるためにプロンプトを改良するなど、トークン消費を削減する最適化の機会を特定するのに役立ちます。トークンの利用率を最適化することで、組織は高い応答の質を維持しながら、機械学習ワークロードの推論コストを削減できる可能性があります。
従来のソフトウェアとは異なり、AIモデルは実世界のデータが進化するにつれて徐々にその動作を変えることができます。モデル・ドリフトと呼ばれるこの現象は、AIシステムの信頼性とパフォーマンスに大きな影響を与える可能性があります。
モデル・ドリフトを追跡するための主なメトリクスは次のとおりです。
ドリフト検出メカニズムは、特定のユースケースでモデルの精度が低下した場合に早期に警告を発し、モデルが業務に支障をきたす前にチームが介入できるようにします。
信頼性とコンプライアンスを維持するためには、AIのアウトプットの質をモニタリングすることが不可欠です。メトリクスを追跡するための主なメトリクスは次のとおりです。
これらのメトリクスを追跡することで、異常な反応にフラグを立てることはできますが、オブザーバビリティー・ツールは、ハルシネーションが起こる理由を完全に説明することはできず、AIが生成したコンテンツの正しさを自動的に判断することもできません。これらは、AIの信頼とガバナンスにおける中心的な課題であり、まだ誰も完全に対処できていません。
倫理的なAIの導入と規制遵守を確保するには、AIが生成したコンテンツを包括的に監視する必要があります。
責任あるAIを追跡するための主なメトリクスは次のとおりです。
自動異常検出機能を備えたリアルタイムの視覚化ダッシュボードは、AIアウトプットが予想される基準から逸脱した場合にチームに警告を発することができます。この先見的なアプローチにより、組織は問題に迅速に対処し、AIの性能を長期にわたって監視し、責任あるAIの大規模な導入を実現できます。
OpenTelemetry(OTel)は、テレメトリー・データを収集および送信するための業界標準フレームワークとして登場しており、生成AIオブザーバビリティーも支援できます。この オープンソース プロジェクトは、オブザーバビリティーに対するベンダー中立のアプローチを提供して、複雑な AI エコシステムで特に価値を発揮します。
AIプロバイダーにとって、OpenTelemetryは、独自のモデルの詳細やソースコードを公開することなく、性能データをどのように共有すべきかを標準化する方法を提供します。企業にとっては、オブザーバビリティーのデータが、複数のモデル、さまざまな依存関係、検索拡張生成(RAG)システムを含む複雑なAIパイプライン間で一貫して流れるようになります。
生成AIのオブサーバビリティーにおけるOpenTelemetryの主要なメリットは次のとおりです。
AIアプリケーションには、モデルのライセンス・コストからインフラストラクチャーの支出や開発者のリソースまで、多額の投資が必要です。生成AIオブザーバビリティーを遅らせている組織は、パフォーマンスの問題、倫理的な問題、または非効率的な実装を発見できないと、リソースを浪費するリスクがあります。
「AIのオブサーバビリティーにとっては、価値実現までの時間(TTV)がすべてです」とFlowers氏は言います。「すぐに知見を得ることができなければ、システムの最適化を待つ間、お金を浪費することになります」
AIオブザーバビリティーの導入を遅らせる一般的な課題には、次のようなものがあります。
これらの課題を克服するには、組織は以下をサポートするオブザーバビリティー・ソリューションを検討する必要があります。
組織は、即座に知見を得られるように迅速に展開できるオブザーバビリティー・ソリューションを優先する必要があります。事前に構成されたプラットフォームはセットアップ時間を大幅に短縮し、TTVを高速化するため、チームは数週間ではなく数日でAIシステムの監視を開始できます。
AIオブザーバビリティーの導入を実現するためのオブザーバビリティー・ソリューションの主な機能には以下のようなものがあります。
AIによって生成された膨大なデータを手作業で分析するには、多大な時間と専門知識が必要であり、多くの場合、遅延やミス、問題の見落としにつながります。オブザーバビリティー・ソリューションを使用すると、このプロセスを自動化できるため、チームは生のテレメトリー・データを選別するよりも、より緊急性の高い問題に集中できるようになります。
AIオブザーバビリティー・ソリューションにおける主な自動化には以下が含まれます。
オブザーバビリティーは後回しにすべきではありません。オブザーバビリティーをAI開発ライフサイクル全体に組み込むことで、組織全体のチームがAIシステムのパフォーマンスを可視化できるようになり、より迅速な問題解決とより多くの情報に基づいた意思決定が実現します。
AIオブザーバビリティーにとって、TTV は単にオブザーバビリティー・ツールをどれだけ早く実装できるかということだけではありません。これらのツールがAIへの投資を最適化し、ダウンタイムを防ぐための知見をどれだけ迅速に提供するかということも重要です。
AIオブザーバビリティーをAI開発ワークフローに統合する主な方法は次のとおりです。
AIオブザーバビリティーが成熟するにつれて、組織は事後対応型の監視から、問題がユーザーやビジネス成果に影響を与える前に予測する予測型アプローチへと移行しています。これをサポートするために、最先端のオブザーバビリティー・ソリューションには現在、テレメトリー・データ全体のパターンを分析し、問題が重大化する前に独自の特殊なAIツールが組み込まれています。
「オブザーバビリティーで最も価値のあるAIは、生成AIではなく、予測AIと因果AIです」とFlowers氏は説明します。
予測AIと因果AI機能を備えたオブザーバビリティー・ツールで次のことが可能となります。
反応型から予測型へのオブザーバビリティーの変化は、AI運用の次のフロンティアであり、一貫性のある質の高いアウトプットを確保しながら、AI アプリケーションとインフラストラクチャーのより先見的な管理を可能にします。
これまでに説明した課題と解決策を踏まえて、生成AIアプリケーションに適したオブザーバビリティー・ソリューションを探す際に留意すべき5つの重要な原則をご紹介します。
AIオブザーバビリティーは、パフォーマンスのパターンと異常に関する重要な知見を提供しますが、大規模言語モデルの内部意思決定プロセスを完全に説明することはできません。システムの健全性とパフォーマンスを示す測定可能なメトリクスに焦点を当てます。
包括的な生成AIオブザーバビリティーには、CPU使用率やメモリー消費量など従来のインフラストラクチャー・パフォーマンス・メトリクスに加えて、トークンの使用パターン、モデル・ドリフト・インジケーター、プロンプト/応答関係を監視する必要があります。
事前構成されたダッシュボードと自動アラートを備えた迅速な導入機能を搭載したオブザーバビリティー・プラットフォームを選択して、AI 投資の回収を迅速化し、コストのかかる運用上の問題を回避します。
ソフトウェア開発ライフサイクルの早い段階でオブザーバビリティー機器を統合し、導入前の問題を特定し、パフォーマンス基準を確立し、AIシステムの質を向上させるフィードバック・ループを作成します。
オープン・オブサーバビリティー・フレームワークを標準化することで、複雑なAIシステム全体にわたって包括的なエンドツーエンドの可視性を実現し、ベンダー・ロックインを回避しながら、将来を見据えたオブサーバビリティー戦略を策定できます。
また、OpenTelemetryを採用するからといって、オープンソースのオブサーバビリティー・ソリューションを選択する必要はありません。組織ですでに使用している多くの商用プラットフォームは、エンタープライズ・グレードの追加機能を提供しながら、OTelを完全にサポートしています。
商用オブザーバビリティー・ソリューションは、AI駆動型の知見と継続的なサポートによって完全管理型オブザーバビリティーを実現できるため、手動のセットアップと保守が最小限に抑えられ、TTVが向上します。
「ダッシュボードを構築し、アラートを作成し、コンテキストとデータを構築しているとき、私は文字通りツールの構築に集中しています。私はシステムを最適化しているわけではないし、顧客のイニシアチブをサポートしているわけでもありません」とFlowers氏は言います。「私がしていることは基本的に、お金を稼ぐのには役立ちません」
商用オブザーバビリティー・ソリューションでは、その設定の多くを自動化したり、事前構成したりすることができます。代わりに、チームは生成AIモデルの性能と信頼性を最適化することに集中し、オブザーバビリティーへの投資とAIアプリケーションの実世界への影響の両方を最大化することができます。
問題の原因を迅速に特定し、修正します。 リアルタイムの高精度データにより、動的なアプリケーションおよびインフラストラクチャーの環境を完全に可視化できます。
生成AIでITのオートメーションとオペレーションを強化して、ビジネスの優先事項に沿ったITインフラストラクチャーを実現します。
IBM SevOne Network Performance Managementは、複雑なネットワークに対するリアルタイムの可視性と洞察を提供する監視および分析ソフトウェアです。