監視すべき5つのSLAメトリクス

働く若い男性

ビジネスでもそれ以外でも、コミュニケーションは重要です。成功するサービス・レベル契約(SLA)はこの原則に基づいて機能し、プロバイダーと顧客の良好な関係の基盤を築きます。

サービス・レベル契約(SLA)は、サービス・プロバイダーと顧客間のサービス条件を規定する、テクノロジー・ベンダー契約の重要な構成要素です。SLAは、期待されるパフォーマンス・レベル、パフォーマンスの測定方法、レベルが満たされなかった場合の影響について説明します。SLAにより、すべての関係者がサービス契約を理解し、よりシームレスな業務関係を構築できるようになります。

SLAの種類

SLAには主に3つのタイプがあります。

顧客レベルSLA

顧客レベルSLAは、サービス・プロバイダーと顧客間のサービス条件を定義します。顧客は、ベンダーからクラウド・ストレージを購入する企業などの外部の顧客である場合もあれば、製品の開発に関するビジネス・チームとITチーム間のSLAの場合のように内部の顧客である場合もあります。

サービス・レベルSLA

複数の顧客に同じサービスを提供するサービス・プロバイダーは、多くの場合、サービス・レベルSLAを使用します。サービス・レベルSLAは顧客に基づいて変更されるのではなく、すべての顧客に提供されるサービスの一般的なレベルを概説します。

マルチ・レベルSLA

サービス・プロバイダーが同じ製品に対して複数階層の価格プランを提供する場合、各レベルで提供されるサービスを明確に伝えるために、複数レベルのSLAを提供することがよくあります。マルチレベルSLAは、2つ以上の当事者間で契約を作成する場合にも使用されます。

SLAコンポーネント

SLAには、関係者の概要、提供されるサービス、利害関係者の役割の内訳、パフォーマンスの監視とレポートの要件が含まれます。その他のSLAコンポーネントには、セキュリティー・プロトコル、補償契約、レビュー手順、終了条項などが含まれます。重要なのは、パフォーマンスを測定する方法を明確にすることです。

SLAでは、サービス・パフォーマンスを測定するために使用される主要なメトリクス(サービス・レベル契約メトリクス)を正確に定義する必要があります。これらのメトリクスは、多くの場合、組織のサービス・レベル目標(SLO)に関連しています(ibm.com外部へのリンク)。SLAは組織と顧客間の合意を定義しますが、SLOは内部のパフォーマンス目標を設定します。SLAを満たすには、ビジネス運営とサービス・プロバイダーのパフォーマンスに関連する重要な指標を監視する必要があります。重要なのは、適切なメトリクスを監視することです。

SLAにおけるKPIとは

メトリクスは、可用性やレイテンシー など、サービス・パフォーマンスを具体的に測定するものです。主要業績評価指標(KPI)はビジネス目標にリンクされており、チームの目標達成に向けた進捗状況を判断するために使用されます。KPIはビジネス目標がなければ存在しません。KPIは、定められた目標に向けた進捗状況を示す「指標」です。

組織の目標が前年比30%の成長である、年間売上高の成長を例に挙げてみましょう。現在までのサブスクリプション契約の更新率や生成されたリードなどのKPIは、年間売上成長目標に向けたビジネスの進捗状況をリアルタイムで把握するのに役立ちます。

アプリケーションの可用性やレイテンシーなどのメトリクスは、コンテキストを提供します。例えば、組織が顧客を失いつつあり、年間目標を達成する見込みがない場合は、顧客満足度に関連する指標(つまり、アプリケーションの可用性とレイテンシ)を調べることで、顧客が離れていく理由について何らかの答えが得られる可能性があります。

監視する必要があるSLAメトリクス

SLAには、ベンダー、提供されるサービスの種類、顧客要件、コンプライアンス標準などに応じて異なる条件が含まれており、メトリクスは業界やユースケースによって異なります。ただし、可用性、平均復旧時間、応答時間、エラー・レート、セキュリティーとコンプライアンスの測定などの特定のSLAパフォーマンス・メトリクスは、サービスや業界全体で一般的に使用されています。これらのメトリクスは、運用と提供されるサービスの品質のベースラインを設定します。

パフォーマンスを測定するためにどのメトリクスと主要業績評価指標(KPI)を使用するか、またこの情報をどのように伝達するかを明確にすると、ITサービス管理(ITSM)チームが収集および監視するデータを特定するのに役立ちます。適切なデータがあれば、チームはSLAをより適切に維持し、顧客が何を期待すべきかを正確に把握できるようになります。

ITSMチームは、SLAの達成に関連する指標を監視するだけでなく、SLAの作成時にも意見を提供することが望ましい状態です。プロセスの早い段階でITSMチームを関与させることで、ITチームが達成できない契約内容をビジネス・チームが締結してしまうことがなくなります。

ITおよびITSMリーダーが監視する必要がある重要なSLAメトリクスは次のとおりです。

1. 可用性

サービスの中断やダウンタイムはコストがかかり、企業の信頼性を損なう可能性があり、コンプライアンスの問題につながる可能性があります。組織と顧客間のSLA、サービスの可用性または稼働時間の期待レベルを規定し、システムの機能性の指標となります。

可用性は、多くの場合、90%、99%、99.9% など、「100% に向かう9」で測定されます。多くのクラウドおよびSaaSプロバイダーは、業界標準の「ファイブナイン」、つまり99.999%の稼働率を目指しています。

特定のビジネスでは、1時間のダウンタイムでも大きな損失を意味する可能性があります。ブラックフライデーなどのトラフィックが集中する時期や、大規模なセール期間中に電子商取引のウェブサイトが停止すると、会社の評判や年間収益に悪影響を与える可能性があります。サービスの中断は顧客体験にも悪影響を及ぼします。一貫して利用できないサービスでは、ユーザーは代替手段を探すことになります。ビジネス・ニーズはさまざまですが、ユーザーに迅速かつ効率的な製品とサービスを提供する必要性は普遍的です。

一般的に、最大の稼働時間が望まれます。ただし、一部の業界のプロバイダーは、クライアントのニーズを満たすのであれば、可用性率を少し低く設定した方がコスト効率が良いと考える場合があります。

2. 回復までにかかる平均時間

平均復旧時間は、停止または障害発生時に製品を復旧するまでにかかる平均時間を測定します。偶発的な問題や障害から免れるシステムやサービスはありませんが、迅速に回復できる企業は、ビジネスの収益性を維持し、顧客のニーズを満たし、SLAを遵守できる可能性が高くなります。

3。応答時間と解決時間

SLAでは、問題がフラグ付けまたは記録された後、サービス・プロバイダーが応答しなければならない時間の長さが規定されることがよくあります。問題が記録されたり、サービス・リクエストが行われたりした場合、応答時間はプロバイダーが問題に応答して対処するまでにかかる時間を示します。解決時間とは、問題が解決されるまでにかかる時間を指します。これらの時間を最小限に抑えることが、サービス・パフォーマンスを維持するための鍵となります。

組織は、問題がシステム全体の障害となり、セキュリティーやコンプライアンスの問題を引き起こす前に、問題に対処するよう努める必要があります。ビジネス機能へのフルスタックのオブザーバビリティーを提供するソフトウェア・ソリューションは、最適化されたシステムとサービス・パフォーマンスを維持する上で重要な役割を果たすことができます。これらのプラットフォームの多くは、自動化および機械学習(ML)ツールを使用して、修復プロセスを自動化したり、問題が発生する前に特定したりします。

例えば、AIを搭載した侵入検知システム(IDS)は、悪意のあるアクティビティ、セキュリティー・プロトコルの違反、異常なデータがないか、ネットワーク・トラフィックを継続的に監視します。これらのシステムは、機械学習アルゴリズムを導入して大規模なデータセットを監視し、それを使用して異常なデータを識別します。異常や侵入が発生するとアラートがトリガーされ、ITチームに通知されます。AIと機械学習がなければ、これらの大規模なデータセットを手動で監視することは不可能です。

4. エラー・レート

エラー・レートは、サービスの障害と、サービス・パフォーマンスが定義された基準を下回った回数を測定します。企業によっては、エラー・レートがビジネス機能に関連するさまざまな問題に関係している場合があります。

例えば、製造業では、エラー・レートは特定の製品ラインにおける欠陥や品質問題の数、または設定された時間間隔中に見つかったエラーの合計数と相関します。これらのエラー・レート、つまり誤り率は、組織がエラーの根本原因を特定し、それが使用されている材料に関連しているのか、それともより広範な問題に関連しているのかを判断するのに役立ちます。

カスタマー・サービスのやり取りを監視する顧客ベースの指標のサブセットがあり、これもエラー・レートに関連しています。

  • 初回通話解決率:カスタマー・サービスの分野では、ヘルプ・デスクのやり取りに関連する問題がエラー・レートに影響する可能性があります。カスタマー・サービスでのやり取りの成功を測定するのは難しい場合があります。問題が解決しない場合、すべての顧客がアンケートに回答したり苦情を申し立てたりするわけではなく、別のサービスを探す顧客もいます。カスタマー・サービスのやり取りを測定するのに役立つ指標の1つは、初回通話解決率です。この率は、ユーザーの問題がヘルプデスク、チャットボット、または担当者との最初のやり取り中に解決されたかどうかを反映します。最初の連絡を超えてカスタマー・サービス・クエリーがエスカレーションされるたびに、追加のリソースを費やすことになります。また、顧客体験にも影響を与える可能性があります。
  • 放棄呼率:この率は、顧客が解決策を見つける前に問い合わせを放棄する頻度を指します。放棄呼率は全体的なエラー・レートにも影響し、サービスデスク、チャットボット、または人間の労働力の有効性を測定するのに役立ちます。

5. セキュリティーとコンプライアンス

大量のデータとオンプレミス・サーバー、クラウド・サーバー、および増加するアプリケーションの使用により、データ侵害やセキュリティーの脅威のリスクが高まります。適切に監視されない場合、セキュリティー侵害や脆弱性により、サービス・プロバイダーが法的および財務的な影響を受ける可能性があります。

例えば、医療業界では、患者の医療データの保存、転送、廃棄方法に関する特定の要件があります。これらのコンプライアンス基準を満たさない場合、罰金が科せられ、顧客に損失が生じた場合には補償される可能性があります。

提供されるさまざまなサービスによって定義される業界固有の指標は無数にありますが、その多くはより大きな包括的なカテゴリーに分類されます。成功するには、ビジネス・チームとITサービス管理チームが協力してサービス提供を改善し、顧客の期待に応えることが重要です。

SLAメトリクスを監視するメリット

SLAメトリクスを監視することは、企業がITサービスが顧客の期待を満たしているかどうかを評価し、改善すべき領域を特定するための最も効率的な方法です。メトリクスとKPIをリアルタイムで監視することで、ITチームはシステムの弱点を特定し、サービスの提供を最適化できます。

SLAメトリクスを監視する主なメリットは次のとおりです。

より高いオブザーバビリティー

ビジネス・オペレーションをエンドツーエンドで明確に理解することで、ITSMチームはパフォーマンスを向上させる方法を見つけることができます。オブザーバビリティーが向上すると、組織はシステムとワークフローの運用に関する洞察を得て、エラーを特定し、ワークロードをより効率的に調整し、パフォーマンス基準を向上させることができます。

パフォーマンスの最適化

適切な指標を監視し、そこから得られる洞察を活用することで、組織はより優れたサービスとアプリケーションを提供し、顧客の期待を超え、ビジネスの成長を促進できます。

顧客満足度の向上

同様に、SLAメトリクスとKPIを監視することは、サービスが顧客のニーズを満たしていることを確認するための最良の方法の1つです。競争の激しいビジネス分野では、顧客満足度は顧客維持を促進し、肯定的な評判を築くための重要な要素です。

透明性の向上

SLAは、サービス条件を明確に規定することで、混乱を排除し、すべての関係者を保護するのに役立ちます。適切に作成されたSLAでは、すべての関係者が何を期待できるかが明確になり、サービスがいつ提供されるか、どの関係者が特定のアクションを担当するかについて、タイムラインが明確にされます。SLAが適切に実行されると、スムーズなパートナーシップの基盤が整います。

パフォーマンスを理解し、顧客の期待を超える

IBM® Instana ObservabilityプラットフォームとIBM® Cloud Pak for AIOpsは、チームがデータからより強力な洞察を得て、サービス提供を改善するのに役立ちます。

IBM® Instana Observabilityは、自動化、コンテキスト、インテリジェントなアクションを単一プラットフォーム上で統合し、フルスタックの観測可能性をリアルタイムで提供します。Instanaは運用サイロを解体し、DevOps、SRE、プラットフォーム・エンジニアリング、ITOps チーム全体のデータへのアクセスを提供します。

ITサービス管理チームは、インシデント管理と修復に対応する自動化ツールを通じて、IBM Cloud Pak for AIOpsのメリットを享受できます。IBM Cloud Pak for AIOpsは、IT運用のイノベーションと変革のためのツールを提供します。環境全体の依存関係のコンテキストを提供する高度な可視性ソリューションを使用して、SLAを満たし、メトリクスを監視します。

IBM Cloud Pak for AIOpsは、環境全体のパフォーマンス・データと依存関係を可視化するAIOpsプラットフォームです。これにより、ITOpsマネージャーとサイト信頼性エンジニア(SRE)は、人工知能、機械学習、自動化を使用して、インシデントの管理と修復をより適切に行うことができます。IBM Cloud Pak for AIOpsを使用すると、チームはイノベーションを加速し、運用コストを削減し、IT運用を変革(ITOps)できます。

著者

Camilo Quiroz-Vázquez

IBM Staff Writer