5 SLA-Metriken, die Sie im Auge behalten sollten

10. Juni 2024

Lesedauer: 7 Minuten

In der Geschäftswelt und darüber hinaus ist Kommunikation entscheidend. Erfolgreiche Service Level Agreements (SLAs) basieren auf diesem Prinzip und legen den Grundstein für erfolgreiche Beziehungen zwischen Anbieter und Kunde.

Ein Service Level Agreement (SLA) ist ein wichtiger Bestandteil von Verträgen mit Technologieanbietern, die die Nutzungsbedingungen zwischen einem Dienstleister und einem Kunden beschreiben. SLAs beschreiben das zu erwartende Leistungsniveau, die Art und Weise, wie die Leistung gemessen wird und welche Auswirkungen es hat, wenn die Niveaus nicht erreicht werden. SLAs stellen sicher, dass alle Stakeholder die Service-Vereinbarung verstehen, und tragen zu einer reibungsloseren Arbeitsbeziehung bei.

Arten von SLAs

Es gibt drei Haupttypen von SLAs:

SLAs auf Kundenebene

SLAs auf Kundenebene definieren die Servicebedingungen zwischen einem Serviceanbieter und einem Kunden. Es kann sich um einen externen Kunden handeln, wie z. B. ein Unternehmen, das Cloud-Speicher von einem Anbieter kauft, oder einen internen Kunden, wie es bei einem SLA zwischen Geschäfts- und IT-Teams bezüglich der Entwicklung eines Produkts der Fall ist.

Service-Level-SLAs

Service Provider, die denselben Service für mehrere Kunden anbieten, verwenden häufig Service-Level-SLAs. Service-Level-SLAs ändern sich nicht je nach Kunde, sondern beschreiben ein allgemeines Serviceniveau, das allen Kunden zur Verfügung gestellt wird.

Mehrstufige SLAs

Wenn ein Dienstleister mehrstufige Preismodelle für ein und dasselbe Produkt anbietet, bietet er oft mehrstufige SLAs an, um den auf jeder Stufe angebotenen Service klar zu kommunizieren. Mehrstufige SLAs werden auch verwendet, wenn Vereinbarungen zwischen mehr als zwei weiteren Parteien getroffen werden.

SLA-Komponenten

SLAs umfassen einen Überblick über die beteiligten Parteien, die zu erbringenden Dienstleistungen, eine Aufschlüsselung der Stakeholder-Rollen, die Leistungsüberwachung und die Berichtsanforderungen. Weitere SLA-Komponenten sind Sicherheitsprotokolle, Korrekturvereinbarungen, Überprüfungsverfahren, Kündigungsklauseln und mehr. Entscheidend ist, dass sie definieren, wie die Leistung gemessen werden soll.

SLAs sollten die wichtigsten Metriken (Service-Level-Agreement-Metriken) genau definieren, die zur Messung der Serviceleistung verwendet werden. Diese Metriken beziehen sich häufig auf organisatorische Service-Level-Ziele (service level objectives, SLOs) (Link befindet sich außerhalb von ibm.com). Während SLAs die Vereinbarung zwischen Unternehmen und Kunde definieren, legen SLOs interne Leistungsziele fest. Die Erfüllung von SLAs erfordert die Überwachung wichtiger Metriken im Zusammenhang mit Geschäftsabläufen und der Leistung des Dienstanbieters. Der Schlüssel liegt in der Überwachung der richtigen Metriken.

Was ist ein KPI in einem SLA?

Metriken sind spezifische Kennzahlen für einen Aspekt der Dienstleistung, z. B. Verfügbarkeit oder Latenz. Wichtige Leistungsindikatoren (KPIs) sind mit Geschäftszielen verknüpft und dienen zur Beurteilung des Fortschritts eines Teams bei der Erreichung dieser Ziele. KPIs existieren nicht ohne Geschäftsziele; Sie sind „Indikatoren“ für den Fortschritt in Richtung eines erklärten Ziels.

Nehmen wir als Beispiel das jährliche Umsatzwachstum mit dem Unternehmensziel eines jährlichen Umsatzwachstums von 30 %. KPIs wie bisherige Abonnementverlängerungen oder generierte Leads bieten eine Echtzeit-Momentaufnahme des Geschäftsfortschritts im Hinblick auf das jährliche Umsatzwachstumsziel.

Kennzahlen wie Anwendungsverfügbarkeit und Latenz helfen dabei, den Kontext bereitzustellen. Wenn das Unternehmen beispielsweise Kunden verliert und das Jahresziel voraussichtlich nicht erreichen wird, kann eine Untersuchung von Metriken im Zusammenhang mit der Kundenzufriedenheit (d. h. Anwendungsverfügbarkeit und Latenz) einige Antworten darauf liefern, warum Kunden das Unternehmen verlassen.

Welche SLA-Metriken überwacht werden sollen

SLAs enthalten unterschiedliche Bedingungen je nach Anbieter, Art der erbrachten Dienstleistung, Kundenanforderungen, Compliance-Standards und mehr, wobei die Metriken je nach Branche und Anwendungsfall variieren. Bestimmte SLA-Leistungsmetriken wie Verfügbarkeit, mittlere Wiederherstellungszeit, Reaktionszeit, Fehlerraten sowie Sicherheits- und Compliance-Messungen werden jedoch in allen Services und Branchen häufig verwendet. Diese Metriken bilden eine Ausgangsbasis für den Betrieb und die Qualität der erbrachten Dienstleistungen.

Die klare Definition, welche Metriken und Leistungskennzahlen (KPIs) zur Leistungsmessung verwendet werden und wie diese Informationen übermittelt werden, hilft den Teams des IT-Servicemanagements (ITSM) dabei, herauszufinden, welche Daten erfasst und überwacht werden müssen. Mit den richtigen Daten können Teams SLAs besser einhalten und sicherstellen, dass die Kunden genau wissen, was sie erwartet.

Im Idealfall liefern ITSM-Teams Input, wenn SLAs entworfen werden, und überwachen zusätzlich die Metriken im Zusammenhang mit ihrer Erfüllung. Die frühzeitige Einbeziehung von ITSM-Teams trägt dazu bei, dass Geschäftsteams keine Vereinbarungen mit Kunden treffen, die von IT-Teams nicht erreicht werden können.

Zu den SLA-Metriken, die für IT- und ITSM-Verantwortliche wichtig sind, gehören:

1. Verfügbarkeit

Serviceunterbrechungen oder Ausfallzeiten sind kostspielig, können die Glaubwürdigkeit eines Unternehmens schädigen und zu Compliance-Problemen führen. Das SLA zwischen einem Unternehmen und einem Kunden bestimmt das erwartete Maß an Serviceverfügbarkeit oder Betriebszeit und ist ein Indikator für die Systemfunktionalität.

Die Verfügbarkeit wird oft in Neunen auf dem Weg zu 100 % gemessen: 90 %, 99 %, 99,9 % und so weiter. Viele Cloud- und SaaS-Anbieter streben einen Branchenstandard von „fünf Neunen“ bzw. einer Betriebszeit von 99,999 % an.

Für manche Unternehmen kann schon eine Stunde Ausfallzeit erhebliche Verluste bedeuten. Wenn eine E-Commerce-Website während einer Zeit mit hohem Datenverkehr wie dem Black Friday oder während eines großen Ausverkaufs ausfällt, kann dies den Ruf des Unternehmens schädigen und den Jahresumsatz verringern. Serviceunterbrechungen wirken sich auch negativ auf das Kundenerlebnis aus. Dienste, die nicht durchgängig verfügbar sind, führen oft dazu, dass Nutzer nach Alternativen suchen. Die Geschäftsanforderungen sind unterschiedlich, aber der Bedarf, den Benutzern schnelle und effiziente Produkte und Dienstleistungen zur Verfügung zu stellen, ist universell.

Im Allgemeinen wird eine maximale Betriebszeit bevorzugt. Für Anbieter in einigen Branchen ist es jedoch möglicherweise kostengünstiger, eine etwas niedrigere Verfügbarkeitsrate anzubieten, wenn sie immer noch den Kundenbedürfnissen entspricht.

2. Mittlere Reparaturzeit

Die mittlere Reparaturzeit misst die durchschnittliche Zeit, die benötigt wird, um ein Produkt während eines Ausfalls oder einer Störung wiederherzustellen. Kein System oder Dienst ist immun gegen gelegentliche Probleme oder Ausfälle, aber Unternehmen, die sich schnell erholen können, sind mit größerer Wahrscheinlichkeit in der Lage, ihre Rentabilität aufrechtzuerhalten, Kundenbedürfnisse zu erfüllen und SLAs einzuhalten.

3. Reaktionszeit und Lösungszeit

SLAs geben häufig die Zeitspanne an, in der ein Dienstanbieter reagieren muss, nachdem ein Problem gemeldet oder protokolliert wurde. Wenn ein Problem protokolliert oder eine Serviceanforderung gestellt wird, gibt die Antwortzeit an, wie lange es dauert, bis ein Anbieter auf das Problem reagiert und es löst. Die Lösungszeit bezieht sich darauf, wie lange es dauert, bis das Problem gelöst ist. Die Minimierung dieser Zeiten ist der Schlüssel zur Aufrechterhaltung der Serviceleistung.

Unternehmen sollten versuchen, Probleme zu beheben, bevor sie zu systemweiten Ausfällen führen und Sicherheits- oder Compliance-Probleme verursachen. Softwarelösungen, die eine Full Stack Observability der Geschäftsfunktionen bieten, können eine wichtige Rolle bei der Aufrechterhaltung einer optimierten System- und Serviceleistung spielen. Viele dieser Plattformen verwenden Tools für Automatisierung und maschinelles Lernen (ML), um den Prozess der Behebung zu automatisieren oder Probleme zu identifizieren, bevor sie auftreten.

KI-gestützte Intrusion Detection Systeme (IDS) überwachen beispielsweise ständig den Netzwerkverkehr auf bösartige Aktivitäten, Verstöße gegen Sicherheitsprotokolle oder anomale Daten. Diese Systeme setzen Algorithmen für maschinelles Lernen ein, um große Datensätze zu überwachen und sie zur Identifizierung anomaler Daten zu verwenden. Anomalien und unbefugte Zugriffe lösen Warnungen aus, die IT-Teams benachrichtigen. Ohne KI und maschinelles Lernen wäre die Überwachung dieser großen Datensätze nicht möglich.  

4. Fehlerraten

Die Fehlerraten messen Serviceausfälle und die Häufigkeit, mit der die Serviceleistung unter definierte Standards fällt. Je nach Unternehmen können sich die Fehlerraten auf eine beliebige Anzahl von Problemen im Zusammenhang mit Geschäftsfunktionen beziehen.

In der Fertigung korrelieren Fehlerquoten beispielsweise mit der Anzahl der Fehler oder Qualitätsprobleme in einer bestimmten Produktlinie oder der Gesamtzahl der Fehler, die während eines festgelegten Zeitintervalls gefunden wurden. Diese Fehlerraten oder Mängelraten helfen Unternehmen dabei, die Ursache eines Fehlers zu identifizieren und festzustellen, ob er mit den verwendeten Materialien oder einem umfassenderen Problem zusammenhängt.

Es gibt eine Untergruppe von kundenbasierten Metriken zur Überwachung der Interaktionen mit dem Kundenservice, die sich auch auf Fehlerraten beziehen.

  • First Call Resolution Rate (Fallabschluss beim ersten Anruf: Im Bereich Kundenservice können Probleme im Zusammenhang mit Help-Desk-Interaktionen die Fehlerquote beeinflussen. Der Erfolg von Interaktionen mit dem Kundenservice ist mitunter schwer zu messen. Nicht jeder Kunde füllt eine Umfrage aus oder reicht eine Beschwerde ein, wenn ein Problem nicht gelöst wird – manche suchen einfach nach einem anderen Dienst. Eine Kennzahl, mit der sich Interaktionen mit dem Kundenservice messen lassen können, ist die First Call Resolution Rate. Diese Rate spiegelt wider, ob das Problem eines Benutzers während der ersten Interaktion mit einem Help Desk, Chatbot oder Mitarbeiter gelöst wurde. Jede Eskalation einer Kundendienstanfrage über den Erstkontakt hinaus bedeutet den Einsatz zusätzlicher Ressourcen. Es kann sich auch auf die Customer Experience auswirken.
  • Abbrecherquote: Diese Rate gibt die Häufigkeit an, mit der ein Kunde seine Anfrage abbricht, bevor er eine Lösung gefunden hat. Die Abbrecherquote kann auch zur Gesamtfehlerrate beitragen und hilft dabei, die Effizienz eines Servicedesks, eines Chatbots oder einer menschlichen Belegschaft zu messen.

5. Sicherheit und Compliance

Große Datenmengen und die Verwendung von lokalen Servern, Cloud-Servern und einer wachsenden Anzahl von Anwendungen erhöhen das Risiko von Datenschutzverletzungen und Sicherheitsbedrohungen. Wenn sie nicht angemessen überwacht werden, können Sicherheitsverletzungen und Schwachstellen Dienstanbieter rechtlichen und finanziellen Auswirkungen aussetzen.

So hat beispielsweise das Gesundheitswesen spezifische Anforderungen an die Speicherung, Übertragung und Entsorgung der medizinischen Daten eines Patienten. Die Nichteinhaltung dieser Compliance-Standards kann zu Geldstrafen und Entschädigungsansprüchen für Verluste führen, die Kunden entstehen.

Es gibt zwar zahllose branchenspezifische Kennzahlen, die durch die verschiedenen angebotenen Dienstleistungen definiert sind, aber viele von ihnen fallen unter größere übergeordnete Kategorien. Um erfolgreich zu sein, ist es wichtig, dass Geschäftsteams und IT-Service-Management-Teams zusammenarbeiten, um die Servicebereitstellung zu verbessern und die Kundenerwartungen zu erfüllen.

Vorteile der Überwachung von SLA-Metriken

Die Überwachung von SLA-Metriken ist die effizienteste Methode für Unternehmen, um zu beurteilen, ob IT-Services die Kundenerwartungen erfüllen, und um Bereiche mit Verbesserungspotenzial zu identifizieren. Durch die Überwachung von Metriken und KPIs in Echtzeit können IT-Teams Systemschwächen identifizieren und die Servicebereitstellung optimieren.

Zu den Hauptvorteilen der Überwachung von SLA-Metriken zählen:

Bessere Observability

Ein klares End-to-End-Verständnis der Geschäftsabläufe hilft ITSM-Teams, Wege zur Leistungssteigerung zu finden. Durch die bessere Observability können Unternehmen Einblicke in den Betrieb von Systemen und Workflows gewinnen, Fehler identifizieren, Workloads effizienter ausbalancieren und die Leistungsstandards verbessern.

Optimierte Leistung

Durch die Überwachung der richtigen Metriken und die Nutzung der daraus gewonnenen Erkenntnisse können Unternehmen bessere Dienste und Anwendungen anbieten, die Erwartungen der Kunden übertreffen und das Unternehmenswachstum fördern.

Höhere Kundenzufriedenheit

Ebenso ist die Überwachung von SLA-Metriken und KPIs eine der besten Möglichkeiten, um sicherzustellen, dass die Services den Kundenbedürfnissen entsprechen. In einem hart umkämpften Geschäftsfeld ist die Kundenzufriedenheit ein Schlüsselfaktor für die  Kundenbindung und den Aufbau eines positiven Rufs.

Mehr Transparenz

Durch die klare Darstellung der Nutzungsbedingungen tragen SLAs dazu bei, Verwirrung zu beseitigen und schützen alle Parteien. Gut ausgearbeitete SLAs machen klar, was alle Beteiligten erwarten können, bieten einen klar definierten Zeitplan, wann die Services bereitgestellt werden und welche Beteiligten für bestimmte Maßnahmen verantwortlich sind. Richtig umgesetzt, geben SLAs den Grundstein für eine reibungslose Partnerschaft.

Leistung verstehen und Kundenerwartungen übertreffen

Die IBM Instana Observability-Plattform und IBM Cloud Pak for AIOps können Teams dabei helfen, bessere Erkenntnisse aus ihren Daten zu gewinnen und die Servicebereitstellung zu verbessern.

IBM Instana Observability bietet Full-Stack-Observability in Echtzeit und kombiniert Automatisierung, Kontext und intelligente Maßnahmen in einer Plattform. Instana hilft bei der Aufbrechung operativer Silos und bietet DevOps-, SRE-, Plattform-Engineering- und ITOps-Teams Zugriff auf Daten.

IT-Service-Management-Teams profitieren von IBM Cloud Pak for AIOps durch automatisierte Tools für das Management und die Behebung von Vorfällen. IBM Cloud Pak for AIOps bietet Tools für Innovationen und die Transformation des IT-Betriebs. Erfüllen Sie SLAs und überwachen Sie Metriken mit einer fortschrittlichen Transparenzlösung, die Kontext zu Abhängigkeiten in verschiedenen Umgebungen bietet.

IBM Cloud Pak for AIOps ist eine AIOps-Plattform, die Einblick in Leistungsdaten und Abhängigkeiten in verschiedenen Umgebungen bietet. Es ermöglicht ITOps-Managern und Site Reliability Engineers (SREs), künstliche Intelligenz, maschinelles Lernen und Automatisierung zu nutzen, um das Vorfallmanagement und die Behebung von Vorfällen besser anzugehen. Mit IBM Cloud Pak for AIOps können Teams schneller Innovationen entwickeln, Betriebskosten senken und den IT-Betrieb (ITOps) transformieren.

Autor

Camilo Quiroz-Vázquez

IBM Staff Writer