Was ist Vorfallmanagement?

Das Vorfallmanagement ist ein Prozess, mit dem IT-Betriebs- und DevOps-Teams auf ungeplante Ereignisse, die Servicequalität oder den Servicebetrieb beeinträchtigen können, reagieren und diese bewältigen können. Das Vorfallmanagement zielt darauf ab, Probleme zu identifizieren und zu beheben, während der normale Betrieb aufrechterhalten und die Auswirkungen auf das Geschäft minimiert werden.

Vorfälle können für Unternehmen eine Vielzahl von Problemen verursachen, von vorübergehenden Ausfallzeiten bis hin zu Datenverlusten. Wenn es gut gemacht ist, bietet das Vorfallmanagement einen effizienten und effektiven Weg, um alle Arten von Vorfällen mit wenig Unterbrechung zu beheben, und sorgt dafür, dass Unternehmen besser auf zukünftige Vorfälle vorbereitet sind.

Das Vorfallmanagement hat seine Wurzeln im IT-Servicedesk und dient seit Langem als primäre Schnittstelle zwischen dem IT-Betrieb (IT Operations, ITOps) und dem Endbenutzer. Mit dem Fortschritt und der zunehmenden Komplexität der Technologie hat sich auch die Art und Weise verändert, wie Unternehmen Vorfälle erkennen und darauf reagieren. Diese Praxis geht weit über die Hilfe bei der Behebung von Problemen hinaus und hat sich zu einem Prozess entwickelt, der die ständige Verfügbarkeit von Anwendungen gewährleistet und die kontinuierlichen Verbesserungsbemühungen beschleunigt.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

IT-Vorfallmanagement

Das Vorfallmanagement innerhalb des IT-Betriebs eines Unternehmens, oft auch als ITIL-Vorfallmanagement bezeichnet, befasst sich mit einer Vielzahl von Problemen, die sich auf den Service und den Geschäftsbetrieb auswirken können, vom Absturz eines Laptops oder einem Druckerfehler bis hin zu Problemen mit der WLAN-Verbindung und Netzwerkausfallzeiten.

Das Vorfallmanagement im Rahmen von ITSM (IT Service Management) ist ein Aspekt des ITSM-Servicemodells. Anstatt sich auf die Entwicklung von Systemen und Technologien zu konzentrieren, ist das Vorfallmanagement für die IT eher benutzerorientiert. Es zielt darauf ab, den ordnungsgemäßen Betrieb der IT-Infrastruktur aufrechtzuerhalten, unabhängig davon, ob es sich um eine App oder ein Endgerät, wie einen Sensor oder einen Desktop-Computer, handelt.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Vorfälle vs. Serviceanfragen

Im Rahmen des ITSM hat die IT-Abteilung verschiedene Aufgaben, darunter auch die Behebung von Problemen, sobald diese auftreten. Der Schweregrad dieser Probleme unterscheidet einen Vorfall von einer Serviceanfrage.

Vereinfacht ausgedrückt liegt eine Serviceanfrage vor, wenn ein Benutzer um etwas bittet, das bereitgestellt werden soll, z. B. Beratung oder Ausrüstung. Zu den Services gehören z. B. das Zurücksetzen eines Passworts oder die Beschaffung von zusätzlichem Speicherplatz für einen Desktop-Computer.

Ein Vorfall hingegen ist dringlicher und weist auf einen zugrunde liegenden Fehler hin, der behoben werden muss.

Vorfälle vs. Probleme

Ein Vorfall ist ein einzelnes, ungeplantes Ereignis, das eine Serviceunterbrechung verursacht, während ein Problem die Ursache für eine Serviceunterbrechung ist, bei der es sich um einen einzelnen Vorfall oder eine Reihe von kaskadierenden Vorfällen handeln kann.

Der Unterschied liegt in der Behebung des Problems und in der Art und Weise, wie die Mitarbeiter an die Lösung des Problems herangehen. Die Reaktion auf Vorfälle ist reaktiv. Notfallteams werden alarmiert und kümmern sich um den Vorfall. Wenn IT-Teams jedoch ein Problem angehen, identifizieren sie die Ursache und beheben es dann. Das Problemmanagement verfolgt einen proaktiven Ansatz, bei dem verschiedene Arten von Vorfällen und auftauchende Muster untersucht werden, um zu verstehen, wie zukünftige Vorfälle verhindert werden können.

Vorfallmanagement für DevOps

DevOps-Teams konzentrieren sich darauf, effizientere Wege zum Erstellen, Testen und Bereitstellen von Software zu finden, was zum Teil eine schnelle Behebung von Vorfällen erfordert. Wie das ITIL-Vorfallmanagement zielt auch das DevOps-Vorfallmanagement darauf ab, Probleme zu beheben, ohne den Betrieb zu unterbrechen. So können DevOps-Teams beispielsweise auf schlechte MTBF-Metriken (Mean Time Between Failures) achten, die auf ein zugrunde liegendes Problem hindeuten, das untersucht werden muss.

Da DevOps auf kontinuierliche Verbesserung ausgerichtet ist, liegt der Schwerpunkt auf der Post-Mortem-Analyse und einer Kultur der Transparenz ohne Schuldzuweisungen. Ziel ist es, die Gesamtleistung des Systems zu optimieren, die Behebung von Vorfällen zu rationalisieren und zu beschleunigen und zukünftige Vorfälle zu verhindern.

Wie die IT-Teams von heute nutzen auch DevOps-Teams häufig automatisierte Bereitstellung, Priorisierung von Vorfällen und KI-gestützte Tools zur Ursachenanalyse, um die Betriebszeit zu gewährleisten, die dringendsten Vorfälle zuerst zu beheben und zu lernen, wie man zukünftige Probleme schneller beheben kann. (Oder diese von vornherein verhindern können.)

Prozess des Vorfallmanagements

Unternehmen erstellen in der Regel einen Prozess für das Vorfallmanagement, der die Abfolge der Ereignisse dokumentiert, die das Reaktionsteam durchführen sollte. Alle Stakeholder sollten wissen, welche Mitarbeiter für die Bearbeitung von Vorfällen zuständig sind, wie lange es dauern sollte, das Problem zu lösen, wann der Vorfall an die nächste Ebene eskaliert werden muss und wie der Vorfall sowie die Art und Weise, wie er gelöst wurde, zu dokumentieren sind.

Sobald der Prozess definiert ist, läuft der Workflow für das Vorfallmanagement in der Regel wie folgt ab:

Identifizieren Sie den Vorfall: Unabhängig davon, ob ein Endbenutzer ein Ticket beim Help Desk einreicht oder ein automatisches Warnsystem das Team über ein Problem informiert, benötigt das Reaktionsteam eine Möglichkeit, Berichte über Probleme im System zu erhalten.
Protokollieren und klassifizieren Sie den Vorfall: Dazu gehört die Eingabe des Vorfallberichts in ein System zur Erfassung von Vorfällen und die Zuweisung von Prioritäten, einschließlich der Frage, welche Mitarbeiterebene den Vorfall bearbeiten soll. So werden beispielsweise Vorfälle der Stufe 1 in der Regel von neueren, weniger erfahrenen Mitarbeitern bearbeitet, während Vorfälle der Stufen 2 und 3 zunehmend schwieriger zu lösen sind und die erfahrensten Einsatzkräfte erfordern.
Das Problem eindämmen: Wenn es sich um einen Sicherheitsvorfall handelt, müssen Notfallteams schnell handeln, um das Problem einzudämmen, egal ob es sich um einen DDoS-Angriff oder eine Datenverletzung handelt. In jedem Fall müssen die Teams sicherstellen, dass sich der Vorfall nicht ausbreitet und das System nicht weiter beeinträchtigt.
Diagnostizieren Sie den Vorfall: Hier kommt die Fehlersuche ins Spiel. Einsatzteams könnten eine Wissensdatenbank oder ein ChatOps-Tool verwenden, um mögliche Ursachen vorzuschlagen und Zeit zu sparen.
Behebung des Vorfalls: Sobald die Ursache identifiziert wurde, machen sich die Teams an die Arbeit, um den Vorfall zu beheben, sei es die Bereitstellung von zusätzlichem Speicher oder die Behebung eines Netzwerkausfalls.
Vorfall abschließen und überprüfen: Post-Mortem-Überprüfungen sind ein wichtiger Aspekt bei der Verbesserung der Zuverlässigkeit und Verfügbarkeit in den heutigen digitalen Umgebungen. Diese Daten erweitern nicht nur das institutionelle Wissen des Unternehmens, sondern können auch für maschinelles Lernen und KI-fähige Tools verwendet werden, um Vorfälle schneller zu identifizieren und sogar Benachrichtigungen zu erstellen, wenn Vorfälle wahrscheinlich sind. Gründliche Überprüfungen helfen Unternehmen, effektivere Verfahren zur Behebung von Vorfällen zu implementieren.

Warum Vorfallmanagement nutzen?

Alle Unternehmen müssen Probleme beheben und Vorfälle lösen. So halten sie das Geschäft am Laufen. Aber es gibt auch klare Vorteile, effektive Tools zur Lösung von Vorfällen – und Teams – zu haben, die schnell und ohne größere Störungen des Geschäftsbetriebs reagieren können. Zu diesen Vorteilen gehören:

Schnellere Problemlösung

Vorfallmanagement-Tools, Automatisierung und AIOps helfen Teams, Probleme zu identifizieren und schnell zu beheben. Dies wiederum verbessert die Effizienz, da sich die Teams auf das Kerngeschäft konzentrieren können, anstatt sich ständig mit der Brandbekämpfung befassen zu müssen.

Bessere Benutzererfahrung

Wenn Vorfälle gleich beim ersten Mal richtig (und schneller) behoben werden, verbessert dies die Servicequalität für den Endbenutzer. Dies beginnt mit einem klaren und einfach zu bedienenden System zur Meldung von Serviceunterbrechungen und setzt sich mit einer guten Kommunikation fort, wenn Vorfälle behoben werden.

Größere betriebliche Effizienz

Die Reaktion auf Vorfälle schafft ein System, in dem Probleme einen klaren Weg zur Lösung haben, und hilft, institutionelles Wissen im Laufe der Zeit aufzubauen. Dieses Wissen – entweder durch Mitarbeiter oder durch ein automatisiertes, KI-gesteuertes System – hilft dabei, wichtige Leistungskennzahlen zu dokumentieren, wie z. B. die mittlere Reparaturzeit (Mean Time To Resolution, MTTR) Diese Metriken tragen dazu bei, dass das Unternehmen ein hohes Serviceniveau aufrechterhält und eine ausgezeichnete Customer Experience bietet.

Tiefergehende Erkenntnisse

Mit einem effektiven Vorfallmanagementsystem können Teams größere Vorfälle schneller angehen und Erkenntnisse für die Ursachenanalyse gewinnen. Wenn Teammitglieder dokumentieren, wie frühere Vorfälle gelöst wurden, beginnen sie mit der Erstellung eines Playbooks mit Vorlagen für die Lösung ähnlicher Vorfälle in der Zukunft.

SLA-Compliance

Ein Service Level Agreement (SLA) definiert das Serviceniveau, das ein Unternehmen einem Kunden bieten muss. Daher spielen die Reaktion auf und das Management von Vorfällen eine entscheidende Rolle bei der Erfüllung der im SLA definierten Metriken und wesentlichen Leistungsindikatoren (KPIs).

Tools für das Incident-Management und Automatisierung

Die zunehmende Komplexität des IT-Betriebs, die zum Teil auf die vielen Anwendungen zurückzuführen ist, auf die sich Unternehmen im Tagesgeschäft verlassen, hat dazu geführt, dass Tools zur Reaktion auf Vorfälle und Automatisierung wichtiger denn je sind.

Zu den am häufigsten verwendeten Tools für das Vorfallmanagement gehören:

Überwachungstools: Diese Tools identifizieren Ausfälle, lösen Warnungen aus und diagnostizieren Vorfälle. Überwachungstools senken auch die Kosten, indem sie DevOps-Teams die Möglichkeit geben, den Software-Lebenszyklus besser zu verwalten.
Service Desks: Hier können Benutzer Tickets einreichen, mit dem Service-Desk-Team chatten, den Fortschritt ihrer Tickets überwachen und einige Selbstbedienungsaufgaben durchführen. In der Regel wird der Service Desk über ein Managementsystem betrieben, das wichtige Aufgaben des Vorfallmanagements, wie die Priorisierung und Kategorisierung, ermöglicht.
AlOps-Plattformen: Mithilfe von Protokollen und historischen Daten können AIOps den Kontext für eine bessere Entscheidungsfindung, eine intelligentere Ressourcenzuweisung und eine schnellere Reaktion auf Vorfälle bereitstellen.
VDocumentation: Hierbei handelt es sich um Skripte, die Änderungen an einer Umgebung automatisch dokumentieren und so die Aufzeichnung von Vorfällen für die Post-Mortem-Analyse erleichtern. So können Teams beispielsweise die PowerCLI-Skripte so einrichten, dass sie nach einem monatlichen Zeitplan ausgeführt werden, um Vorfälle für eine genauere Analyse aufzuzeichnen.

Der Unternehmensleitfaden zur KI- und IT-Automatisierung

Lesen Sie, wie Sie Ihre IT-Teams neu positionieren und KI- und IT-Automatisierung in Ihr Unternehmen integrieren können, um den Geschäftserfolg zu steigern.

Was ist Vorfallmanagement?