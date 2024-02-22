Das Vorfallmanagement ist ein Prozess, mit dem IT-Betriebs- und DevOps-Teams auf ungeplante Ereignisse, die Servicequalität oder den Servicebetrieb beeinträchtigen können, reagieren und diese bewältigen können. Das Vorfallmanagement zielt darauf ab, Probleme zu identifizieren und zu beheben, während der normale Betrieb aufrechterhalten und die Auswirkungen auf das Geschäft minimiert werden.
Vorfälle können für Unternehmen eine Vielzahl von Problemen verursachen, von vorübergehenden Ausfallzeiten bis hin zu Datenverlusten. Wenn es gut gemacht ist, bietet das Vorfallmanagement einen effizienten und effektiven Weg, um alle Arten von Vorfällen mit wenig Unterbrechung zu beheben, und sorgt dafür, dass Unternehmen besser auf zukünftige Vorfälle vorbereitet sind.
Das Vorfallmanagement hat seine Wurzeln im IT-Servicedesk und dient seit langem als primäre Schnittstelle zwischen dem IT-Betrieb (IT Operations, ITOps) und dem Endbenutzer. Mit dem Fortschritt und der zunehmenden Komplexität der Technologie hat sich auch die Art und Weise verändert, wie Unternehmen Vorfälle erkennen und darauf reagieren. Diese Praxis geht weit über die Hilfe bei der Behebung von Problemen hinaus und hat sich zu einem Prozess entwickelt, der die ständige Verfügbarkeit von Anwendungen gewährleistet und die kontinuierlichen Verbesserungsbemühungen beschleunigt.
Das Vorfallmanagement innerhalb des IT-Betriebs eines Unternehmens, oft auch als ITIL-Vorfallmanagement bezeichnet, befasst sich mit einer Vielzahl von Problemen, die sich auf den Service und den Geschäftsbetrieb auswirken können, vom Absturz eines Laptops oder einem Druckerfehler bis hin zu Problemen mit der WLAN-Verbindung und Netzwerkausfallzeiten.
Das Vorfallmanagement im Rahmen von ITSM (IT Service Management) ist ein Aspekt des ITSM-Servicemodells. Anstatt sich auf die Entwicklung von Systemen und Technologien zu konzentrieren, ist das Vorfallmanagement für die IT eher benutzerorientiert. Es zielt darauf ab, den ordnungsgemäßen Betrieb der IT-Infrastruktur aufrechtzuerhalten, unabhängig davon, ob es sich um eine App oder ein Endgerät, wie einen Sensor oder einen Desktop-Computer, handelt.
Im Rahmen des ITSM hat die IT-Abteilung verschiedene Aufgaben, darunter auch die Behebung von Problemen, sobald diese auftreten. Der Schweregrad dieser Probleme unterscheidet einen Vorfall von einer Serviceanfrage.
Vereinfacht ausgedrückt liegt eine Serviceanfrage vor, wenn ein Benutzer um etwas bittet, das bereitgestellt werden soll, z. B. Beratung oder Ausrüstung. Zu den Services gehören z. B. das Zurücksetzen eines Passworts oder die Beschaffung von zusätzlichem Speicherplatz für einen Desktop-Computer.
Ein Vorfall hingegen ist dringlicher und weist auf einen zugrunde liegenden Fehler hin, der behoben werden muss.
Ein Vorfall ist ein einzelnes, ungeplantes Ereignis, das eine Serviceunterbrechung verursacht, während ein Problem die Ursache für eine Serviceunterbrechung ist, bei der es sich um einen einzelnen Vorfall oder eine Reihe von kaskadierenden Vorfällen handeln kann.
Der Unterschied liegt in der Behebung des Problems und in der Art und Weise, wie die Mitarbeiter an die Lösung des Problems herangehen. Die Reaktion auf Vorfälle ist reaktiv. Notfallteams werden alarmiert und kümmern sich um den Vorfall. Wenn IT-Teams jedoch ein Problem angehen, identifizieren sie die Ursache und beheben es dann. Das Problemmanagement verfolgt einen proaktiven Ansatz, bei dem verschiedene Arten von Vorfällen und auftauchende Muster untersucht werden, um zu verstehen, wie zukünftige Vorfälle verhindert werden können.
DevOps-Teams konzentrieren sich darauf, effizientere Wege zum Erstellen, Testen und Bereitstellen von Software zu finden, was zum Teil eine schnelle Behebung von Vorfällen erfordert. Wie das ITIL-Vorfallmanagement zielt auch das DevOps-Vorfallmanagement darauf ab, Probleme zu beheben, ohne den Betrieb zu unterbrechen. So können DevOps-Teams beispielsweise auf schlechte MTBF-Metriken (Mean Time Between Failures) achten, die auf ein zugrunde liegendes Problem hindeuten, das untersucht werden muss.
Da DevOps auf kontinuierliche Verbesserung ausgerichtet ist, liegt der Schwerpunkt auf der Post-Mortem-Analyse und einer Kultur der Transparenz ohne Schuldzuweisungen. Ziel ist es, die Gesamtleistung des Systems zu optimieren, die Behebung von Vorfällen zu rationalisieren und zu beschleunigen und zukünftige Vorfälle zu verhindern.
Wie die IT-Teams von heute nutzen auch DevOps-Teams häufig automatisierte Bereitstellung, Priorisierung von Vorfällen und KI-gestützte Tools zur Ursachenanalyse, um die Betriebszeit zu gewährleisten, die dringendsten Vorfälle zuerst zu beheben und zu lernen, wie man zukünftige Probleme schneller beheben kann. (Oder diese von vornherein verhindern können.)
Unternehmen erstellen in der Regel einen Prozess für das Vorfallmanagement, der die Abfolge der Ereignisse dokumentiert, die das Reaktionsteam durchführen sollte. Alle Stakeholder sollten wissen, welche Mitarbeiter für die Bearbeitung von Vorfällen zuständig sind, wie lange es dauern sollte, das Problem zu lösen, wann der Vorfall an die nächste Ebene eskaliert werden muss und wie der Vorfall und die Art und Weise, wie er gelöst wurde, zu dokumentieren ist.
Sobald der Prozess definiert ist, läuft der Workflow für das Vorfallmanagement in der Regel wie folgt ab:
Alle Unternehmen müssen Probleme beheben und Vorfälle lösen. So halten sie das Geschäft am Laufen. Aber es gibt auch klare Vorteile, effektive Tools zur Lösung von Vorfällen – und Teams – zu haben, die schnell und ohne größere Störungen des Geschäftsbetriebs reagieren können. Zu diesen Vorteilen gehören:
Vorfallmanagement-Tools, Automatisierung und AIOps helfen Teams, Probleme zu identifizieren und schnell zu beheben. Dies wiederum verbessert die Effizienz, da sich die Teams auf das Kerngeschäft konzentrieren können, anstatt sich ständig mit der Brandbekämpfung befassen zu müssen.
Wenn Vorfälle gleich beim ersten Mal richtig (und schneller) behoben werden, verbessert dies die Servicequalität für den Endbenutzer. Dies beginnt mit einem klaren und einfach zu bedienenden System zur Meldung von Serviceunterbrechungen und setzt sich mit einer guten Kommunikation fort, wenn Vorfälle behoben werden.
Die Reaktion auf Vorfälle schafft ein System, in dem Probleme einen klaren Weg zur Lösung haben, und hilft, institutionelles Wissen im Laufe der Zeit aufzubauen. Dieses Wissen – entweder durch Mitarbeiter oder durch ein automatisiertes, KI-gesteuertes System – hilft dabei, wichtige Leistungskennzahlen zu dokumentieren, wie z. B. die mittlere Reparaturzeit (Mean Time To Resolution, MTTR) Diese Metriken tragen dazu bei, dass das Unternehmen ein hohes Serviceniveau aufrechterhält und eine ausgezeichnete Customer Experience bietet.
Mit einem effektiven Vorfallmanagementsystem können Teams größere Vorfälle schneller angehen und Erkenntnisse für die Ursachenanalyse gewinnen. Wenn Teammitglieder dokumentieren, wie frühere Vorfälle gelöst wurden, beginnen sie mit der Erstellung eines Playbooks mit Vorlagen für die Lösung ähnlicher Vorfälle in der Zukunft.
Ein Service Level Agreement (SLA) definiert das Serviceniveau, das ein Unternehmen einem Kunden bieten muss. Daher spielen die Reaktion auf und das Management von Vorfällen eine entscheidende Rolle bei der Erfüllung der im SLA definierten Metriken und wesentlichen Leistungsindikatoren (KPIs).
Die zunehmende Komplexität des IT-Betriebs, die zum Teil auf die vielen Anwendungen zurückzuführen ist, auf die sich Unternehmen im Tagesgeschäft verlassen, hat dazu geführt, dass Tools zur Reaktion auf Vorfälle und Automatisierung wichtiger denn je sind.
Zu den am häufigsten verwendeten Tools für das Vorfallmanagement gehören:
