Jeden Tag nutzen Milliarden von Menschen weltweit ihre Computer oder Mobilgeräte, um auf das Internet zuzugreifen. Unweigerlich versuchen einige dieser Nutzer, auf eine Website zuzugreifen, die entweder langsam lädt oder häufig abstürzt.
Ein Grund für die schlechte Leistung der Website ist, dass zu viele Personen gleichzeitig versuchten, auf die Website zuzugreifen, was die Server überlastete. Es kann jedoch auch auf ein größeres Problem hinweisen, z. B. auf eine DNS-Fehlkonfiguration, einen dauerhaften Serverausfall oder einen böswilligen Angriff eines bösartigen Akteurs.
Vorfälle sind Fehler oder Komplikationen im IT-Service, die behoben werden müssen. Viele dieser Vorfälle sind vorübergehende Probleme, die eine bestimmte Abhilfe erfordern. Probleme, die jedoch auf zugrunde liegende oder kompliziertere Probleme hinweisen, die eine umfassendere Lösung erfordern, werden als Probleme bezeichnet.
Dies erklärt die Existenz von Vorfall- und Problemmanagement, zwei wichtigen Prozessen zur Problem- und Fehlerkontrolle, zur Aufrechterhaltung der Betriebszeit und letztendlich zur Bereitstellung eines hervorragenden Service für Kunden und andere Stakeholder.
Unternehmen sind zunehmend auf digitale Technologien angewiesen, um ihre Kunden zu bedienen und mit Partnern zusammenzuarbeiten. Der Technologie-Stack eines Unternehmens kann neue und spannende Möglichkeiten für das Wachstum seines Geschäfts schaffen. Aber ein Fehler bei der Dienstleistung kann auch zu exponentiellen Störungen führen und den Ruf und den Zustand eines Unternehmens schädigen.
Vorfallmanagement ist die Art und Weise, wie Unternehmen Vorfälle, die normale Geschäftsprozesse stören könnten, identifizieren, verfolgen und beheben. Es handelt sich oft um einen reaktiven Prozess, bei dem ein Vorfall auftritt und das Unternehmen so schnell wie möglich eine Reaktion auf einen Vorfall bereitstellt.
Ein Anstieg von Organisationen, die eine digitale Transformation und andere technologiegetriebene Abläufe verfolgen, macht das Incident-Management noch wichtiger, da man bei der Bereitstellung von Lösungen für Kunden auf Technologie angewiesen ist.
Die IT-Services von Unternehmen bestehen zunehmend aus einem komplexen System von Anwendungen, Software, Hardware und anderen Technologien, die alle voneinander abhängig sein können. Einzelne Prozesse können zusammenbrechen, den Service für die Kunden stören, das Unternehmen Geld kosten und Reputationsprobleme verursachen. Unternehmen haben Advanced Development Operations (DevOps)-Verfahren eingeführt, um Vorfälle zu minimieren, aber sie benötigen einen Lösungsprozess für den Fall, dass sie auftreten.
Jeden Tag erleben Unternehmen kleinere und größere Vorfälle, die alle das Potenzial haben, den normalen Geschäftsbetrieb zu stören, und müssen damit umgehen. Unternehmen müssen verschiedene Arten von Vorfällen im Auge behalten, darunter ungeplante Unterbrechungen wie Systemausfälle, Netzwerkkonfigurationsprobleme, Fehler, Sicherheitsvorfälle, Datenverluste und vieles mehr.
Da die Technologie-Stacks immer komplexer werden, ist es noch wichtiger, den Vorfallmanagementprozess strategisch zu verwalten. So kann sichergestellt werden, dass jeder im Unternehmen weiß, was zu tun ist, wenn ein Vorfall auftritt.
Incident-Management-Systeme haben sich aus gestützten Tools entwickelt, bei denen Mitarbeiter von ihnen beobachtete Vorfälle (die Stunden nach dem Auftreten eintreten können) aufzeichnen. Zu einer robusten, ständig verfügbaren Praxis mit Automatisierung und Self-Service-Incident-Management-Software, die es jedem im Unternehmen ermöglichen, einen Vorfall an den Service Desk zu melden.
Es ist wichtig, Vorfälle sofort zu beheben und zu verhindern, dass sie sich wiederholen. Auf diese Weise können Unternehmen ihr Service Level Agreement (SLA) einhalten, das eine bestimmte Betriebszeit oder den Zugang zu Services garantieren kann. Die Nichteinhaltung eines SLA kann ein rechtliches Risiko oder Reputationsrisiko für Ihr Unternehmen darstellen.
Der Vorfallmanager ist der wichtigste Stakeholder des Vorfallmanagementprozesses. Ein Vorfallmanager ist für die Verwaltung der Reaktion auf einen Vorfall und die Kommunikation des Fortschritts an wichtige Stakeholder verantwortlich. Es handelt sich um eine komplexe Aufgabe im Bereich der IT-Services, bei der der Mitarbeiter unter stressigen Bedingungen arbeiten und gleichzeitig mit Stakeholdern mit unterschiedlichen Rollen und Prioritäten im Unternehmen kommunizieren muss.
Das Problemmanagement soll verhindern, dass sich der Vorfall wiederholt, indem die Ursache beseitigt wird. Logischerweise folgt dies dem Vorfallmanagement, insbesondere wenn dieser Vorfall bereits mehrfach aufgetreten ist und wahrscheinlich als Problem oder bekannter Fehler diagnostiziert werden sollte.
Ein Vorfallmanagement ohne Problemmanagement befasst sich nur mit den Symptomen und nicht mit der zugrundeliegenden Ursache (d. h. der eigentlichen Ursache), sodass die Wahrscheinlichkeit groß ist, dass ähnliche Vorfälle in Zukunft auftreten werden. Effektives Problemmanagement identifiziert eine dauerhafte Lösung für Probleme und verringert die Anzahl der Vorfälle, die ein Unternehmen in Zukunft verwalten muss.
Ein Problemmanagementteam kann sowohl reaktiv als auch proaktiv vorgehen, je nachdem, welche Vorfälle es beobachtet und welche historischen Daten vorliegen.
Es gibt einen großen Unterschied, der bei der Betrachtung von Vorfällen und Problemen zu berücksichtigen ist: kurzfristige und langfristige Ziele.
Beim Incident Management geht es mehr darum, in eine Probleminstanz einzugreifen, mit dem erklärten Ziel, diesen Dienst wieder online zu bringen, ohne zusätzliche Probleme zu verursachen. Es handelt sich um ein kurzfristiges Tool, um den Dienst in diesem Moment am Laufen zu halten.
Das Problemmanagement konzentriert sich mehr auf die langfristige Reaktion, indem es jede potenziell zugrunde liegende Ursache als Teil eines größeren potenziellen Problems (d. h. eines Problems) behandelt.
Unternehmen versuchen, ihre IT-Infrastruktur in einem guten Zustand zu halten, indem sie IT Service Management (ITSM) einsetzen, um die Implementierung, Bereitstellung und Verwaltung von Services zu steuern, die den Bedürfnissen der Endbenutzer entsprechen. ITSM zielt darauf ab, ungeplante Ausfallzeit zu minimieren und sicherzustellen, dass jede IT-Ressource für jeden Endbenutzer wie vorgesehen funktioniert.
Probleme treten unabhängig davon auf, wie viel Aufwand Unternehmen in ihr ITSM stecken. Die Fähigkeit eines Unternehmens, unvorhergesehene Probleme anzugehen und zu lösen, bevor sie sich zu größeren Problemen auswachsen, kann ein enormer Wettbewerbsvorteil sein. Ein einmal ausfallender IT-Service gilt als Vorfall.
Wenn beispielsweise zu viele Personen versuchen, auf einen Server zuzugreifen, kann dieser abstürzen und ein Vorfall verursachen, den Ihr Unternehmen beheben muss. Beim Incident Management geht es darum, das jeweilige Problem, das Ihre Benutzer betrifft, so schnell und sorgfältig wie möglich zu beheben. In diesem Fall kann sich ein Incident Manager mit den Mitarbeitern des Unternehmens in Verbindung setzen und sie bitten, Programme zu beenden, während das Unternehmen das Problem löst.
Das Vorfallmanagement und das Problemmanagement werden beide von der Informationstechnologie-Infrastruktur-Bibliothek (ITIL) geregelt, einem weit verbreiteten Leitlinienrahmen für die Implementierung und Dokumentation beider Managementansätze. ITIL schafft die Struktur für die reaktive Reaktion auf Vorfälle, sobald diese auftreten. Die aktuellste Version zum Zeitpunkt der Erstellung dieses Artikels ist ITIL 4.
Sie bietet eine Bibliothek mit Best Practices für die Verwaltung von IT-Assets und die Verbesserung des IT-Supports und der Service-Levels. ITIL-Prozesse verbinden IT-Services mit Geschäftsabläufen, sodass sie sich ändern können, wenn sich die Geschäftsziele ändern.
Eine wichtige Komponente von ITIL ist die Configuration Management Database (CMDB), die gegenseitige Abhängigkeit aller Software, IT-Komponenten, Dokumente, Benutzer und Hardware, die für die Bereitstellung eines IT-Services erforderlich sind, verfolgt und verwaltet. ITIL unterscheidet zudem zwischen Incident Management und Problem Management.
Ein ständig abstürzender Server kann ein größeres, systematisches Problem darstellen, wie ein Hardwareausfall oder eine Fehlkonfiguration. Die Abstürze können fortgesetzt werden, wenn das IT-Serviceteam es nicht schafft, die Ursache zu ermitteln und eine Lösung für das zugrunde liegende Problem zu finden. In diesem Fall kann die Reaktion eine Eskalation an das Problemmanagement erfordern, das sich mit der Behebung wiederholter Vorfälle befasst.
Das Problemmanagement bietet eine Ursachenanalyse für das Problem und eine empfohlene Lösung, die die erforderlichen Ressourcen identifiziert, um ein erneutes Auftreten zu verhindern.
Effektives Vorfall- und Problemmanagement umfasst einen strukturierten Workflow, der Überwachung in Echtzeit, Automatisierung und die Koordination von dedizierten Mitarbeitern erfordert, um Probleme so schnell wie möglich zu lösen und unnötige Ausfallzeiten oder Betriebsunterbrechungen zu vermeiden. Beide Formen der Verwaltung weisen mehrere wiederkehrende Komponenten auf, die Unternehmen kennen sollten.
Unternehmen bewerten Vorfallmanager und den Vorfallmanagementprozess häufig anhand mehrerer Leistungsindikatoren (KPIs):
Unternehmen mit umfassenden Plänen für das Problem- und Vorfallsmanagement können schnell auf Vorfälle reagieren und ihre Konkurrenz überflügeln. Im Folgenden sind einige Vorteile aufgeführt:
IBM Turbonomic integriert sich in Ihre bestehenden ITOps-Lösungen, verbindet isolierte Teams und Daten und wandelt manuelle, reaktive Prozesse in eine kontinuierliche Optimierung der Anwendungs-Ressourcen um und reduziert gleichzeitig den Cloud-Verbrauch auf sichere Weise um 33 %.
IBM Cloud Pak for AIOps, die selbst gehostete Option für das Vorfallmanagement, ermöglicht ein proaktives Vorfallmanagement und eine automatische Sanierung, um kundenorientierte Ausfälle um bis zu 50 % und die mittlere Wiederherstellungszeit (MTTR) um bis zu 50 % zu reduzieren.
