Vorfallmanagement im Vergleich zu Problemmanagement

Jeden Tag nutzen Milliarden von Menschen weltweit ihre Computer oder Mobilgeräte, um auf das Internet zuzugreifen. Unweigerlich versuchen einige dieser Nutzer, auf eine Website zuzugreifen, die entweder langsam lädt oder häufig abstürzt.

Ein Grund für die schlechte Leistung der Website ist, dass zu viele Personen gleichzeitig versuchten, auf die Website zuzugreifen, was die Server überlastete. Es kann jedoch auch auf ein größeres Problem hinweisen, z. B. auf eine DNS-Fehlkonfiguration, einen dauerhaften Serverausfall oder einen böswilligen Angriff eines bösartigen Akteurs.

Vorfälle sind Fehler oder Komplikationen im IT-Service, die behoben werden müssen. Viele dieser Vorfälle sind vorübergehende Probleme, die eine bestimmte Abhilfe erfordern. Probleme, die jedoch auf zugrunde liegende oder kompliziertere Probleme hinweisen, die eine umfassendere Lösung erfordern, werden als Probleme bezeichnet.

Dies erklärt die Existenz von Vorfall- und Problemmanagement, zwei wichtigen Prozessen zur Problem- und Fehlerkontrolle, zur Aufrechterhaltung der Betriebszeit und letztendlich zur Bereitstellung eines hervorragenden Service für Kunden und andere Stakeholder.

Unternehmen sind zunehmend auf digitale Technologien angewiesen, um ihre Kunden zu bedienen und mit Partnern zusammenzuarbeiten. Der Technologie-Stack eines Unternehmens kann neue und spannende Möglichkeiten für das Wachstum seines Geschäfts schaffen. Aber ein Fehler bei der Dienstleistung kann auch zu exponentiellen Störungen führen und den Ruf und den Zustand eines Unternehmens schädigen.

Was ist Vorfallmanagement?

Vorfallmanagement ist die Art und Weise, wie Unternehmen Vorfälle, die normale Geschäftsprozesse stören könnten, identifizieren, verfolgen und beheben. Es handelt sich oft um einen reaktiven Prozess, bei dem ein Vorfall auftritt und das Unternehmen so schnell wie möglich eine Reaktion auf einen Vorfall bereitstellt.

Ein Anstieg von Organisationen, die eine digitale Transformation und andere technologiegetriebene Abläufe verfolgen, macht das Incident-Management noch wichtiger, da man bei der Bereitstellung von Lösungen für Kunden auf Technologie angewiesen ist.

Die IT-Services von Unternehmen bestehen zunehmend aus einem komplexen System von Anwendungen, Software, Hardware und anderen Technologien, die alle voneinander abhängig sein können. Einzelne Prozesse können zusammenbrechen, den Service für die Kunden stören, das Unternehmen Geld kosten und Reputationsprobleme verursachen. Unternehmen haben Advanced Development Operations (DevOps)-Verfahren eingeführt, um Vorfälle zu minimieren, aber sie benötigen einen Lösungsprozess für den Fall, dass sie auftreten.

Jeden Tag erleben Unternehmen kleinere und größere Vorfälle, die alle das Potenzial haben, den normalen Geschäftsbetrieb zu stören, und müssen damit umgehen. Unternehmen müssen verschiedene Arten von Vorfällen im Auge behalten, darunter ungeplante Unterbrechungen wie Systemausfälle, Netzwerkkonfigurationsprobleme, Fehler, Sicherheitsvorfälle, Datenverluste und vieles mehr.

Da die Technologie-Stacks immer komplexer werden, ist es noch wichtiger, den Vorfallmanagementprozess strategisch zu verwalten. So kann sichergestellt werden, dass jeder im Unternehmen weiß, was zu tun ist, wenn ein Vorfall auftritt.

Incident-Management-Systeme haben sich aus gestützten Tools entwickelt, bei denen Mitarbeiter von ihnen beobachtete Vorfälle (die Stunden nach dem Auftreten eintreten können) aufzeichnen. Zu einer robusten, ständig verfügbaren Praxis mit Automatisierung und Self-Service-Incident-Management-Software, die es jedem im Unternehmen ermöglichen, einen Vorfall an den Service Desk zu melden.

Es ist wichtig, Vorfälle sofort zu beheben und zu verhindern, dass sie sich wiederholen. Auf diese Weise können Unternehmen ihr Service Level Agreement (SLA) einhalten, das eine bestimmte Betriebszeit oder den Zugang zu Services garantieren kann. Die Nichteinhaltung eines SLA kann ein rechtliches Risiko oder Reputationsrisiko für Ihr Unternehmen darstellen.

Der Vorfallmanager ist der wichtigste Stakeholder des Vorfallmanagementprozesses. Ein Vorfallmanager ist für die Verwaltung der Reaktion auf einen Vorfall und die Kommunikation des Fortschritts an wichtige Stakeholder verantwortlich. Es handelt sich um eine komplexe Aufgabe im Bereich der IT-Services, bei der der Mitarbeiter unter stressigen Bedingungen arbeiten und gleichzeitig mit Stakeholdern mit unterschiedlichen Rollen und Prioritäten im Unternehmen kommunizieren muss.

Was ist Problemmanagement?

Das Problemmanagement soll verhindern, dass sich der Vorfall wiederholt, indem die Ursache beseitigt wird. Logischerweise folgt dies dem Vorfallmanagement, insbesondere wenn dieser Vorfall bereits mehrfach aufgetreten ist und wahrscheinlich als Problem oder bekannter Fehler diagnostiziert werden sollte.

Ein Vorfallmanagement ohne Problemmanagement befasst sich nur mit den Symptomen und nicht mit der zugrundeliegenden Ursache (d. h. der eigentlichen Ursache), sodass die Wahrscheinlichkeit groß ist, dass ähnliche Vorfälle in Zukunft auftreten werden. Effektives Problemmanagement identifiziert eine dauerhafte Lösung für Probleme und verringert die Anzahl der Vorfälle, die ein Unternehmen in Zukunft verwalten muss.

Ein Problemmanagementteam kann sowohl reaktiv als auch proaktiv vorgehen, je nachdem, welche Vorfälle es beobachtet und welche historischen Daten vorliegen.

Unterschiede zwischen Vorfallmanagement und Problemmanagement

Es gibt einen großen Unterschied, der bei der Betrachtung von Vorfällen und Problemen zu berücksichtigen ist: kurzfristige und langfristige Ziele.

Beim Incident Management geht es mehr darum, in eine Probleminstanz einzugreifen, mit dem erklärten Ziel, diesen Dienst wieder online zu bringen, ohne zusätzliche Probleme zu verursachen. Es handelt sich um ein kurzfristiges Tool, um den Dienst in diesem Moment am Laufen zu halten.

Das Problemmanagement konzentriert sich mehr auf die langfristige Reaktion, indem es jede potenziell zugrunde liegende Ursache als Teil eines größeren potenziellen Problems (d. h. eines Problems) behandelt.

Wie funktionieren Vorfallmanagement und Problemmanagement zusammen?

Unternehmen versuchen, ihre IT-Infrastruktur in einem guten Zustand zu halten, indem sie IT Service Management (ITSM) einsetzen, um die Implementierung, Bereitstellung und Verwaltung von Services zu steuern, die den Bedürfnissen der Endbenutzer entsprechen. ITSM zielt darauf ab, ungeplante Ausfallzeit zu minimieren und sicherzustellen, dass jede IT-Ressource für jeden Endbenutzer wie vorgesehen funktioniert.

Probleme treten unabhängig davon auf, wie viel Aufwand Unternehmen in ihr ITSM stecken. Die Fähigkeit eines Unternehmens, unvorhergesehene Probleme anzugehen und zu lösen, bevor sie sich zu größeren Problemen auswachsen, kann ein enormer Wettbewerbsvorteil sein. Ein einmal ausfallender IT-Service gilt als Vorfall.

Wenn beispielsweise zu viele Personen versuchen, auf einen Server zuzugreifen, kann dieser abstürzen und ein Vorfall verursachen, den Ihr Unternehmen beheben muss. Beim Incident Management geht es darum, das jeweilige Problem, das Ihre Benutzer betrifft, so schnell und sorgfältig wie möglich zu beheben. In diesem Fall kann sich ein Incident Manager mit den Mitarbeitern des Unternehmens in Verbindung setzen und sie bitten, Programme zu beenden, während das Unternehmen das Problem löst.

Das Vorfallmanagement und das Problemmanagement werden beide von der Informationstechnologie-Infrastruktur-Bibliothek (ITIL) geregelt, einem weit verbreiteten Leitlinienrahmen für die Implementierung und Dokumentation beider Managementansätze. ITIL schafft die Struktur für die reaktive Reaktion auf Vorfälle, sobald diese auftreten. Die aktuellste Version zum Zeitpunkt der Erstellung dieses Artikels ist ITIL 4.

Sie bietet eine Bibliothek mit Best Practices für die Verwaltung von IT-Assets und die Verbesserung des IT-Supports und der Service-Levels. ITIL-Prozesse verbinden IT-Services mit Geschäftsabläufen, sodass sie sich ändern können, wenn sich die Geschäftsziele ändern.

Eine wichtige Komponente von ITIL ist die Configuration Management Database (CMDB), die gegenseitige Abhängigkeit aller Software, IT-Komponenten, Dokumente, Benutzer und Hardware, die für die Bereitstellung eines IT-Services erforderlich sind, verfolgt und verwaltet. ITIL unterscheidet zudem zwischen Incident Management und Problem Management.

Ein ständig abstürzender Server kann ein größeres, systematisches Problem darstellen, wie ein Hardwareausfall oder eine Fehlkonfiguration. Die Abstürze können fortgesetzt werden, wenn das IT-Serviceteam es nicht schafft, die Ursache zu ermitteln und eine Lösung für das zugrunde liegende Problem zu finden. In diesem Fall kann die Reaktion eine Eskalation an das Problemmanagement erfordern, das sich mit der Behebung wiederholter Vorfälle befasst.

Das Problemmanagement bietet eine Ursachenanalyse für das Problem und eine empfohlene Lösung, die die erforderlichen Ressourcen identifiziert, um ein erneutes Auftreten zu verhindern.

Wichtige Komponenten des Vorfall- und Problemmanagements

Effektives Vorfall- und Problemmanagement umfasst einen strukturierten Workflow, der Überwachung in Echtzeit, Automatisierung und die Koordination von dedizierten Mitarbeitern erfordert, um Probleme so schnell wie möglich zu lösen und unnötige Ausfallzeiten oder Betriebsunterbrechungen zu vermeiden. Beide Formen der Verwaltung weisen mehrere wiederkehrende Komponenten auf, die Unternehmen kennen sollten.

Vorfallmanagement

Identifizierung von Vorfällen: Um einen Vorfall zu lösen, müssen Sie ihn zunächst beobachten. Unternehmen automatisieren ihre Systeme zunehmend, um Vorfälle zu erkennen und Benachrichtigungen zu senden, wenn sie auftreten. Viele dieser Fälle erfordern jedoch auch einen Menschen, der sicherstellt, dass ein Vorfall tatsächlich stattfindet, feststellt, ob ein Eingreifen erforderlich ist und die richtige Vorgehensweise bestätigt. Ein Serverabsturz ist beispielsweise ein häufiger Vorfall bei Digital-First-Unternehmen. Wenn der Server offline geht, kann ein automatisiertes Tool oder ein Mitarbeiter den Vorfall identifizieren und den Vorfallmanagementprozess einleiten.
Meldung von Vorfällen: Dies ist der formale Prozess zur Katalogisierung eines Vorfalls, den eine Maschine oder ein Mensch beobachtet hat. Dazu gehört die Protokollierung von Vorfällen, bei dem eine Person oder ein System dem Problem einen Befragten zuweist, den Vorfall kategorisiert und die betroffene Geschäftsbereich sowie das Lösungsdatum identifiziert.
Priorisierung der Lösung von Vorfällen: Software und IT-Dienste sind in modernen Unternehmen oft voneinander abhängig, so dass ein Vorfall Auswirkungen auf andere Dienste haben kann. Manchmal ereignet sich ein Vorfall als Teil eines größeren systematischen Fehlers, der eine katastrophale Ereigniskette auslösen kann. Wenn zum Beispiel mehrere Server abstürzen, kann das Business Analytics-Team möglicherweise nicht auf die Daten zugreifen, die es benötigt, oder die Wissensarbeiter des Unternehmens können sich möglicherweise nicht anmelden und auf die Software für ihre Arbeit zugreifen. Oder wenn die API eines Unternehmens ausfällt, können die Kunden des Unternehmens möglicherweise nicht auf die Informationen zugreifen, die sie zur Betreuung ihrer Endbenutzer benötigen. In beiden Situationen muss das Reaktionsteam das gesamte Ausmaß des Problems einschätzen und Prioritäten setzen, welche Vorfälle behoben werden sollen, um die kurz- und langfristigen Auswirkungen auf das Unternehmen zu minimieren. Sie können Prioritäten setzen, basierend darauf, welcher Vorfall die größten Auswirkungen auf das Unternehmen hat.
Reaktion auf den Vorfall und dessen Eindämmung: Ein Reaktionsteam – möglicherweise unterstützt durch automatisierte Software oder Systeme – kümmert sich dann um die Behebung des Vorfalls, um Geschäftsunterbrechungen zu minimieren. Das Reaktionsteam setzt sich in der Regel aus internen IT-Teammitgliedern, externen Service-Providern und Betriebsmitarbeitern zusammen.
Behebung von Vorfällen: Dies ist kritisch, damit der IT-Betrieb zum normalen Betrieb zurückkehren kann. Zu den möglichen Lösungen für einen IT-Vorfall gehören, den fehlerhaft funktionierenden Server offline zu nehmen, einen Patch zu erstellen, eine Problemumgehung zu etablieren oder die Hardware zu wechseln.
Dokumentation und Kommunikation von Vorfällen: Dies ist ein wichtiger Schritt im Lebenszyklus eines Vorfalls, um zukünftige Vorfälle zu vermeiden. Viele Unternehmen erstellen Wissensdatenbanken für ihre Vorfallberichte, in denen Mitarbeiter suchen können, um ihnen bei der Lösung eines Vorfalls zu helfen, der möglicherweise in der Vergangenheit aufgetreten ist. Darüber hinaus können neue Mitarbeiter erfahren, mit welchen Vorfällen das Unternehmen in letzter Zeit konfrontiert war und welche Lösungen angewandt werden, sodass sie beim nächsten Vorfall leichter helfen können. Die Dokumentation ist auch kritisch für die Feststellung, ob ein Problem wiederkehrt und zu einem Problem wird, was die Notwendigkeit des Problemmanagements erhöht.

Problemmanagement

Problembewertung: Das Unternehmen muss nun feststellen, ob der Vorfall als Problemdatensatz kategorisiert werden sollte oder ob es sich nur um einen unabhängigen Vorfall handelt. Ersteres bedeutet, dass es nun Teil des Problemmanagements wird.
Problemprotokollierung und -kategorisierung: Das IT-Team muss nun das identifizierte Problem protokollieren und jedes Vorkommen verfolgen.
Ursachenanalyse: Das Unternehmen sollte die zugrunde liegenden Gründe für diese Probleme untersuchen und eine Roadmap entwickeln, um eine langfristige Lösung zu finden. Eine Möglichkeit, dies zu erreichen, besteht darin, bei jedem Schritt rekursive „Wie“-Fragen zu stellen, bis man das ursprüngliche Problem identifizieren kann.
Problemlösung: Ein IT-Team, das das Problem und seine Ursache versteht, kann das Problem jetzt lösen. Abhängig von der Schwere und Komplexität des Problems kann dies eine schnelle oder langwierige Maßnahme sein.
Postmortem: Ein Postmortem, bei dem die betroffenen Mitarbeiter den/die Vorfall/Vorfälle, die Ursachen und die Reaktion auf das Problem besprechen, ist ein entscheidender Bestandteil jedes transparenten Unternehmens, das daran interessiert ist, die Betriebszeit aufrechtzuerhalten und den Kunden einen hervorragenden Service zu bieten. Postmortems bieten jedem die Möglichkeit, darüber zu diskutieren, wie man sich verbessern kann, ohne einen Mitarbeiter zu verurteilen oder die Schuld für ein Problem zu geben. Der Zweck der Nachuntersuchung besteht darin, herauszufinden, was passiert ist, und Maßnahmen zur Verbesserung des Unternehmens festzulegen. Sie kann auch Erkenntnisse darüber geben, wie das Team besser auf zukünftige Vorfälle reagieren kann. Sie kann feststellen, ob ein Unternehmen ein Change Management benötigt, um sein Vorfall- und Problemmanagement zu revitalisieren und zu rationalisieren. Die besten Ideen und besten Ergebnisse ergeben sich aus offenen und ehrlichen Post-Mortem-Meetings. Die Teamkultur sollte allen Mitgliedern die Gewissheit geben, dass dies ein Weg ist, um herauszufinden, wie das Team die IT-Services verbessern kann, und nicht ein Weg, um die Schuldigen zu finden. Die Teams werden schnell verstehen, ob es sich um eine ehrliche und unterstützende Übung handelt oder nicht.

Wichtige Leistungsindikatoren für das Vorfall- und Problemmanagement

Unternehmen bewerten Vorfallmanager und den Vorfallmanagementprozess häufig anhand mehrerer Leistungsindikatoren (KPIs):

Mittlere Zeit, um Maßnahmen zu ergreifen: Ein Vorfall erfordert Erkennung, Reaktion und Reparatur. Unternehmen beurteilen den Zustand ihres Incident-Management-Dienstes anhand der mittleren Zeit bis zur Warnung oder Bestätigung (MTTA) und der mittleren Zeit bis zur Reaktion und der mittleren Zeit bis zur Reparatur (MTTR), die alle ein klares Bild davon vermitteln, wie das Unternehmen auf Vorfälle reagieren kann.
Mittlere Zeit zwischen auftretenden Fehlern (MTBF): Die Zeit zwischen Vorfällen für einen IT-Service. MTBF, was häufiger als erwartet passiert, könnte auf größere Probleme hinweisen, die eine proaktivere Haltung erfordern.
Betriebszeit: Die Zeit, in der Ihre Dienste verfügbar sind und wie vorgesehen funktionieren. Eine zu geringe Betriebszeit kann ein Unternehmen dem Risiko aussetzen, seine SLA mit Endbenutzern zu verletzen und Aufträge an Wettbewerber zu verlieren.
Gemeldete Vorfälle und Probleme: Die Anzahl der Vorfälle, die ein Vorfallmanager in einem bestimmten Zeitraum gemeldet hat. Immer mehr gemeldete Vorfälle können auf ein größeres Problem hindeuten.

Vorteile des Vorfall- und Problemmanagements

Unternehmen mit umfassenden Plänen für das Problem- und Vorfallsmanagement können schnell auf Vorfälle reagieren und ihre Konkurrenz überflügeln. Im Folgenden sind einige Vorteile aufgeführt:

Höhere Kundenzufriedenheit und Loyalität: Kunden erwarten, dass die Dienstleistungen und Produkte, für die sie bezahlen, bei Bedarf funktionieren. Immer mehr Produkte sind Software (oder mit Software verbunden, wie z. B. intelligente Geräte). Ein Serverabsturz bei einem Unternehmen, das intelligente Türklingeln herstellt, bedeutet, dass Menschen ihre Häuser oder Wohnungen nicht betreten können. Eine Hotelbuchungswebsite mit einem DNS-Fehler verliert an diesem Tag Umsatz und verliert möglicherweise einen lebenslangen Kunden an einen Konkurrenten. Die Auswirkungen von Vorfällen und Problemen können eine Organisation stark belasten. Diejenigen, die schneller auf Vorfälle reagieren und die Ausfallzeit minimieren, werden die Loyalität von Kunden gewinnen, die wahrscheinlich den Anbieter wechseln, wenn sie unzufrieden sind. Eine robuste Vorfallmanagement-Strategie spart Unternehmen Geld, indem sie die Ausfallzeit und die Wahrscheinlichkeit verringert, dass ein Kunde oder Mitarbeiter das Unternehmen verlässt, was beides mit hohen Kosten verbunden ist.
Gesteigerte Mitarbeiterzufriedenheit: Ein schwerwiegender IT-Vorfall betrifft die Mitarbeiter genauso wie die Kunden. Mitarbeiter, die nicht auf kritisch Geschäftssoftware zugreifen können, können ihre Arbeit nicht erledigen. Ihre Arbeit häuft sich, während das Unternehmen versucht, die Dinge wieder online zu bringen. Es kann sein, dass sie Überstunden machen oder am Wochenende arbeiten müssen, um aufzuholen, was Stress verursacht und ihre Moral gefährdet.
Erfüllung der SLA-Anforderungen: Unternehmen beschreiben die Erwartungen ihrer Kunden an ihre Produkte und Dienstleistungen in einem SLA. Wenn das Unternehmen die Servicebedingungen in seinen SLAs nicht einhält, riskieren es rechtliche Schritte und verlieren möglicherweise Kunden an Konkurrenten.

Erfahren Sie, wie Sie einen proaktiven IT-Betrieb erzielen können

IBM Turbonomic integriert sich in Ihre bestehenden ITOps-Lösungen, verbindet isolierte Teams und Daten und wandelt manuelle, reaktive Prozesse in eine kontinuierliche Optimierung der Anwendungs-Ressourcen um und reduziert gleichzeitig den Cloud-Verbrauch auf sichere Weise um 33 %.

IBM Cloud Pak for AIOps, die selbst gehostete Option für das Vorfallmanagement, ermöglicht ein proaktives Vorfallmanagement und eine automatische Sanierung, um kundenorientierte Ausfälle um bis zu 50 % und die mittlere Wiederherstellungszeit (MTTR) um bis zu 50 % zu reduzieren.

Abonnieren Sie den Think Newsletter

Der Unternehmensleitfaden zur KI- und IT-Automatisierung

Lesen Sie, wie Sie Ihre IT-Teams neu positionieren und KI- und IT-Automatisierung in Ihr Unternehmen integrieren können, um den Geschäftserfolg zu steigern.

Vorfallmanagement im Vergleich zu Problemmanagement: Was ist der Unterschied?