Was versteht man unter Observability im Kontext von AIOps (AIOps-Observability)?

By Derek Robertson , Matthew Kosinski

AIOps-Observability definiert

AIOps-Observability ist die Praxis, künstliche Intelligenz und maschinelles Lernen in die Observability-Strategie eines Unternehmens zu integrieren, um IT-Abläufe wie die Erfassung und Analyse von Telemetriedaten zu automatisieren.

AIOps ist die Anwendung von KI-Funktionen – wie der Verarbeitung natürlicher Sprache und maschinellen Lernmodellen – zur Automatisierung des IT-Service-Managements und des betrieblichen Workflows. Observability ist die Fähigkeit, den internen Zustand eines komplexen Systems allein auf der Grundlage der Kenntnis seiner externen Ausgaben, insbesondere seiner Telemetrie, zu verstehen. Die Kombination dieser Praktiken bietet leistungsstarke Tools zur Optimierung, Fehlerbehebung und Automatisierung in komplexen Multicloud-IT-Umgebungen.

Die AIOps-Observability nutzt KI- und ML-Techniken, um die Protokolle, Metriken und Traces eines Systems zu analysieren und folgende Vorgänge durchzuführen:

Anomalieerkennung, bei der Algorithmen große Datenmengen analysieren, um die Basisleistung des Systems zu bestimmen und Abweichungen zu identifizieren.
Ursachenanalyse (RCA), die über Korrelation hinausgeht, um umsetzbare Erkenntnisse zu Systemproblemen zu identifizieren.
Vorausschauende Analyse, die dabei hilft, zukünftige System-Workloads vorherzusagen und die Ressourcen entsprechend nach oben oder unten zu skalieren.

Um AIOps und Observability zu kombinieren, verwenden die meisten Unternehmen Observability-Plattformen mit integrierten KI-Funktionen. Moderne Observability-Plattformen enthalten oft generative KI-Funktionen, wie Textschnittstellen, die Fragen zum Netzwerkstatus beantworten können, oder Tools zur Echtzeit-Datenvisualisierung, die in das Dashboard der Plattform integriert sind. IT-Teams können diese generativen KI-Tools – zusammen mit den KI-gestützten automatisierten Sanierungstools der Observability-Plattform – verwenden, um Ausfallzeiten zu prognostizieren, die betriebliche Effizienz zu steigern und die Anwendungsleistung zu verbessern.

Hier ist ein Beispiel dafür, wie AIOps-Lösungen im Bereich der Observability eingesetzt werden können. Angenommen, eine Observability-Plattform deckt einen Zusammenhang zwischen einem plötzlichen Anstieg von Warnmeldungen über verlangsamte Anwendungen und der Latenz in einem Kernrouter auf.

Die Plattform kann anhand einer etablierten Baseline des Netzwerkverhaltens anomale Aktivitäten identifizieren, die der Latenz vorausgingen – beispielsweise eine ungeplante Änderung der Konfiguration dieses Routers. Anschließend kann sie eine automatisierte Ursachenanalyse durchführen, um festzustellen, wie, wann und wo die Änderung vorgenommen wurde. Danach kann die Plattform einen vorab genehmigten Workflow konsultieren, um Korrekturen anzuwenden (z. B. die Router-Firmware auf eine frühere Version zurückzusetzen). Schließlich kann sie dem IT-Team einen Vorfallsbericht präsentieren und so dazu beitragen, weitere Störungen zu verhindern.

Generative KI, Hybrid-Cloud-Betrieb und Observability sind eng miteinander verbunden. Ein Bericht aus dem Jahr 2025 des Forschungsunternehmens Gartner¹ beschreibt Observability als eine Schlüsselfähigkeit von KI-gestützten CloudOps (Cloud-Operationen). Laut einem Bericht von S&P Global Market Intelligence aus dem Jahr 2025 nutzen²71 % der Unternehmen, die Observability-Lösungen einsetzen, ihre KI-Funktionen, ein Anstieg von 26 % gegenüber 2024.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Wie funktioniert AIOps-Observability?

AIOps-Observability funktioniert durch die Erfassung traditioneller Observability-Daten wie Protokolle, Traces und Metriken. Anschließend werden KI und maschinelles Lernen eingesetzt, um mit diesen Daten zentrale Observability-Funktionen durchzuführen – wie etwa Ursachenanalyse und Anomalieerkennung – und um einen automatisierten Workflow zu etablieren, der zur Optimierung der IT-Infrastruktur beiträgt.

Grundlegende Daten

AIOps-Observability stützt sich auf die drei traditionellen Säulen der Observability: Protokolle, Traces und Metriken.

Protokolle sind granulare, vollständige und unveränderliche Aufzeichnungen von Anwendungsereignissen mit Zeitstempel.
Traces zeichnen die gesamte „Journey“ jeder Benutzeranfrage auf, von der Benutzeroberfläche über die gesamte Architektur bis hin zum Benutzer.
Metriken sind grundlegende Messwerte für den Zustand von Anwendungen und Systemen im Laufe der Zeit, wie CPU-Auslastung und Latenzmessungen.

KI- und ML-Funktionen

Der Einsatz leistungsstarker künstlicher Intelligenz und maschineller Lernfunktionen unterscheidet AIOps-Observability von traditioneller Observability. AIOps-Observability beinhaltet unter anderem die Verwendung dieser Tools zur Durchführung von Ursachenanalysen, Anomalieerkennung und vorausschauender Analyse.

Die Ursachenanalyse ist ein Prozess des Qualitätsmanagements, bei dem ein Unternehmen nach der Ursache eines Problems, einer Frage oder eines Vorfalls sucht, nachdem diese aufgetreten sind. Diese Analyse wird oft durch kausale KI ergänzt, die durch die Verknüpfung von Observability-Daten die Ursache von Problemen identifizieren kann. Anschließend kann sie aufzeigen, wie und warum bestimmte Entitäten als wahrscheinliche Ursache des Problems identifiziert wurden, sodass IT-Experten diese identifizieren und beheben können.

Anomalieerkennung ist die Identifizierung von Datenpunkten, die von dem abweichen, was üblich, standardmäßig oder erwartet ist, wodurch sie mit dem Rest eines Datensatzes inkonsistent werden. KI- und ML-Funktionen können automatisch unerwartete Änderungen im normalen Verhalten eines Datensatzes erkennen, indem sie die von Observability-Tools erfasste Telemetrie verwenden, um Abweichungen vom Referenzwert zu kennzeichnen. Diese Abweichungen helfen dabei, Probleme mit Anwendungsleistung, Cybersicherheit und E-Commerce-Plattformen sowie anderen Anwendungen zu erkennen.

Vorausschauende Analyse ist die Praxis, Vorhersagen über zukünftige Ergebnisse zu treffen, indem historische Daten mit statistischer Modellierung, Data-Mining-Techniken und maschinellem Lernen kombiniert werden. Im Kontext der AIOps-Observability können KI-Modelle Telemetriedaten nutzen, um zukünftige Workloads vorherzusagen und die Netzwerkressourcen entsprechend zu skalieren, wodurch die Latenz reduziert und die User Experience verbessert wird.

Automatisierung von IT-Systemen

Wenn Observability mit AIOps, ML und Automatisierung kombiniert wird, können IT-Teams Probleme auf der Grundlage von Ausgaben vorhersagen und mit minimalem menschlichem Eingreifen beheben.

AIOps-Software kann Ursachenanalysen, Anomalieerkennung, vorausschauende Analysen und andere KI- und ML-Funktionen nutzen, um die Fehlerbehebung zu beschleunigen. Eine schnellere Fehlerbehebung trägt dazu bei, zukünftige Ausfälle zu verhindern, indem die Systemleistung und die Geschwindigkeit der Problemlösung erhöht werden. Dadurch können DevOps Engineers sich anderen kritischen Aufgaben widmen.

Bei der Implementierung schafft die AIOps-Observability eine Art positive „Schleife“. Die Flut an Telemetriedaten, die von einem System generiert wird, wird zu einer Ressource, die IT-Experten mithilfe der Automatisierungsfunktionen der Plattform nutzen können, um Schwachstellen zu identifizieren und automatisch Fixes zu entwickeln.

Eine Observability-Plattform mit AIOps Funktionen könnte beispielsweise durch korrelierte Metriken feststellen, dass die CPU-Auslastung innerhalb eines Kubernetes-Clusters den vom Unternehmen festgelegten Schwellenwert überschritten hat, was zu einer Erhöhung der Latenz führt.

Nachdem sie festgestellt hat, dass das Problem von einem überlasteten Microservice herrührt, könnte die KI vorschlagen, das Netzwerk horizontal zu skalieren, indem sie die Anzahl der Serverinstanzen erhöht. Anschließend kann sie eine Regel festlegen, die diese Maßnahmen automatisch ausführt, sobald der betreffende Microservice überlastet ist, und sie wieder rückgängig macht, sobald sich der Datenverkehr wieder normalisiert hat, wodurch der Engpass in Zukunft verhindert wird.

Vorteile der AIOps-Observability

Die AIOps-Observability kann die mittlere Reparaturzeit (MTTR) eines Unternehmens, die Effizienz des DevOps-Workflows und die Sicherheitspraktiken verbessern.

Reduzierte Wiederherstellungszeit

Die AIOps-Observability kann die Wiederherstellungs- und Reparaturzeit erheblich verkürzen, indem sie die Ursachenanalyse beschleunigt.

Eine automatisierte Analyse kann den Unterschied ausmachen zwischen stundenlanger Triage eines Vorfalls und der Behebung eines drohenden Problems, bevor es überhaupt auftritt. Dadurch lassen sich Ausfallzeiten reduzieren und DevOps-Teams können sich anderen Aufgaben widmen.

Effizientere DevOps

Die AIOps-Observability kann DevOps effizienter machen, indem Möglichkeiten zur Optimierung und Automatisierung administrativer Aufgaben identifiziert werden.

Nehmen wir beispielsweise an, dass eine AIOps-Plattform durch Ursachenanalyse feststellt, dass ein bestimmter Cache geleert werden muss, bevor eine verbundene Anwendung ordnungsgemäß funktionieren kann. Site Reliability Engineers können diese Informationen nutzen, um einen automatisierten Workflow zu erstellen, der den Zustand in Echtzeit erkennt und den Cache automatisch leert, sobald ein bestimmtes Volumen erreicht ist. Die AIOps-Plattform kann außerdem eine Visualisierung der Bereiche im Netzwerk erstellen, die am stärksten von ähnlichen Überlastungen bedroht sind. Diese Visualisierung kann dem DevOps-Team und anderen helfen, fundiertere Entscheidungen bei der Erstellung unternehmensweiter Richtlinien zu treffen.

Sicherheit und Compliance

Einige Observability-Plattformen mit KI-Funktionen können automatisch Bewertungen durchführen, Systeme oder Malware scannen und Audit-Trails und Berichte generieren. Bei Vorfällen können KI-gestützte Plattformen relevante Telemetriedaten verwenden, um Angriffsvektoren automatisch zu identifizieren, Auswirkungen abzuschätzen und Schwachstellen schneller zu beheben als bei der herkömmlichen Vorfallsreaktion.

AIOps kann auch Compliance-Anforderungen unterstützen, indem es automatisch detaillierte Audit-Trails des Systemzugriffs und der Datenflüsse erstellt und verwaltet.

IBM DevOps

Was ist DevOps?

Andrea Crawford erklärt, was DevOps ist, welchen Wert DevOps hat und wie DevOps-Praktiken und -Tools Ihnen dabei helfen, Ihre Anwendungen durch die gesamte Delivery Pipeline der Softwareentwicklung von der Idee bis zur Produktion zu bringen. Das von führenden IBM Experten geleitete Programm soll Führungskräften das nötige Wissen vermitteln, um Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

Entdecken Sie DevOps

Anwendungsfälle für AIOps-Observability

Administratoren können die über AIOps-Observability erfassten Telemetriedaten nutzen, um übermäßige oder irrelevante Warnmeldungen zu unterdrücken, die Organisationskapazität zu planen und Leistungseinbußen von vornherein zu verhindern.

Vorfallunterdrückung

Übermäßige Warnmeldungen können zu Alarmermüdung (Alarm Fatigue) führen, einem Zustand geistiger und operativer Erschöpfung, der durch eine überwältigende Anzahl von Warnmeldungen verursacht wird, die von niedriger Priorität sind, Fehlalarme darstellen oder anderweitig nicht umsetzbar sind.

KI-gestützte Observability-Plattformen können mithilfe der ML-gesteuerten Triage große Mengen an Warnmeldungen durchsuchen. Diese Triage reduziert die manuelle Arbeit und die Fehlerquote erheblich, indem sie Muster identifiziert, Duplikate reduziert und verwandte Warnmeldungen korreliert, um Workloads zu verringern.

Kapazitätsplanung

Die Kapazitätsplanung ist ein strategischer Prozess, der die Produktionskapazität und Ressourcen untersucht, die ein Unternehmen benötigt, um die aktuelle und zukünftige Nachfrage zu decken. AIOps-Observability kann diesen Prozess verbessern, indem Anwendungsleistungsmetriken und andere Telemetriedaten in prädiktive Algorithmen eingespeist werden. Einige KI-fähige Observability-Plattformen können auch Workflows auslösen, um die Kapazität je nach Bedarf der Netzwerkbedingungen zu erweitern oder zu verringern.

Leistungsverschlechterung

AIOps-Observability trägt dazu bei, Leistungseinbußen sowie die natürliche Entropie eines Netzwerks zu verhindern, die durch die Einführung neuer Patches, Anwendungen und Konfigurationen entsteht. Durch die Verarbeitung der großen Datenmengen, die ein Netzwerk erzeugt, und die Etablierung des Baselineverhaltens kann sie IT-Teams proaktiv benachrichtigen, falls eine Änderung ein Problem verursachen könnte. Bei Angabe des passenden Playbooks kann sie auch automatisch Maßnahmen ergreifen, um das Problem zu verhindern, bevor es auftritt.

Observability und generative KI

Generative KI-Funktionen gewinnen für AIOps und Observability zunehmend an Bedeutung. Viele Tools bieten Chatbot-Assistenten, die Engineers direktes Feedback in natürlicher Sprache und Unterstützung bei der Fehlerbehebung bieten können.

Angesichts des enormen Umfangs der von Observability-Plattformen erfassten Telemetriedaten und der KI-gestützten Funktionen der Plattformen selbst ermöglicht eine optimierte generative KI-Schnittstelle Site Reliability Engineers, schnell und direkt Antworten auf Fragen wie „Warum hat sich der Service für Benutzer in Europa verlangsamt?“ zu finden.

Generative KI-Funktionen unterstützen Administratoren außerdem dabei, übersichtliche Zusammenfassungen von Netzwerkereignissen zu erstellen und Datenvisualisierungen zum Netzwerkzustand sowie zur Korrelation von Ereignissen zu erstellen.

Autor

Derek Robertson

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Plattformteams in die Lage versetzen, Cloud richtig zu nutzen

Erfahren Sie, wie Plattformteams Workflows standardisieren und Infrastruktur und Security Lifecycle Management mit einem Platform-as-a-Product-Ansatz vereinheitlichen können.

Ressourcen

Beschleunigen Sie Innovationen mit einer sicheren, hybriden Cloud-Grundlage

Ein Framework zur Vereinfachung des Hybrid-Cloud-Betriebs mit konsistenter Sicherheit und Governance.

Innovationen in großem Maßstab mit einer einheitlichen Cloud-Plattform beschleunigen

Erfahren Sie, wie Platform-Engineering-Teams Infrastrukturen mit automatisierten Workflows und zentraler Steuerung skalieren.

Anwendungsleistung in Kubernetes-Umgebungen optimieren

Lernen Sie, wie Sie Sichtbarkeit gewinnen, die Resilienz stärken und die Komplexität von Kubernetes mit automatisierter Observability vereinfachen können.

Optimieren Sie Ihre Geschäftsleistung mit KI-gestützten Analysen

Registrieren Sie sich jetzt, um zu erfahren, wie erweiterte KI-Analysen Ihrem Unternehmen neue Wachstums- und Innovationsmöglichkeiten eröffnen können. Greifen Sie auf Erkenntnisse von Experten zu und erkunden Sie, wie KI-Lösungen die betriebliche Effizienz verbessern, Ressourcen optimieren und zu messbaren Geschäftsergebnissen führen können.

Mainframe-Anwendungen mit Hybrid-Cloud-Mustern modernisieren

Erkunden Sie die neueste IBM Redbooks®-Publikation zur Mainframe-Modernisierung für Hybrid-Cloud-Umgebungen. Lernen Sie umsetzbare Strategien, Architekturlösungen und Integrationstechniken kennen, um Agilität, Innovation und geschäftlichen Erfolg voranzutreiben.

Full Stack Observability für DevOps-Teams

Liefern Sie Zuverlässigkeit mit KI-gestützter Observability in hoher Geschwindigkeit. Dieser IBM-Leitfaden zeigt, wie Sie einen umfassenden Überblick erhalten, die Ursachenanalyse beschleunigen und Probleme lösen können, bevor sie sich auf die Benutzer auswirken.

Der Stand der KI-Bereitschaft

Wir haben erkundet, warum manche Unternehmen sowohl auf die Umwälzungen als auch auf das Potenzial der KI vorbereitet sind. Finden Sie heraus, was diese KI-fähigen Unternehmen gemeinsam haben.

Verwandte Lösungen Lösungen

IBM Instana Observability

Nutzen Sie die Leistungsfähigkeit von KI und Automatisierung, um Probleme im gesamten Anwendungs-Stack proaktiv zu lösen.

IBM Instana Observability kennenlernen

IBM Observability-Lösungen

Maximieren Sie mit KI-gestützter Observability Ihre betriebliche Ausfallsicherheit und stellen Sie die Integrität Ihrer cloudnativen Anwendungen sicher.

Observability-Lösungen von IBM erkunden

IBM Consulting AIOps

Optimieren Sie die IT-Automatisierung und den IT-Betrieb mit generativer KI und richten Sie jeden Aspekt Ihrer IT-Infrastruktur an den geschäftlichen Prioritäten aus.

Mehr zu IBM Consulting AIOps erfahren

Machen Sie den nächsten Schritt

Entdecken Sie, wie IBM Instana die Leistung von Anwendungen in Echtzeit überwacht und KI-gestützte Erkenntnisse liefert, die als SaaS oder als selbstgehostetes System verfügbar sind.

Fußnoten

^1.„Hype Cycle for IT Operations, 2025“, Gartner, 28. Juli 2025
^2.„The AI-driven paradigm shift in observability: From reactive monitoring to intelligent automation“, Mike Fratto, 451 Research, 10. Oktober 2025