Was ist cloudnative Observability?

By Derek Robertson , Matthew Kosinski

Cloudnative Observability, definiert

Cloudnative Observability ist die Fähigkeit, hochkomplexe Cloud-Anwendungen und -Systeme – typischerweise Microservice-basiert und oft serverlos – anhand ihrer Ausgaben und Telemetriedaten zu verstehen.

Cloudnative Observability unterscheidet sich von traditioneller Observability durch ihren spezifischen Fokus auf die Herausforderungen von Cloud-Systemen. In diesen Systemen können Container, virtuelle Maschinen und andere Ressourcen jederzeit bereitgestellt und gelöscht werden, wodurch enorme Mengen an manchmal flüchtigen Daten entstehen.

Cloudnative Observability-Lösungen helfen Unternehmen, wichtige Datenpunkte in diesem veränderlichen System zu verfolgen, was wiederum den DevOps-Prozess und seine kleinen, häufigen, oft automatisierten Updates unterstützt.

Plattformen für cloudnative Observability sammeln Daten aus der gesamten Hybrid Cloud-Umgebung eines Unternehmens, die aus Diensten mehrerer Anbieter (wie Microsoft Azure und Amazon Web Services), lokalen Servern und den vielen von ihnen unterstützten Tools und Ressourcen (wie Microservices oder Container-Orchestrierungs-Tools wie Kubernetes) bestehen kann. Sie liefern umsetzbare Erkenntnisse über Metriken wie Netzwerkverkehr und Latenz sowie über Korrelationen zwischen diesen Metriken über verschiedene Plattformen hinweg und automatisieren häufig notwendige Reparaturen und die Visualisierung der gesammelten Daten.

Beispielsweise könnte eine cloudbasierte Observability-Plattform Latenzmetriken von virtuellen Maschinen erfassen, die auf einem Cloud-Server gehostet werden, Protokolle von den Kubernetes-orchestrierten Containern dieser virtuellen Maschinen, die deren API-Aufrufe beschreiben, sowie Informationen über Netzwerkereignisse wie die Bereitstellung einer neuen Anwendung. Anschließend kann sie die gesammelten Daten als Diagramm oder Graph präsentieren und eine Ursachenanalyse durchführen, wodurch Administratoren konkrete Erkenntnis über die Ursachen der Ausfallzeit erhalten.

Viele moderne Plattformen nutzen künstliche Intelligenz (KI) und maschinelles Lernen (ML), um diese automatisierten Funktionen zu betreiben. Laut einem Bericht von 451 Research aus dem Jahr 2025 verwenden 71 % der Unternehmen, die Observability nutzen, ihre KI-Funktionen – ein Anstieg von 26 % gegenüber 2024.¹

Viele beliebte cloudnative Observability-Tools sind Open Source, wie OpenTelemetry, Jaeger und Prometheus. Indem sie der Entwicklergemeinschaft ermöglichen, bei auftretenden Problemen plattform- oder anwendungsspezifische Fixes vorzunehmen, bieten Open-Source-Tools Unternehmen mehr Flexibilität in manchmal unvorhersehbaren cloudnativen Umgebungen und eine größere Möglichkeit, ihre Werkzeuge mit verschiedenen Systemen und Programmierschnittstellen (APIs) zu verbinden.

Wie funktioniert cloudnative Observability?

Cloudnative Observability-Tools sammeln Protokolle, Traces und Metriken aus dem gesamten Cloud-Ökosystem. Sie präsentieren Rohdaten, Analysen und Visualisierungen oft über ein Dashboard, das Benutzern hilft, den Zustand der Anwendung und die Geschäftsziele zu überwachen.

Datenerfassung

In einer Cloud-Umgebung, die größtenteils aus Microservices besteht, können neue Container und virtuelle Maschinen jederzeit verschwinden und erscheinen, wodurch eine riesige Menge an Telemetriedaten erzeugt wird. Dadurch entsteht ein neuartiges Problem, mit dem sich Cloudnative Observability-Plattformen auseinandersetzen müssen: Sie müssen alles in einem sich ständig verändernden Netzwerk sehen und Daten aus Quellen verfolgen, die möglicherweise nicht mehr existieren, da das Netzwerk automatisch erweitert und verkleinert wird, um den Geschäftsanforderungen zu entsprechen.

Observability-Tools erleichtern die Erfassung und Aggregation von CPU-Speicherdaten, App-Protokollen, Verfügbarkeitsinformationen, durchschnittlicher Latenz und anderen Datenpunkten innerhalb dieser komplexen Netzwerke.

Cloudnative Observability-Plattformen basieren auf den drei Säulen der Observability: Logs, Traces und Metriken.

Protokolle

Protokolle (Logs) sind granulare, vollständige und unveränderliche Aufzeichnungen von Anwendungsereignissen mit Zeitstempel. Sie können verwendet werden, um eine detailgetreue, millisekundengenaue Aufzeichnung jedes Ereignisses zu erstellen, komplett mit dem umgebenden Kontext. Entwickler verwenden Protokolle zur Fehlerbehebung und zum Debugging.

Traces

Traces zeichnen die gesamte „Journey“ jeder Benutzeranfrage auf, von der Benutzeroberfläche über die gesamte Architektur bis hin zum Benutzer.

Metriken

Metriken sind grundlegende Messgrößen für den Zustand von Anwendungen und Systemen im Laufe der Zeit. Metriken werden beispielsweise verwendet, um zu messen, wie viel Speicher oder CPU-Kapazität eine Anwendung in fünf Minuten verbraucht oder wie viel Latenz eine Anwendung während einer Nutzungsspitze aufweist.

Überwachung

Sichtbarkeit ist eine Kernfunktion von Plattformen für cloudnative Observability. Die Fähigkeit, Container, virtuelle Maschinen, Server und andere Elemente eines Microservice-basierten Netzwerks zu überwachen, ist eine kritische Funktion für diese Architekturen, bei denen verteilte Verfolgungs- und Abhängigkeitskarten verworren und nahezu unentzifferbar sein können.

Mit Observability-Dashboards können Benutzer Anwendungszustandsmetriken wie Verfügbarkeit und Ressourcenauslastung sowie relevante Geschäftsziele wie Konversionsrate oder aktive Benutzer überwachen. Überwachungsfunktionen tragen auch dazu bei, die Zusammenarbeit von Diensten untereinander zu verdeutlichen, indem sie Tools wie Abhängigkeitsgraphen verwenden und sich in die Gesamtarchitektur einfügen.

Analyse

Das traditionelle Monitoring erfolgte mit Application Performance Management (APM)-Tools, die die aus jeder Datenquelle gesammelten Daten aggregierten, um übersichtliche Berichte, Dashboards und Visualisierungen zu erstellen – ähnlich wie die Monitoring-Funktionen in moderner Observability-Software.

In einer modernen Cloud Computing-Umgebung übertragen Observability-Tools oft grundlegende Telemetrie auf die Kubernetes-Schicht, wo die Container-Orchestrierungssoftware native Tools nutzt, um Observability innerhalb der Plattform durchzuführen. Die Automatisierung dieser Aktivitäten durch Kubernetes ermöglicht es IT-Teams, die Datenanalyse auf Service-Level-Ziele (Service Level Objectives, SLOs) und Service-Level-Indikatoren (Service Level Indicators, SLIs) zu fokussieren.

Die Automatisierung in moderner Observability-Software geht über das Sammeln, Überwachen und Analysieren hinaus. Observability-Tools können auch Debugging-Prozesse, Instrumentierung und die Aktualisierung von Monitoring-Dashboards automatisieren, wenn neue Dienste zum Netzwerk hinzugefügt werden. Sie können auch die Agentenabwicklung verwalten, bei der Agenten kleine Softwarekomponenten sind, die in einem Ökosystem eingesetzt werden, um kontinuierlich Telemetriedaten zu erfassen.

Vorteile der cloudnativen Observability

Durch die Anwendung von cloudnativer Observability erhalten Unternehmen einen umfassenderen Überblick über komplexe Systeme, können die mittlere Reparaturzeit (MTTR) reduzieren und Automatisierungstools noch besser in den DevOps-Workflow integrieren.

Systemtransparenz

In hochgradig verteilten Systemen geben eine Vielzahl sich überschneidender Server und cloudnative Anwendungen Signale, Metriken, Protokolle und Traces aus, und sie teilen die Daten nicht immer. Cloudnative Observability-Tools helfen, diese Engpässe zu überwinden, indem sie Observability-Daten aus dem gesamten Ökosystem sammeln und es Administratoren ermöglichen, in Echtzeit Fehler zu beheben und datengesteuerte Entscheidungen zu treffen.

Schnellere Wiederherstellung

Sobald Administratoren – oder automatisierte Tools innerhalb der Observability-Plattform – Zusammenhänge zwischen Problemen in der Cloud festgestellt haben, können sie eine Ursachenanalyse durchführen. Eine Plattform könnte beispielsweise eine langsame Anwendungsreaktion global kennzeichnen, die mit einer hohen Latenzzeit in einer bestimmten Region zusammenfällt, und anschließend eine Analyse durchführen, um die falsch konfigurierte oder fehlerhafte Anwendung zu identifizieren, die für das Problem verantwortlich ist.

Diese Analyse kann den Unterschied zwischen der stundenlangen Prüfung eines Vorfalls und der Lösung eines drohenden Problems ausmachen, bevor es überhaupt auftritt. Dadurch werden Ausfallzeiten reduziert und DevOps-Teams haben mehr Zeit für andere Aufgaben.

Verstärkte Automatisierung

Werkzeuge der künstlichen Intelligenz und des maschinellen Lernens bilden das Herzstück vieler moderner Observability-Plattformen. Sie erkennen Anomalien ohne Benutzereingriff, führen Ursachenanalysen durch und nutzen generative KI zur Datenvisualisierung.

Die schiere Menge an Telemetriedaten, die in einer Cloud-Umgebung erzeugt werden, macht KI und ML für die cloudbasierte Observability unentbehrlich. Die Automatisierung der Observability in großem Maßstab kann Erkenntnisse liefern, die es Unternehmen ermöglichen, auch andere Geschäftsfunktionen zu automatisieren. Vorausschauende Analyse kann beispielsweise ein Unternehmen in die Lage versetzen, neue Serverinfrastruktur im Vorfeld eines hohen Datenverkehrs bereitzustellen.

Herausforderungen der cloudnativen Observability

Da cloudnative Observability eine so große und vielfältige Menge an Daten sammelt und synthetisiert, kann sie Herausforderungen hinsichtlich Skalierbarkeit und Komplexität, der Verwendung mehrerer Observability-Tools sowie Datenschutz und Compliance mit sich bringen.

Skalierung und Komplexität

Unternehmen müssen die Sichtbarkeit in einer komplexen Cloud-Umgebung mit praktischen Einschränkungen hinsichtlich Speicherkosten, Abfrageleistung und Datenaufbewahrung in Einklang bringen. Ohne angemessene Sampling-Strategien und Datenpriorisierung kann das gesammelte Datenvolumen Observability-Plattformen überfordern.

Die weitläufige, sich schnell verändernde Natur containerisierter Microservices kann auch bedeuten, dass das Monitoring über die Anwendungsebene hinaus auf die Cluster und Knoten eines Orchestrierungstools wie Kubernetes reicht.

Verwendung mehrerer Tools

Die meisten Unternehmen betreiben Dutzende von Überwachungstools, die über Jahre hinweg angesammelt wurden und jeweils bestimmten Teams oder Technologien dienen. Der Technologie-Stack umfasst typischerweise mehrere Programmiersprachen, Altsysteme, Multicloud-Umgebungen, Microservices, Infrastruktur-Komponenten und Frameworks. Das macht Interoperabilität schwierig und es entstehen fragmentierte Daten, was das grundlegende Ziel der Observability zunichte macht: eine einheitliche Sicht auf den Systemzustand zu schaffen.

Datenschutz und Compliance

Cloudnative Observability kann zu Compliance-Herausforderungen führen, da sensible Daten aus dem gesamten Unternehmen auf Plattformen zusammengefasst werden. Telemetriedaten können personenbezogene Daten (PII), Zahlungskartendaten oder geschützte Gesundheitsinformationen enthalten. Diese Arten von Daten können unter Vorschriften wie die Datenschutzverordnung (DSGVO), den Health Insurance Portability and Accountability Act (HIPAA) und den California Consumer Privacy Act (CCPA) fallen.

Ohne Datenmaskierung, Tokenisierung, geografische Beschränkungen und rollenbasierte Zugriffskontrollen riskieren Unternehmen, sensible Daten unbefugten Nutzern offenzulegen oder regulatorische Anforderungen zu verletzen. Beispielsweise kann die Lösung eines Transaktionsproblems für einen europäischen Kunden den Zugriff auf Protokolle erfordern, die personenbezogene Daten enthalten. Wenn US-amerikanische Mitarbeiter diese Daten einsehen, könnte diese Situation die Tür für Verstöße gegen die DSGVO öffnen.

Cloudnative Observability und AIOps

Die Implementierung von cloudnativer Observability ist eine Säule des Wandels hin zu AIOps, der Anwendung von KI-Funktionen zur Automatisierung, Straffung und Optimierung des IT-Servicemanagements und der betrieblichen Workflows.

Wenn Unternehmen einen besseren Einblick in die Daten in der Cloud haben, können sie Entscheidungen über die Bereitstellung oder Fehlerbehebung selbst in der oft riesigen, ausufernden und unvorhersehbaren Umgebung der Cloud automatisieren. Kurz gesagt, ermöglicht Observability AIOps, indem sie Unternehmen mehr Vertrauen in die Entscheidungsfindung ihrer KI- und ML-Tools gibt.

Zu den wichtigsten KI-Funktionen der cloudnativen Observability gehören:

Anomalie-Erkennung: Algorithmen können Daten in großem Maßstab analysieren, um die Leistung des Systems zu bestimmen und Abweichungen schnell zu erkennen.
Ursachenanalyse: Diese geht über Korrelationen hinaus, um Maßnahmen zu identifizieren, mit denen ein Fehler direkt behoben werden kann.
Vorausschauende Analyse: Hiermit können KI-Modelle die Workload vorhersagen und das Netzwerk entsprechend skalieren.

Cloudnative Observability vs. Full Stack Observability

Obwohl beide wichtige Gemeinsamkeiten aufweisen, unterscheidet sich cloudnative Observability von der Praxis der Full Stack Observability. Cloudnative Observability kann als eine Weiterentwicklung der Full Stack Observability betrachtet werden, bei der dieselben Tools und Techniken für eine cloudnative Umgebung angepasst werden.

Full Stack Observability korreliert Telemetrie über alle Schichten des Technologie-Stacks. Full Stack Observability-Plattformen sammeln Daten aus mehreren Systemen in Echtzeit und nutzen KI und ML, um Anomalien zu erkennen, Ausfälle vorherzusagen und Erkenntnisse für Administratoren zu generieren.

Cloudnative Observability ist eine Weiterentwicklung davon, bei der Datenerfassungs- und Analysetools für Full Stack Observability speziell für cloudnative Technologien entwickelt werden und sich nahtlos in komplexe, containerisierte Microservices integrieren lassen.

Kurz gesagt: Während Full Stack Observability umfassende Telemetriedaten über eine gesamte IT-Umgebung hinweg liefert, konzentriert sich cloudnative Observability speziell auf die oft serverlosen Cloud-Umgebungen.

Autoren

Derek Robertson

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Schalen Sie die Power von IBM Instana Observability frei

Dank IBM Instana Observability können Sie einen ROI von 219 % erzielen und die von Entwicklern für die Fehlersuche aufgewendete Zeit um 90 % reduzieren

Fußnoten

^1. „Use of observability tools rises alongside AI integration – Highlights from VotE: Cloud Native“, 451 Research, 14. August 2025.