Was ist Observability Engineering?

Ein Mann mit Brille und kariertem Hemd arbeitet an einem Schreibtisch mit zwei großen Monitoren, auf denen Codezeilen angezeigt werden, und einem geöffneten Laptop vor sich.

Autoren

Staff Writer, Automation & ITOps

IBM Think

Was ist Observability Engineering?

Observability Engineering ist der Prozess, bei dem inhärent beobachtbare Systeme entworfen und gebaut werden und fortschrittliche Tools und Methoden zur Erfassung, Analyse und Visualisierung von Observability-Daten genutzt werden.

Wenn ein System beobachtbar ist, können Entwickler den Zustand von Softwaresystemen, Infrastruktur und Netzwerkkomponenten erkennen, indem sie deren externe Ausgaben analysieren. Herkömmliche IT-Überwachungstools sind oft nicht in der Lage, einen vollständigen Überblick über die komplexen Softwareumgebungen von heute zu erhalten, die über verteilte Architekturen und eine Vielzahl von Microservices und anderen voneinander abhängigen Komponenten verfügen.

Moderne Softwaresysteme und Computerumgebungen erfordern moderne Full Stack Observability-Tools, die verteilte Tracing-Funktionen sowie umfassende Metriken und Protokollierung bieten. Beim Observability Engineering werden Observability-Funktionen in Entwicklungs- und Produktionssysteme integriert.

Observability-Ingenieure integrieren Observability-Funktionen in Anwendungscode, Infrastruktur und Middleware-Schichten und binden Systemereignisdaten in Überwachungspipelines ein. Sie verwenden fortschrittliche Tools, die Systemereignisse über Container, Pods, Server und Content-Delivery-Netzwerke (CDNs) hinweg korrelieren, um eine durchgängige Rückverfolgbarkeit in komplexen cloudnativen Computing-Umgebungen zu ermöglichen.

Observability Engineering hilft Teams bei der Analyse von Überwachungs- und Telemetriedaten, bei der Entwicklung reaktionsschnellerer Warnmechanismen und bei der Erstellung differenzierterer Datenvisualisierungen und Dashboards. Es unterstützt auch eine Shift-Left-Observability-Strategie, die es Entwicklern ermöglicht, Systemprobleme proaktiv zu erkennen, ihre Ursache zu verstehen und den effektivsten Weg zu ihrer Lösung zu bestimmen, indem sie Observability-Funktionen früher im Entwicklungslebenszyklus ausführen.

Durch die Integration von Observability Engineering in ihre Entwicklungs- und Netzwerkmanagementpraktiken können Unternehmen besser beobachtbare Systeme entwickeln, die die Bereitstellung sicherer, hochverfügbarer und leistungsstarker Apps und Dienste ermöglichen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Was ist Observability?

Observability ist die Fähigkeit, den internen Zustand eines komplexen Systems allein auf der Grundlage der Kenntnis seiner externen Ausgaben, insbesondere seiner Telemetrie, zu verstehen.

In einem beobachtbaren System können IT-Teams die Systemleistung leichter überwachen und analysieren. So können sie beispielsweise genau sehen, wie die Daten durch den Tech-Stack eines Unternehmens fließen, einschließlich der Anwendungen, der lokalen Rechenzentren und der Cloud-Umgebungen, und wo es möglicherweise Engpässe gibt. Diese Erkenntnis hilft Teams, Probleme schneller zu erkennen und zu beheben und im Allgemeinen stärkere und widerstandsfähigere Systeme zu schaffen.

Im Kern geht es bei der Observability darum, Rohdaten in umsetzbare Erkenntnisse umzuwandeln. Im Gegensatz zu herkömmlichen Überwachungsansätzen (die sich auf vordefinierte Metriken und reaktive Fehlerbehebung konzentrieren) verfolgt die Observability jedoch einen proaktiven Ansatz.

Observability-Tools basieren auf der Datenerfassung aus einer Vielzahl von Datenquellen, um tiefergehende Analysen durchzuführen und die Lösung von Problemen zu beschleunigen. Sie sammeln Telemetrie- und andere Daten von verschiedenen Netzwerkkomponenten (Container, Pods, Microservices und andere), um Entwicklungsteams einen ganzheitlichen Überblick über den Zustand und die Leistung der Komponenten und der größeren Systeme, zu denen sie gehören, zu bieten.

Telemetrie umfasst die „drei Säulen“ der Observability: Protokolle, Metriken und Traces.

Protokolle sind detaillierte Aufzeichnungen darüber, was in einem Netzwerk und in Softwaresystemen passiert. Sie liefern detaillierte Informationen darüber, was passiert ist, wann es passiert ist und wo im Netzwerk es passiert ist.

Metriken sind numerische Bewertungen der Systemleistung und Ressourcennutzung. Metriken bieten einen umfassenden Überblick über den Systemzustand, indem sie bestimmte Datentypen und wichtige Leistungsindikatoren (KPIs) wie Latenz, Paketverluste, Bandbreitenverfügbarkeit und CPU-Auslastung erfassen.

Traces sind End-to-End-Aufzeichnungen über den Weg jeder Benutzeranfrage durch das Netzwerk. Sie bieten Einblicke in den Pfad und das Verhalten von Datenpaketen, während sie mehrere Geräte und Systeme durchlaufen, was sie für das Verständnis verteilter Systeme unerlässlich macht.

Im Gegensatz zu Überwachungstools nutzen Observability-Plattformen Telemetrie auf proaktive Weise. DevOps-Teams und Site Reliability Engineers (SREs) verwenden Observability-Tools, um Telemetriedaten in Echtzeit zu korrelieren und einen vollständigen, kontextbezogenen Überblick über den Systemzustand zu erhalten. Auf diese Weise können Teams jedes Element des Systems besser verstehen und wissen, wie die verschiedenen Elemente miteinander in Beziehung stehen.

Durch die Bereitstellung einer umfassenden Ansicht einer IT-Umgebung mit allen Abhängigkeiten können Observability-Lösungen Teams das „Was“, das „Wo“ und das „Warum“ eines jeden Systemereignisses zeigen und wie sich das Ereignis auf die Leistung der gesamten Umgebung auswirken könnte. Sie können auch automatisch neue Telemetriequellen erkennen, die im System auftreten können (beispielsweise einen neuen API-Aufruf (Application Programming Interface) an eine Softwareanwendung).

Telemetrie- und Datenkorrelationsfunktionen bestimmen oft, wie Softwareingenieure und DevOps-Teams die Instrumentierung von Anwendungen, Fehlerbehandlungsprozesse und Problemlösung implementieren. Diese Tools versetzen IT-Teams in die Lage, Probleme zu erkennen und zu beheben, bevor sie eskalieren, und sorgen so für nahtlose Konnektivität, minimale Ausfallzeit und optimierte Erfahrungen.

Sie liefern jedoch auch Feedback, das Entwickler in zukünftige Observability-Praktiken einfließen lassen können, wodurch sie ebenfalls zu einem integralen Bestandteil des Observability Engineering werden.

Grundlegende Prinzipien des Observability Engineering

Erfolgreiches Observability Engineering beruht unter anderem auf folgenden wichtigen Prinzipien:

Umfassende App-Instrumentierung

Durch die Einbettung von Protokollierung, Metriken und Tracing in den gesamten Anwendungscode können Entwicklerteams wichtige Daten an zentralen Sammelpunkte erfassen.

Teams können strukturierte Protokollierungsformate (z. B. JSON) verwenden, um das Log-Management zu optimieren und die Suche und Analyse von Protokollen zu vereinfachen. Die Instrumentierung jedes Microservices und jeder Integration zur Erfassung von Traces für ein- und ausgehende Datenanfragen ermöglicht eine vollständige Transparenz in der gesamten IT-Umgebung, sodass Entwickler Probleme schneller finden und beheben können.

Dezentrale Traceerstellung

Verteilte Tracing-Tools, die den gesamten Pfad jeder Datenanfrage in einer Computerumgebung visualisieren, helfen IT-Teams, Probleme schnell zu beheben, wenn sie auftreten.

Entwickler können eindeutige Identifikatoren verwenden, um Anfragen zu verfolgen, während diese mehrere Dienste durchlaufen, und so einen vollständigen, durchgängigen Einblick in den Systembetrieb erhalten. Beispielsweise können Ingenieure jeder eingehenden Datenanfrage am Edge des Ökosystems (z. B. an API Gateways) eindeutige Trace-IDs und jedem Segment der Anfragenreise Span-IDs zuweisen.

Sinnvolle Service Level Objectives (SLOs)

SLOs sind die vereinbarten Leistungsziele für einen Dienst über einen bestimmten Zeitraum. Sie tragen dazu bei, dass Unternehmen Service Level Agreements (SLAs) einhalten können, die Verträge zwischen Dienstanbietern und Kunden, die den zu erbringenden Service definieren, und die Leistung, die Benutzer erwarten sollten.

Die Festlegung klarer, quantifizierbarer Metriken, die die tatsächlichen Benutzererfahrungen widerspiegeln, und die Festlegung erreichbarer Ziele für die Zuverlässigkeit und Leistung des Systems sind integrale Bestandteile des Observability Engineering. Dieser Prozess stellt nicht nur sicher, dass die Ingenieure stets mit relevanten Observability-Daten arbeiten, sondern erleichtert auch die genaue Erkennung und Lösung von Problemen.

Observability-First-Kultur

Beim Observability Engineering geht es nicht nur darum, die Observability im Entwicklungszyklus nach links zu verschieben. Es geht auch darum, eine Observability-orientierte Entwicklung zu ermöglichen, bei der Observability-Praktiken in die täglichen Workflows der Entwickler integriert sind und sie bestimmen, wie Ingenieure Code erstellen und verwalten.

Die wichtigsten Komponenten von Observability Engineering

Zusätzlich zu grundlegenden Telemetriedaten und Korrelationstools stützt sich Observability Engineering auf Folgendes:

Überwachung und Alertausgabe in Echtzeit

Die Einrichtung robuster Überwachungsprotokolle ist entscheidend für die Aufrechterhaltung beobachtbarer Systeme. Überwachungstools können kontinuierlich eine Reihe von Metriken erfassen und verfolgen, darunter Speichernutzung, Fehlerraten, Antwortzeiten und synthetische Ergebnisse. Die Überwachung in Echtzeit stellt sicher, dass die Techniker über aktuelle Informationen zum Systemverhalten verfügen.

Die meisten Observability-Lösungen beinhalten auch automatisierte Warnmechanismen, die Teams über anomale Ereignisse und Abweichungen von festgelegten Referenzwerten informieren.

Strukturierte Ereignisse

Strukturierte Ereignisse sind Datensätze, die Schlüssel-Wert-Paare enthalten, die eine bestimmte Aktivität oder ein bestimmtes Vorkommnis in einem System beschreiben. Die Übertragung strukturierter Ereignisse ist häufig die beste Möglichkeit, wichtige Systemaktivitäten und -änderungen zu verfolgen, da sie den Kontext und die Abfolge der Vorgänge erfassen, die zu einem bestimmten Zustand oder Fehler geführt haben.

Jedes Ereignis enthält in der Regel eine eindeutige Kennung, Metadaten (wie Header und Variablen) und einen Ausführungszeitstempel, wodurch sie für die Fehlersuche, Prüfung und forensische Analyse von unschätzbarem Wert sind.

Application Performance Monitoring

Tools zur Überwachung der Anwendungsleistung bieten umfassende Einblicke in den Zustand der Anwendungen und die Endbenutzererfahrung. Sie können entscheidende App-Leistungsmetriken verfolgen – etwa Transaktionsdurchsatz, Latenz und Abhängigkeiten zwischen Diensten –, die Teams dabei helfen, Leistungsengpässe zu diagnostizieren, Benutzerinteraktionen zu verfolgen und die Auswirkungen von Änderungen im gesamten Anwendungs-Stack zu verstehen.

Dashboards

Dashboards aggregieren und zeigen Metriken, Protokolle und Traces aus verschiedenen Komponenten des Systems an und bieten Teams Erkenntnisse, die ihnen helfen, die Leistung schnell zu bewerten, Trends zu identifizieren und Probleme zu lokalisieren. Dashboards sind häufig anpassbar, sodass Entwickler sie so konfigurieren können, dass sie die relevantesten Daten für die jeweilige Rolle der einzelnen Stakeholder im Unternehmen hervorheben.

Integration mit DevOps und SRE

Observability Engineering ist eng mit DevOps- und SRE-Methoden verknüpft.

Es liefert die Daten, die Teams benötigen, um fortgeschrittene Observability-Praktiken zu implementieren, wie z. B. Feature Flagging (bei dem neue Funktionen zur Laufzeit ein- oder ausgeschaltet werden, um zu kontrollieren, welche Benutzer darauf zugreifen können) und Blue-Green Deployments (bei denen Entwickler zwei ähnliche, parallele Produktionsumgebungen (oder Cluster) betreiben und jede Umgebung eine andere Version einer Anwendung ausführt).

Durch das Einbetten von Observability in CI/CD-Pipelines und Automatisierungsprozesse können IT-Teams die allgemeine Systemzuverlässigkeit verbessern, die Softwarebereitstellung beschleunigen und Änderungen in der Produktionsumgebung sicher verwalten.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Observability-Engineering-Techniken

Observability Engineering umfasst eine Reihe von Praktiken und Tools, die die Transparenz von IT-Umgebungen verbessern können. Darüber hinaus können Entwickler anspruchsvollere Entwicklungstechniken implementieren, darunter:

Korrelation von Business-KPI

Observability Engineering hilft Teams, technische Indikatoren (zum Beispiel Latenz) mit wichtigen Geschäftsergebnissen (wie Kundenzufriedenheit oder Umsatzgenerierung) zu verbinden. Dieser Ansatz ermöglicht es dem IT-Personal, die geschäftlichen Auswirkungen technischer Probleme zu beurteilen, die wichtigsten Fixes zu priorisieren und technische Prioritäten mit den Unternehmenszielen in Einklang zu bringen.

Wenn die Observability-Daten beispielsweise zeigen, dass eine höhere Latenz mit niedrigeren Konversionsraten verbunden ist, können Entwickler die Latenzprobleme beheben, um die Konversionen zu erhöhen.

Offene Telemetrie (OTel)

OpenTelemetry ist ein Open-Source-Observability-Framework, das eine Reihe von Software-Entwicklungskits (SDKs), herstellerunabhängigen APIs und anderen Tools für die Anwendung, System- und Geräteinstrumentierung umfasst. Es vereinfacht die Erfassung von Telemetriedaten – unabhängig von Programmiersprache, Infrastruktur oder Laufzeitumgebung – und ermöglicht es Entwicklern, standardisierte Telemetriedaten für jedes Observability-Backend zu generieren, zu erfassen und zu exportieren.

Mit OTel können Observability-Ingenieure Telemetriedaten konsistent über verschiedene Apps, Systeme und Anwendungsfälle hinweg erfassen, die Datenintegration und Observability-Praktiken optimieren und ihre IT-Umgebungen zukunftssicher machen.

Kontinuierliche Verifizierung

Durch kontinuierliche Verifizierung können Entwickler Observability-Prüfungen direkt in die CI/CD-Pipeline einbetten und Probleme identifizieren, bevor sie die Produktion erreichen. Mit automatisierten Überwachungs-, Protokollierungs- und Warnfunktionen während der Build- und Bereitstellungsphasen der App-Entwicklung können Teams Leistungsprobleme umgehend erkennen. Diese Prozesse tragen dazu bei, die Zuverlässigkeit der Bereitstellung zu optimieren und den Feedback-Zyklus für schnellere und qualitativ hochwertigere Software-Releases zu beschleunigen.

Anomalieerkennung durch maschinelles Lernen

Unternehmen können KI-gestützte Algorithmen nutzen, um riesige Mengen an Observability-Daten zu durchsuchen und aufkommende Systemprobleme zu finden, die mit herkömmlichen Tools möglicherweise übersehen würden. In einem Long Short-Term Memory (LSTM)-Netzwerk beispielsweise ermöglicht die Technologie des maschinellen Lernens (ML) dem Netzwerk, Daten, die in Sequenzen vorliegen, wie Zeitreihendaten und natürliche Sprache, besser zu modellieren und daraus zu lernen.

LSTMs können anhand von Telemetrie trainiert werden, um normales Systemverhalten zu erkennen und zukünftige Systemzustände vorherzusagen. Wenn die tatsächlichen Daten erheblich von den Vorhersagen abweichen, erhalten Teams eine Warnung, die sie über eine mögliche Sicherheitsverletzung, einen Netzwerkausfall oder eine Verschlechterung der Systemleistung informiert.

Chaos-Engineering

Chaos Engineering ist ein Prozess, bei dem Entwickler absichtlich Fehler in der Produktions- oder Vorproduktionsumgebung verursachen, um deren Auswirkungen auf das System zu verstehen. Die Simulation von Störungen (wie Netzwerkausfälle, Serverabstürze oder Datenverkehrsspitzen) ermöglicht es Observability-Ingenieuren, Systemschwachstellen zu identifizieren. Sie hilft ihnen auch, ihre Verteidigungshaltung und ihre Strategien zu verbessern und sicherzustellen, dass das System unerwarteten Ereignissen standhalten kann.

Vorteile von Observability Engineering

Bessere Erkennung von Anomalien und Fehlerbehebung. Observability Engineering hilft Teams dabei, ungewöhnliche Aktivitäten schnell zu erkennen, um eine schnellere und gründlichere Fehlersuche und -behebung zu ermöglichen.

Kürzere mittlere Reparaturzeit (Mean-Time-To-Repair, MTTR). Observability Engineering ermöglicht es Entwicklungsteams, Probleme schnell zu erkennen und zu beheben, was die MTTR erheblich senkt.

Datengesteuerte Entscheidungsfindung. Die umsetzbaren Erkenntnisse, die Observability-Tools liefern, können Teams dabei unterstützen, intelligentere Entscheidungen hinsichtlich Systemarchitektur, Ressourcen und Leistung zu treffen.

Verbesserte Benutzererfahrungen. Mithilfe von Observability Engineering können Entwickler proaktiv Möglichkeiten für Funktionserweiterungen und Optimierungen identifizieren, damit Benutzer die Software und Netzwerke nahtlos nutzen können.

Kontinuierliche Verbesserung.Mit Observability Engineering erhalten DevOps-Teams ein ganzheitliches, detailliertes Verständnis der Leistung ihres Codes in der Produktion, was die Identifizierung von Fehlern beschleunigt und eine kontinuierliche Verbesserung ermöglicht.

Schalen Sie die Power von IBM Instana Observability frei

Dank IBM Instana Observability können Sie einen ROI von 219 % erzielen und die von Entwicklern für die Fehlersuche aufgewendete Zeit um 90 % reduzieren

Ressourcen

Erste Schritte: Observability in modernen Systemen

Erfahren Sie, wie wichtig Observability ist und wie sie Ihnen helfen kann, Erkenntnisse über das Systemverhalten zu gewinnen.

Schalen Sie die Power von IBM Instana Observability frei

Dank IBM Instana Observability können Sie einen ROI von 219 % erzielen und die von Entwicklern für die Fehlersuche aufgewendete Zeit um 90 % reduzieren

Unternehmenswert mit KI-gestützter IT-Automatisierung steigern

Finden Sie heraus, wie Unternehmen durch die Kombination von APM- und Hybrid-Cloud-Kostenoptimierungstools ihre Kosten senken und ihre Produktivität steigern können.

Verwandte Lösungen Lösungen

IBM Instana Observability

Nutzen Sie die Leistungsfähigkeit von KI und Automatisierung, um Probleme im gesamten Anwendungs-Stack proaktiv zu lösen.

IBM Instana Observability kennenlernen

IBM Observability-Lösungen

Maximieren Sie mit KI-gestützter Observability Ihre betriebliche Ausfallsicherheit und stellen Sie die Integrität Ihrer cloudnativen Anwendungen sicher.

Observability-Lösungen von IBM erkunden

IBM Consulting AIOps

Optimieren Sie die IT-Automatisierung und den IT-Betrieb mit generativer KI und richten Sie jeden Aspekt Ihrer IT-Infrastruktur an den geschäftlichen Prioritäten aus.

Mehr zu IBM Consulting AIOps erfahren

Machen Sie den nächsten Schritt

Entdecken Sie, wie IBM Instana die Leistung von Anwendungen in Echtzeit überwacht und KI-gestützte Erkenntnisse liefert, die als SaaS oder als selbstgehostetes System verfügbar sind.

Fußnoten:

¹ Kumar, S. & Singh, R. (2024). Don't blame the user: Toward means for usable and practical authentication. Communications of the ACM, 67(4), 78–85. https://doi.org/10.1145/3706599.3719914.

² Datadog. (n.d.). What Is LLM Observability & Monitoring?. Abgerufen am 19. Mai 2025 von https://www.datadoghq.com/knowledge center/llm-observability/.

³ LLM-observability, GitHub. Abgerufen am 19. Mai 2025 von https://github.com/DataDog/llm-observability, Datadog. (n.d.).

⁴ Dong, L., Lu, Q. & Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

⁵ LangChain. (n.d.). Datadog LLM Observability - LangChain, Langsmith .js. Abgerufen am 19. Mai 2025 von https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/.

⁶ Optimizing LLM Accuracy. Abgerufen am 19. Mai 2025 von https://platform.openai.com/docs/guides/optimizing-llm-accuracy.

⁷ IBM Instana Observability. Abgerufen am 19. Mai 2025 von https://www.ibm.com/de-de/products/instana.

⁸ Monitoring AI Agents. IBM Documentation. Abgerufen am 19. Mai 2025 von https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents.

⁹ Zhou, Y., Yang, Y. & Zhu, Q. (2023). LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection. arXiv preprint arXiv:2307.15043. https://arxiv.org/abs/2307.15043.

¹⁰ Vesely, K. & Lewis, M. (2024). Real-Time Monitoring and Diagnostics of Machine Learning Pipelines. Journal of Systems and Software, 185, 111136. https://doi.org/10.1016/j.jss.2023.111136

Was ist Observability Engineering?

Was ist Observability Engineering?

Die neuesten Erkenntnisse und Insights zu KI

Was ist Observability?

Grundlegende Prinzipien des Observability Engineering

Umfassende App-Instrumentierung

Dezentrale Traceerstellung

Sinnvolle Service Level Objectives (SLOs)

Observability-First-Kultur

Die wichtigsten Komponenten von Observability Engineering

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Observability-Engineering-Techniken

Korrelation von Business-KPI

Offene Telemetrie (OTel)

Kontinuierliche Verifizierung

Anomalieerkennung durch maschinelles Lernen

Chaos-Engineering

Vorteile von Observability Engineering

Share

Ressourcen

Fußnoten: