Was ist SRE-Observability?

4. März 2025

Autor

Chrystal R. China

Writer, automation & ITOps

Was ist SRE-Observability?

Site Reliability Engineering (SRE) Observability ist eine Praxis, die Tools und Methoden der Softwareentwicklung umfasst, die durch die Analyse des externen Outputs einen detaillierten Einblick in den internen Zustand eines Systems oder Prozesses liefern.

Mithilfe von Softwareinstrumenten werden Daten in der gesamten Computerumgebung (einschließlich Infrastruktur und Anwendungen) gesammelt und analysiert, sodass IT-Teams ihre Architektur und Standortzuverlässigkeit im Laufe der Zeit besser verstehen, pflegen und verbessern können.

Die SRE-Observability geht über die standardmäßige Systemüberwachung hinaus, die als eine wichtige Komponente jeder Strategie dient, aber nicht die umfassende Sichtbarkeit bieten kann, die zur Optimierung moderner Computernetzwerke benötigt wird.

Herkömmliche Überwachungstools können beispielsweise Dashboards bereitstellen, um den Systemstatus zu visualisieren und das IT-Personal auf Fehlfunktionen aufmerksam zu machen. Die heutigen cloudnativen Computing-Umgebungen sind jedoch zunehmend verteilt und stützen sich auf eine Reihe von Microservices, Edge-Servern, Docker Container und serverlosen Funktionen.

Diese Netzwerke sind hochdynamisch und erfordern nur begrenzte menschliche Eingriffe zur Verwaltung der Netzwerkdienste. Daher erweisen sich herkömmliche Überwachungssysteme selbst für einfache Überwachungsaufgaben oft als unzureichend.

Das Ziel von Observability ist es, den Technikern für die Standortzuverlässigkeit die umsetzbaren Daten an die Hand zu geben, die sie für die Aufrechterhaltung sicherer, skalierbarer und hochverfügbarer Standorte und Dienste benötigen. Wenn Systeme beobachtbar sind, können Techniker interne Aktivitäten leicht überwachen und Probleme und Schwachstellen besser beheben, die sich negativ auf die Standortzuverlässigkeit auswirken können. Die SRE-Observability hilft Ingenieuren außerdem dabei, die gesamte Netzwerkleistung zu optimieren und Verfahren zur kontinuierlichen Verbesserung in allen Netzwerkservices umzusetzen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

SRE und Observability: Eine kurze Zusammenfassung

Site Reliability Engineering

SRE ist eine Software-Engineering-Praxis, die DevOps und traditionellen IT-Betrieb (ITOps) kombiniert, um Kundenprobleme zu lösen, ITOps-Aufgaben zu automatisieren, die Softwarebereitstellung zu beschleunigen und IT-Risiken zu minimieren. Der Schwerpunkt liegt auf der Erreichung von Ausfallsicherheit durch konsequente Automatisierung wichtiger Prozesse.

Traditionell umfasst SRE manuelle IT-Betriebs- und Systemverwaltungsprozesse wie Log Analysis, Leistungstuning, Patching, Testen der Produktionsumgebung, Incident-Management und Post-Mortem-Bewertung. Modernes SRE automatisiert diese Aufgaben jedoch, um Zeit zu sparen, menschliche Fehler zu reduzieren und die Zusammenarbeit zwischen Entwicklungs- und Durchführungsteams zu optimieren.

SRE-Tools suchen automatisch nach Systemmängeln, indem das sogenannte Chaos-Engineering anwenden, bei dem Zuverlässigkeitsingenieure vor Ort absichtlich Ausfälle in Produktions- und Vorproduktionsumgebungen verursachen. Dieser Prozess hilft den Teams zu verstehen, wie sich Fehler auf Softwaresysteme auswirken können, und Strategien zu entwickeln, um Störungen in Zukunft abzumildern.

SRE setzt die Kapazitätsplanung ebenfalls an erster Stelle um, einen Prozess, der die Ressourcenanforderungen für wesentliche Geschäftsfunktionen bestimmt, diese Geschäftsfunktionen skaliert und Entwicklern ermöglicht, neue Anwendungen und Funktionen zu erstellen. Anhand etablierter Key Performance Indicators (KPIs) können SRE-Teams die Lieferung von Updates und die Implementierung neuer Funktionen bewerten.

Observability

Observability spielt eine wichtige Rolle bei der Aufrechterhaltung der Verfügbarkeit, Leistung und Sicherheit moderner Softwaresysteme und Cloud-Computing -Umgebungen.

Der Begriff „Observability“ stammt aus der Kontrolltheorie, einer ingenieurwissenschaftlichen Theorie, die sich mit der Automatisierung der Steuerung dynamischer Systeme befasst (wie beispielsweise der Regulierung des Wasserflusses in einer Rohrleitung auf der Grundlage von Rückmeldungen eines Durchflusskontrollsystems).

Beobachtbarkeit bietet tiefe Einblicke in moderne, verteilte Tech-Stacks für eine automatisierte, Echtzeit-Problemerkennung und -lösung. Je besser ein System beobachtbar ist, desto schneller und genauer können IT-Teams die Ursache von Leistungsproblemen ermitteln, oft ohne zusätzliche Tests oder Codierung.

Der Aufbau und die Wartung beobachtbarer Systeme erfordern Softwaretools, die in der Lage sind, stetige Ströme von Leistung von Anwendungen und der Hardware und den Netzwerken, auf denen sie laufen, zu aggregieren, zu verknüpfen und zu analysieren. IT-Teams können dann die Daten nutzen, um jede Netzwerkkomponente zu überwachen, Fehler zu beheben und so Unternehmen dabei zu helfen, die Customer Experience zu optimieren und Service Level Agreements (SLAs) einzuhalten.

Observability wird oft mit Application Performance Monitoring (APM) und Network Performance Management (NPM) verwechselt. Observability-Tools stellen jedoch eine natürliche Weiterentwicklung der APM- und NPM-Datenerfassungsmethoden dar und eignen sich besser für verteilte Netzwerke und cloudnative Anwendungsbereitstellungen.

Komponenten der SRE-Observability

Um Beobachtbarkeit zu erreichen, müssen Unternehmen Telemetriedaten sammeln, einschließlich:

Metriken

Metriken sind rohe, abgeleitete oder aggregierte quantitative Messungen, die den Systemzustand und die Leistung (zum Beispiel eines Servers oder einer API) über bestimmte Zeitintervalle aussagen. Sie helfen Unternehmen, eine solide Grundlage für SRE-Überwachungs- und Datenanalysepraktiken zu schaffen, damit Ingenieure Datenmuster erkennen und Systemprobleme vorhersagen können.

Zu den gängigen Metriken in SRE gehören CPU-Auslastung, Speicherverbrauch,Anforderungslatenz, Fehlerraten und Netzwerkbandbreite, die jeweils eine Momentaufnahme des Systemstatus liefern und den Teams helfen, potenzielle Probleme zu lösen, bevor sie eskalieren.

Logs

Protokolle sind detaillierte, mit Zeitstempel versehene Textaufzeichnungen von Ereignissen, die normalerweise im Klartext, im Binärformat oder in strukturierten Formaten aufgezeichnet werden. Sie bieten Ingenieuren, die Systemprobleme verstehen und diagnostizieren möchten, häufig einen Ausgangspunkt.

Logging-Funktionen innerhalb von SRE Observability-Tools sammeln, speichern, analysieren und korrelieren eine Reihe von Daten (einschließlich Fehlermeldungen, Prozesse zum Hoch- und Herunterfahren und Konfigurationsänderungen). Sie ermöglichen es SRE-Teams, Ereignisse chronologisch und kontextuell zu verstehen, was es ihnen erleichtert, die Ursache von Problemen zu verfolgen und Workflows bereitzustellen.

Traces

Ablaufverfolgungen, wie z. B. HTTP-Anfragen und Datenbankabfragen, bieten einen umfassenden Überblick über den Lebenszyklus einer Datenanforderung von der Initiierung bis zum Abschluss. Sie stellen den Weg einer Anforderung durch ein Computernetz dar und erfassen die Interaktionen (z. B. Abhängigkeiten) zwischen verschiedenen Komponenten und Diensten.

Tracing, insbesondere verteiltes Tracing, ist in Microservice-Architekturen wertvoll, wo Anfragen mehrere Dienste durchlaufen können, bevor sie ihr Ziel erreichen.

Alerts

SRE Observability-Tools senden automatisch Benachrichtigungen, wenn Probleme auftreten, sodass Ingenieure diese umgehend beheben und Ausfallzeit für Endbenutzer minimieren können.

SRE-Observability-Lösungen helfen Unternehmen bei der Erfassung und Verarbeitung von Leistungstelemetriedaten nahezu in Echtzeit und bieten SRE-Teams datengesteuerte Erkenntnisse in Systemfehler und deren Ursachen. Diese Erkenntnisse ermöglichen es Unternehmen, die kognitive Belastung der Ingenieure während der Standortentwicklung und -wartung zu reduzieren, sodass kleinere, funktionsübergreifende, autonome Teams ihre Services effizienter verwalten können.

Die Zukunft der SRE-Observability

Die Integration von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) mit SRE-Observability-Lösungen ist sehr schnell und verändert die Art und Weise, wie Unternehmen Reliability Engineering angehen. AIOps ermöglichen es SRE-Teams, fortschrittliche Tools und Algorithmen in Observability-Praktiken zu integrieren und Datensätze von Observability-Tools zu analysieren, um Muster zu identifizieren, Ausfälle vorherzusagen und Lösungen zu empfehlen.

Anstatt sich ausschließlich auf manuelle Aufgaben und Skripting zu konzentrieren, können SREs zu Trainern und Strategen für KI-Systeme werden und KI beibringen, Muster zu erkennen, Rauschen herauszufiltern und kostspielige Fehler zu vermeiden. Dieser Wandel wird die SRE-Funktion von einer aufgabenorientierten Rolle zu einer strategischen Disziplin machen, die sich auf das Management intelligenter Automatisierung konzentriert.

Zum Beispiel können SRE-Observability-Tools KI-Technologien nutzen, um die menschliche Entscheidungsfindung im Sanierungsprozess zu emulieren und zu automatisieren. Observability-Funktionen basierend auf KI können eingehende Daten kontinuierlich überwachen und analysieren, um Aktivitäten zu finden, die festgelegte Schwellenwerte überschreiten, und eine Reihe von Korrekturmaßnahmen (z. B. Remediation-Skripte) durchzuführen, um die Adresse des Problems zu beheben.

Wenn, und nur wenn, die Software das Problem nicht lösen kann, generiert sie automatisch ein detailliertes Support-Ticket in der Issue-Management-Plattform des SRE-Teams, sodass sich die SRE-Mitarbeiter nur mit den Problemen befassen, die die Observability-Plattform nicht bewältigen kann.

KI-gestützte Observability-Tools können auch die fortschrittlichen Funktionen von großen Sprachmodellen (LLMs) nutzen, um Erkenntnisse in SRE Observability Plattformen zu vereinfachen. LLMs zeichnen sich durch die Erkennung von Mustern in großen Mengen sich wiederholender Textdaten aus, die stark Telemetriedaten in komplexen, verteilten Systemen ähneln. Die heutigen LLMs können trainiert werden, oder durch Prompt-Engineering-Protokolle gesteuert werden, um Informationen und Erkenntnisse mithilfe menschlicher Sprachsyntax und Semantik zurückzugeben.

Advanced LLMs helfen SRE-Teams, Abfragen in natürlicher Sprache zu schreiben und zu untersuchen, sich von komplexen Abfragesprachen zu lösen und IT-Mitarbeitern aller Qualifikationsstufen die Möglichkeit zu geben, komplexe Daten effektiver zu verwalten.

Darüber hinaus haben SRE-Tools für Observability einen Vorteil von kausalen KI-Funktionen, die kausale Beziehungen zwischen Variablen verdeutlichen und modellieren, anstatt nur Korrelationen zu identifizieren. Traditionelle KI-Techniken (z. B. ML) stützen sich oft auf statistische Korrelation, um Vorhersagen zu treffen. Kausale KI zielt stattdessen darauf ab, die zugrunde liegenden Mechanismen zu finden, die Korrelationen erzeugen, um die Vorhersagekraft von SRE Observability-Tools zu verbessern und eine gezieltere Entscheidungsfindung zu ermöglichen.

Kausale KI kann SRE-Teams dabei helfen, die Beziehungen und Interdependenzen zwischen Standorten und Netzwerkkomponenten zu analysieren. Diese Funktionen erhöhen die Zuverlässigkeit des Standorts, indem sie nicht nur das „Wann und Wo“ von Systemproblemen klären, sondern auch das „Warum“.

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Vorteile von SRE-Observability-Tools

Die SRE-Observability erfordert häufig den Einsatz fortschrittlicher Observability-Tools, die Folgendes ermöglichen:

Proaktive Problemerkennung und Ursachenanalyse

Mit Observability-Tools können SRE-Teams Metriken, Protokollierung und verteilte Tracing-Funktionen nutzen, um Systemprobleme zu erkennen und zu beheben, bevor sie sich auf die Benutzer auswirken. Observability-Lösungen überwachen und aggregieren Daten aus dem gesamten Netzwerk, bieten einen klaren Einblick in das Systemverhalten und helfen Ingenieuren, schnell Ursachenanalysen durchzuführen. Sie fördern proaktive, unternehmensweite SRE-Praktiken und helfen Unternehmen, die Netzwerkverfügbarkeit zu maximieren. 

Schnellere Reaktionszeiten bei Vorfällen

Observability-Lösungen, die aggregierte, kontextualisierte Daten verwenden, helfen SRE-Teams und On-Call-Technikern, schnell Fehlerbehebungsprozesse einzuleiten und Erkenntnisse über den Systemzustand zu gewinnen, wenn ein Vorfall erkannt wird. Diese Lösungen ermöglichen eine schnelle Diagnose und Lösung und helfen Unternehmen, die Zuverlässigkeit des Standorts und die Einhaltung von SLAs aufrechtzuerhalten.

Fundierte Entscheidungsfindung und optimierte Leistung der Website

Datengesteuerte Entscheidungsfindung ist ein Eckpfeiler von SRE. Beobachtbarkeitsplattformen versorgen Teams mit allen Informationen, die sie benötigen, um fundierte Entscheidungen über Systemarchitektur, Kapazitätsplanung und Strategien zu treffen, und stellen sicher, dass Änderungen auf empirischen Erkenntnissen basieren. Telemetriedaten ermöglichen es Teams außerdem, die Systemleistung kontinuierlich abzustimmen, um die Zuverlässigkeit zu maximieren.

Bessere Geschäftsergebnisse

SRE-Initiativen sind untrennbar mit umfassenderen Unternehmenszielen verbunden, da die Zufriedenheit der Benutzer eine entscheidende Rolle bei der Schaffung und Aufrechterhaltung der Systemzuverlässigkeit spielt. SRE-Observability-Lösungen bieten Tools zur Messung der Benutzerzufriedenheit, indem sie Unternehmen bei der Festlegung von Service Level Objectives (SLOs) unterstützen.

SLOs liefern im Gegensatz zu indirekten Metriken wie CPU- und Speichernutzung umsetzbare Erkenntnisse über Benutzererfahrungen. In der Regel lassen sich Observability-Tools auf die spezifische Bewertung der Benutzerzufriedenheit zuschneiden (z. B. durch die Identifizierung der Probleme, mit denen Benutzer beim Produktkauf konfrontiert sind). SLO-basierte Strategien fördern datengestützte Diskussionen und helfen Unternehmen zu verstehen, wann sie sich auf Zuverlässigkeit konzentrieren und wann sie neue Funktionen verfolgen sollten.

Anwendungsfälle für SRE-Observability

SRE-Observability hilft Unternehmen, die Zuverlässigkeit und Betriebszeit von Standorten für eine Reihe von Anwendungsfällen in verschiedenen Geschäftsbereichen zu optimieren, darunter:

E-Commerce

Bei E-Commerce-Plattformen trägt die SRE-Observability dazu bei, nahtlose Benutzererlebnisse und Transaktionszuverlässigkeit zu schaffen. Teams können die Website-Leistung, die Transaktionsverarbeitung und die Metriken in Echtzeit überwachen. Sie können außerdem Observability-Tools verwenden, um Verlangsamungen oder Störungen zu identifizieren, was Einzelhändlern dabei hilft, besser zu verhindern, dass Kaufabschlüsse abgebrochen werden und Site-Ingenieuren die Serverauslastung zu optimieren und Ressourcen während der Spitzenverkaufszeiten zu skalieren.

Logistik

Mit der SRE-Observability können Unternehmen die Lieferzeiten von Paketen, das Versandvolumen und die Bestände überwachen und so Unregelmäßigkeiten wie Versandverzögerungen und niedrigen Bestand schnell erkennen. SRE-Observability-Tools können auch Service Level Indicators (SLIs) verfolgen. Dabei handelt es sich um quantitative Messungen des Systemverhaltens im Zusammenhang mit verschiedenen Services, wie z. B. Erfolgsraten bei der Bereitstellung.

Bankwesen

SRE-Observability ermöglicht es Finanzinstituten, wichtige Transaktionen wie Überweisungen, Abhebungen am Geldautomaten und Online-Zahlungen zu überwachen. SRE-Tools unterstützen Banken außerdem bei der automatischen Skalierung ihrer Websites und Systeme, um der wachsenden Nachfrage nach digitalen Finanzdienstleistungen gerecht zu werden.

Gesundheitswesen

SRE Observability ermöglicht es Gesundheitsdienstleistern, Patientendaten in Echtzeit zu überwachen und zu analysieren. So kann beispielsweise das SRE-Team eines Krankenhauses ein System zur Verfolgung von Vitalparametern implementieren, damit Ärzte und Krankenschwestern im Falle eines medizinischen Notfalls schnell eingreifen können. Observability-Tools können auch die Infrastruktur des Krankenhauses überwachen und Leistungsprobleme identifizieren, die das Personal daran hindern könnten, die qualitativ hochwertige Patientenversorgung zu bieten.

Weiterführende Lösungen
Automatisierte Full Stack Observability

Ermitteln und beheben Sie die Ursache des Problems rasch. Echtzeit-Daten mit hoher Genauigkeit bieten vollständige Transparenz dynamischer Anwendungs- und Infrastrukturumgebungen.

Mehr erfahren über Full Stack Observability
AIOps Consulting

Optimieren Sie die IT-Automatisierung und den IT-Betrieb mit generativer KI und richten Sie jeden Aspekt Ihrer IT-Infrastruktur an den geschäftlichen Prioritäten aus.

Mehr erfahren über AIOps Consulting
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management ist eine Überwachungs- und Analysesoftware, die Echtzeittransparenz und Erkenntnisse für komplexe Netzwerke bietet.

Netzwerkleistung überwachen
Machen Sie den nächsten Schritt

Erfahren Sie, wie KI für den IT-Betrieb die Erkenntnisse liefert, die Sie benötigen, um die Leistung Ihres Unternehmens entscheidend zu verbessern.

AIOps-Lösungen erkunden Buchen Sie eine Live-Demo