Beobachtbarkeit vs. Überwachung: Was ist der Unterschied?

Wirtschaftsingenieur mit Schutzhelm und Sicherheitsjacke arbeitet mit einem Tablet-Computer mit Touchscreen

Autor

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

Observability vs. Überwachung: Was ist der Unterschied?

Stellen Sie sich vor, ein Video-Streaming- Service beschließt, ein Live-Stream eines Mitternachtskonzerts eines beliebten Musikkünstlers anzubieten, aber wenn sich die Benutzer um Mitternacht einloggen, um das Konzert zu sehen, haben sie Probleme mit der Pufferung. Einige der treuen Fans des Künstlers bleiben vielleicht dabei, um zu sehen, ob sich die Situation verbessert. Allerdings könnten Gelegenheitsfans den Stream aufgeben; und schlimmer noch, frustrierte Superfans könnten den Stream und den Streaming-Service aufgeben.

Die heutigen Techniknutzer erwarten blitzschnelle Geschwindigkeiten, ultrahohe Betriebszeiten und nahtlose Interaktionen. Negative Benutzererfahrungen – wie z. B. Pufferprobleme während eines großen Konzerts – können die Kundenabwanderung erhöhen. Daher müssen IT-Teams in der Lage sein, die Ursachen schnell zu identifizieren und Systemprobleme zu beheben.

Hier werden Überwachungs- und Observability-Tools für moderne IT-Operationen (ITOps) unverzichtbar. Sehen wir uns an, wie solche Tools ein solches Szenario nicht nur lösen, sondern auch verhindern könnten.

Um Pufferungsprobleme bei einem Live-Stream zu beheben, kann ein Betriebsteam ein Überwachungstool verwenden, das es benachrichtigt, wenn eine Gruppe von Servern die Lastschwellenwerte überschritten hat. Das Team kann dann die Serverlast neu verteilen, indem es den Datenverkehr auf die verfügbaren Server umverteilt.

Ausgelöst durch die Überwachungswarnung kann eine Observability-Plattform wichtige Metriken (z. B. die Anpassung der Bitrate) analysieren und verteilte Traces verwenden, um Videoanforderungen zu verfolgen und zu identifizieren, wo die Pufferung beginnt. Wenn das Tool beispielsweise feststellt, dass die Pufferungsprobleme von Content Delivery Network (CDN)-Knoten mit zu geringer Leistung herrühren, kann es dem IT-Personal Optionen zur Optimierung der CDN-Konfigurationen und zur Verbesserung der Gerätekompatibilität bieten.

Tatsächlich können führende Observability-Tools historische Überwachungsdaten für ähnliche Netzwerkereignisse analysieren und vorhersagen, dass das Concert CDN-Knoten in einer bestimmten Region überlasten wird. Das Tool kann IT-Mitarbeiter auffordern, das CDN proaktiv neu zu konfigurieren und die langsameren Knoten zu beheben, bevor sie Pufferprobleme für Benutzer verursachen.

Kurz gesagt: Überwachung und Observability bieten Unternehmen komplementäre Ansätze zur Diagnose von Systemproblemen. Während die Überwachung den Teams mitteilt, wenn etwas nicht in Ordnung ist, erfahren sie durch die Observability, was passiert, warum es passiert und wie man es beheben kann. Zusammen bieten sie umfassende Funktionen zur Erkennung und Lösung von Problemen, die IT-Teams benötigen, um eine nahtlose Customer Experience zu gewährleisten.

Um den Unterschied zwischen Observability und Überwachung besser zu verstehen, schauen wir uns an, wie sie funktionieren, welche Gemeinsamkeiten und Unterschiede es gibt und welche Rolle sie bei der Softwareentwicklung und im Netzwerkmanagement spielen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Observability: Eine kurze Einführung

Observability ist die Fähigkeit, den internen Zustand eines komplexen Systems auf der Grundlage von externen Ausgaben zu verstehen. Wenn ein System beobachtbar ist, können IT-Teams die Ursache eines Leistungsproblems anhand der Daten, die es produziert, identifizieren. Es sind keine zusätzlichen Tests oder Kodierungen erforderlich.

Der Begriff „Observability“ stammt aus der Kontrolltheorie, einer technischen Theorie, die sich mit der automatischen Steuerung dynamischer Systeme befasst (z. B. der Regulierung des Wasserflusses durch ein Rohr auf der Grundlage der Rückmeldung eines Durchflusskontrollsystems). Moderne Fahrzeuge sind ein weiteres Beispiel. Autodiagnosesysteme bieten Mechanikern oft die Möglichkeit, herauszufinden, warum ein Auto nicht anspringt, ohne es auseinandernehmen zu müssen.

Bei ITOps und Cloud Computing erfordert die Observability Software-Tools, die kontinuierliche Ströme von Leistungsdaten aus Anwendungen sowie der Hardware und den Netzwerken, auf denen sie ausgeführt werden, zusammenfassen und korrelieren.

Observability-Lösungen (wie OpenTelemetry) können die Ausgabedaten eines Systems analysieren, eine Bewertung des Systemzustands liefern und verwertbare Erkenntnisse für die Behebung von Problemen bieten. Teams können die Daten dann verwenden, um Apps und Netzwerke zu überwachen, Fehler zu beheben und zu debuggen .

Ein beobachtbares System ist eines, bei dem DevOps-Teams die gesamte IT-Umgebung sehen können, einschließlich Kontextdaten und Interdependenzen. Das Ergebnis? Eine IT-Architektur, die es Teams ermöglicht, Probleme proaktiv zu erkennen, Probleme schneller zu lösen, die Customer Experience zu optimieren und Service Level Agreements (SLAs) einzuhalten.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Monitoring: Eine kurze Einführung

Bei der Überwachung wird der Systemzustand durch das Sammeln und Analysieren aggregierter Daten von IT-Systemen auf der Grundlage einer vordefinierten Reihe von Metriken und Protokollen bewertet. Bei DevOps misst die Überwachung den Zustand der Anwendung, um bekannte Fehler zu erkennen und Ausfallzeiten zu vermeiden. Ein IT-Team könnte beispielsweise eine Regel in einem Überwachungstool erstellen, die Teammitglieder benachrichtigt, wenn eine Anwendung fast 100 % Festplattennutzung erreicht.

Ihren tatsächlichen Wert zeigt die Überwachung bei der Analyse langfristiger Trends. Ein Überwachungstool kann Teams sowohl zeigen, wie eine App funktioniert, als auch, wie sie im Laufe der Zeit genutzt wird. Allerdings hat die Überwachung ihre Grenzen.

Für eine effektive Überwachung müssen Teams wissen, welche Metriken und Protokolle sie verfolgen müssen. Wenn das Team ein Problem nicht vorhergesehen hat, können Überwachungstools wichtige Produktionsausfälle und andere Probleme übersehen. Die Überwachung erfordert außerdem, dass IT-Mitarbeiter Daten aus verschiedenen Überwachungs-Tools manuell korrelieren, was die Ursachenanalyse zu einem komplexeren und zeitaufwändigeren Prozess macht und die Vorhersagefähigkeiten der Entwickler einschränkt. 

Die Entwicklung der Leistungsüberwachung zur Observability

Die Begriffe „Observability“ und „Application Performance Monitoring“ werden oft synonym verwendet. Es ist jedoch zutreffender, die Beobachtbarkeit als eine Weiterentwicklung der Überwachung der Anwendungsleistung zu betrachten.

Die Überwachung der Anwendungsleistung bezieht sich auf die Tools und Prozesse, mit denen IT-Teams feststellen können, ob die Anwendungen die Leistungsstandards und die Erwartungen der Benutzer erfüllen. Überwachungstools verfolgen normalerweise den Zustand und die Leistung der Netzwerkinfrastruktur, Anwendungsabhängigkeiten, Geschäftstransaktionen und Benutzererfahrungen. Diese Systeme zielen darauf ab, Leistungsprobleme schnell zu erkennen, zu isolieren und zu lösen.

APM war mehr als zwei Jahrzehnte lang Standard, aber mit dem zunehmenden Einsatz von agiler Entwicklung, DevOps, Microservices, mehreren Programmiersprachen, serverless und anderen cloudnativen Technologien brauchten die Teams eine schnellere, umfassendere Möglichkeit zur Überwachung und Bewertung hochkomplexer Umgebungen. APM-Tools, die für eine frühere Generation von Anwendungsinfrastrukturen entwickelt wurden, konnten keinen schnellen, automatisierten und kontextbezogenen Einblick in den Zustand und die Verfügbarkeit einer gesamten Anwendungsumgebung mehr bieten. Neue Software wird heute so schnell und in so vielen kleinen Komponenten bereitgestellt, dass herkömmliche APM-Tools nur schwer Schritt halten können.

Wir stellen vor: Observability. Observability baut auf den Datenerfassungsmethoden von Tools zur Überwachung der Anwendungsleistung auf, um die verteilte, dynamische Natur von cloudnativen Anwendungen und Servicebereitstellungen besser zu berücksichtigen. Observability-Lösungen verfolgen einen ganzheitlichen Ansatz bei der Protokollierung und Überwachung und helfen Teams dabei, besser zu verstehen, wie Services interagieren (z. B. mit Abhängigkeitskarten) und in die Gesamtarchitektur passen.

Observability und Überwachung: Funktionsweise

Der Unterschied zwischen Überwachung und Beobachtbarkeit ist oft der Unterschied zwischen der Identifizierung von Problemen, von denen Sie wissen, dass sie auftreten werden, und der Suche nach Möglichkeiten, Probleme zu antizipieren, die möglicherweise auftreten. Im Grunde genommen ist die Überwachung reaktiv und die Observability proaktiv. Beide verwenden jedoch die gleiche Art von Telemetriedaten, die als die drei Säulen der Observability bekannt sind.

Die drei Säulen sind:

  • Protokolle: Aufzeichnungen über die Vorgänge in Ihrem Netzwerk und Ihren Softwaresystemen. Protokolle liefern detaillierte Informationen darüber, was passiert ist, wann es passiert ist und wo im Netzwerk es passiert ist.
  • Metriken: Numerische Bewertungen der Systemleistung und Ressourcennutzung. Metriken bieten einen umfassenden Überblick über den Systemzustand, indem sie bestimmte Datentypen und wichtige Leistungsindikatoren (KPIs) wie Latenz, Paketverluste, Bandbreitenverfügbarkeit und CPU-Auslastung erfassen.
  • Traces: End-to-End-Aufzeichnungen über den Weg jeder Benutzeranfrage durch das Netzwerk. Traces bieten Einblicke in den Pfad und das Verhalten von Datenpaketen, während sie mehrere Geräte und Systeme durchlaufen, was sie für das Verständnis verteilter Systeme unerlässlich macht.

Bei der Überwachung verwenden die Teams diese Telemetriedaten, um Schwellenwerte und Benchmarks zu definieren und vorkonfigurierte Dashboards und Benachrichtigungen zu erstellen. Sie können die Telemetrie auch nutzen, um Abhängigkeiten zu identifizieren und zu dokumentieren, aus denen hervorgeht, wie jede App-Komponente mit anderen Komponenten, Anwendungen und IT-Ressourcen zusammenarbeitet.

Eine Observability-Plattform geht bei der Überwachung noch einen Schritt weiter. Observability-Plattformen verwenden ebenfalls Telemetrie, aber auf eine proaktive Weise.

DevOps, Site Reliability Engineers (SREs), Betriebsteams und IT-Mitarbeiter verwenden Observability-Tools, um Telemetriedaten in Echtzeit zu korrelieren und einen vollständigen, kontextbezogenen Überblick über den Systemzustand zu erhalten. Auf diese Weise können die Teams jedes Element des Systems besser verstehen und wissen, wie die verschiedenen Elemente miteinander in Beziehung stehen.

Durch die Bereitstellung einer umfassenden Ansicht einer IT-Umgebung mit allen Abhängigkeiten können Observability-Lösungen den Teams das „Was“, das „Wo“ und das „Warum“ eines jeden Systemereignisses zeigen und wie sich das Ereignis auf die Leistung der gesamten Umgebung auswirken könnte. Sie können auch automatisch neue Telemetriequellen entdecken, die im System auftauchen könnten (zum Beispiel ein neuer API-Aufruf einer Softwareanwendung).

Diese Funktionen bestimmen oft, wie DevOps-Teams die Instrumentierung von Anwendungen, Debugging-Prozesse und Problemlösungen implementieren. Viele Observability-Lösungen umfassen auch Maschinelles Lernen (ML) und AIOps-Funktionen, die dabei helfen, aus den Bergen von Rohdaten, die moderne IT-Umgebungen erzeugen, Erkenntnisse zu gewinnen und Probleme je nach Schweregrad zuzuordnen.

Observability vs. Überwachung: Die wichtigsten Unterschiede

Sowohl Überwachung als auch Observability sind für das Netzwerk- und Anwendungsmanagement von entscheidender Bedeutung. Sie unterscheiden sich jedoch in mehreren wesentlichen Punkten:

Bewerten

Die Überwachung verfolgt die Leistung eines Systems im Laufe der Zeit und nutzt KPIs, um Leistungsprobleme zu erkennen und IT-Teams in Echtzeit auf Datenabweichungen aufmerksam zu machen. Es konzentriert sich in erster Linie auf die Suche nach Systemproblemen und die Benachrichtigung der Beteiligten über anomale Systemereignisse. Daher eignet sich die Überwachung am besten für statische, gut verstandene Netzwerke mit vorhersehbaren Workloads.

Observability verwendet Telemetriedaten — einschließlich Verteilte Verfolgung - Funktionen — von jedem Gerät und jeder Komponente im Netzwerk, um ein klareres, vollständigeres Bild der gesamten Netzwerkleistung zu erstellen. Observability-Tools können Ursachenanalysen in Echtzeit in komplexen, dynamischen IT-Umgebungen durchführen. Sie identifizieren langsame oder defekte Netzwerkkomponenten und liefern Warnungen für präventive Korrekturen. So wissen die Teams, was sie überwachen müssen und wie sie Probleme proaktiv angehen können.

 

Tiefe

Überwachungstools verwenden bestimmte Metriken und Protokolle, um Systemfehler, Ressourcenverwendungsmuster und bestimmte Fehlermöglichkeiten zu erkennen. Sie helfen Teams dabei, „bekannte Probleme“ zu identifizieren, was bedeutet, dass IT-Teams nur Probleme finden können, die sie bereits antizipiert haben. Software zur Überwachung der Anwendungsleistung kann beispielsweise anzeigen, ob eine Anwendung online oder offline ist oder ob es zu Latenzproblemen kommt.  

Die Überwachung ist ein wichtiger Prozess, der dazu beiträgt, dass die Systeme ordnungsgemäß funktionieren, aber Überwachungs-Tools können nicht den Kontext liefern, der für eine tiefgreifende Fehlererkennung und Vorfallreaktion erforderlich ist.

Observability hilft Teams, die gesamte Architektur zu visualisieren, Gerätekonfigurationen zu speichern, verschiedene Datenquellen im gesamten Netzwerk zu integrieren und eine nahtlose Datenanalyse zu ermöglichen. Observability-Tools reichern Telemetriedaten mit zusätzlichen Informationen über die Netzwerkumgebung an (z. B. Topologie, Geräterollen und Anwendungsabhängigkeiten) und korrelieren Netzwerkdaten, um „unbekannte Unbekannte“ aufzudecken.  

Verbesserte Transparenz und tiefere Einblicke ermöglichen es IT-Teams, proaktiv zu handeln und einen explorativeren Ansatz für die Verwaltung von Netzwerken und Anwendungen zu wählen.

Datennutzung

Überwachungssysteme sammeln Daten über Nutzungstrends und Leistung und nutzen diese Daten, um zu erkennen, was passiert. Aber sie können nicht unbedingt erklären, warum es zu problematischen Ereignissen kommt.

Observability-Tools nutzen Daten auf Oberflächenebene, Daten aus CI/CD-Pipelines und historische Daten, um Kontext zu liefern und scheinbar nicht zusammenhängende Systemereignisse zu korrelieren. Korrelationsfunktionen helfen Entwicklern, die Ursache von Problemen genau zu identifizieren, sowohl in Echtzeit als auch rückwirkend.

Flexibilität

Die Überwachung wird durch die von den IT-Teams erstellten vordefinierten Datensätze eingeschränkt. Probleme, die über das hinausgehen, was programmiert wurde, können nicht erkannt werden. Daher sind Monitoring-Tools für die Verwaltung dynamischer Umgebungen oft nicht ausreichend.

Wenn Sie sich ausschließlich auf Überwachungs-Tools verlassen, müssen Sie sich auf isolierte Überwachungsdaten verlassen, was bedeutet, dass die Teams zusätzliche Ressourcen für die Datenkorrelation und die manuelle Ursachenanalyse aufwenden müssen. Manuelle Prozesse verlangsamen die Problemlösung und erhöhen die Wahrscheinlichkeit von Serviceunterbrechungen und -ausfällen.

Observability-Tools können Dateninteraktionen aus dynamischen, unterschiedlichen Datenquellen in Cloud-Umgebungen (wie Hybrid- und Multicloud-Umgebungen), lokaler Infrastruktur und Anwendungen von Drittanbietern abbilden. Sie sind von Natur aus anpassungsfähig und eignen sich daher gut für die Problemlösungsanforderungen moderner IT-Infrastrukturen.

Und mit ihren Automatisierungs- und AIOps-Fähigkeiten können Observability-Plattformen zusammen mit Ökosystemen skalieren, sodass Teams ihre Infrastrukturen effektiv verwalten können, wenn sie expandieren.

Visualisierungen

Überwachungstools visualisieren Systemdaten häufig in Dashboards, die es dem IT-Personal ermöglichen, wichtige Kennzahlen an einem zentralen Ort einzusehen. Sie können jedoch nicht die Ursachen von Systemfehlern aufzeigen. Überwachungstools überlassen prädiktive Aufgaben und die Ursachenanalyse den menschlichen Bedienern.

Observability-Tools können jedoch durchsuchbare Karten erstellen, die Systemfehler und ihre Ursachen enthalten, wodurch die Ursachenanalyse Workflows automatisiert und die Fehlerbehebungsprozesse für IT-Teams rationalisiert werden.

Wie arbeiten Überwachung und Observability zusammen?

Überwachung und Observability arbeiten Hand in Hand, um ein umfassendes Framework für die Verwaltung von IT-Systemen, die Optimierung der Netzwerkkonnektivität und die Maximierung der Skalierbarkeit der Architektur zu schaffen.

Überwachungstools schaffen die Grundlage der Observability, indem sie Telemetriedaten und andere wichtige Metriken verfolgen und Teams bei Leistungsabweichungen alarmieren. Wenn beispielsweise eine Anwendung den festgelegten Schwellenwert für die Reaktionszeit überschreitet, erzeugt eine Überwachungslösung eine Benachrichtigung.

Ein Observability-Tool analysiert dann die Telemetriedaten und alle Datenkorrelationen (z.B. kürzliche Einsätze), fügt kontextbezogene Informationen hinzu und integriert Datenebenen, um den Grund für die Warnmeldung zu ermitteln. Es verfolgt die Interaktionen einer App mit anderen Diensten, um festzustellen, ob sie aufgrund eines Datenbankfehlers oder einer Netzwerküberlastung langsam läuft.

Erkenntnisse aus der Observability können auch dazu beitragen, die Überwachungsmöglichkeiten zu verfeinern und eine Feedbackschleife für kontinuierliche Verbesserungen zu schaffen. Wenn das Observability-Tool eine Änderung in den Datenmustern feststellt, kann es die Überwachungswarnungen aktualisieren, um das neue Muster widerzuspiegeln, sodass die Überwachungs- und Observability-Tools im Gleichschritt arbeiten.

Darüber hinaus nutzen Observability-Tools künstliche Intelligenz (KI) und ML, um das Potenzial der Überwachungsdaten zu maximieren. KI-gestützte Observability-Funktionen können prädiktive Analysen nutzen, um Engpässe oder Ausfälle vorherzusagen (z. B. anhand von Trends bei der Speichernutzung, um die Erschöpfung des Servers vorherzusagen). Und durch den Einsatz von ML-Algorithmen können Observability-Tools die Alarmierungsverfahren verfeinern und zwischen kritischen Alarmen und Rauschen unterscheiden.

Wenn es beispielsweise einen vorübergehenden, aber erwarteten Anstieg der CPU-Auslastung gibt, kann eine Observability-Lösung die von den Überwachungstools generierten Warnmeldungen unterdrücken. Sollte es jedoch zu einem unvorhergesehenen, anhaltenden Anstieg der CPU-Auslastung kommen, kann die Lösung dazu beitragen, dass die Warnmeldung sofort die zuständigen IT-Mitarbeiter erreicht.

Überwachung und Observability dienen als unverzichtbare, ergänzende Tools zur Optimierung des Application Performance Management (APM) und der ITOps-Praktiken. Zusammen unterstützen sie sowohl proaktive als auch reaktive Problemlösungspraktiken für alle Anwendungsfälle und tragen dazu bei, dass Unternehmen ihren Benutzern die schnellen, hochverfügbaren IT- Services bieten können, die sie erwarten.

Verwandte Lösungen Lösungen
IBM Instana Observability

Nutzen Sie die Leistungsfähigkeit von KI und Automatisierung, um Probleme im gesamten Anwendungs-Stack proaktiv zu lösen.

IBM Instana Observability kennenlernen
IBM Observability-Lösungen

Maximieren Sie mit KI-gestützter Observability Ihre betriebliche Ausfallsicherheit und stellen Sie die Integrität Ihrer cloudnativen Anwendungen sicher.

Observability-Lösungen von IBM erkunden
IBM Consulting AIOps

Optimieren Sie die IT-Automatisierung und den IT-Betrieb mit generativer KI und richten Sie jeden Aspekt Ihrer IT-Infrastruktur an den geschäftlichen Prioritäten aus.

Mehr zu IBM Consulting AIOps erfahren
Machen Sie den nächsten Schritt

Entdecken Sie, wie IBM Instana die Leistung von Anwendungen in Echtzeit überwacht und KI-gestützte Erkenntnisse liefert, die als SaaS oder als selbstgehostetes System verfügbar sind.

  1. IBM Instana Observability kennenlernen
  2. Erleben Sie die Lösung in Aktion