Die 8 wichtigsten APM-Metriken, die IT-Teams zur Überwachung ihrer Apps verwenden

Autor

Jim Holdsworth

Staff Writer

IBM Think

Eine hervorragende Customer Experience (CX) basiert auf genauen und zeitnahen Metriken zur Überwachung der Anwendungsleistung. Die Feinabstimmung Ihrer Apps oder Systeme zur Verbesserung der CX kann erst gelingen, wenn Sie wissen, wo das Problem oder die Chancen liegen.

APM-Lösungen bieten in der Regel ein zentrales Dashboard, um Echtzeit-Metriken und Erkenntnisse zur Analyse und zum Vergleich zu sammeln. Sie legen auch Referenzwerte fest, um Systemadministratoren auf Abweichungen aufmerksam zu machen, die auf tatsächliche oder potenzielle Leistungseinschränkungen hinweisen. IT-Teams, DevOps und Site Reliability Engineers können dann Anwendungsprobleme schnell identifizieren und beheben.

Das Application Performance Monitoring beschreibt die Anfangsphase des Application Performance Managements. Die Überwachung verfolgt die App-Leistung und ermöglicht die Verwaltung dieser App. Eine APM-Lösung stellt Administratoren die Instrumentierungstools zur Verfügung, die sie für eine schnelle Datenerfassung und Ursachenanalyse benötigen. Dann isolieren sie das Problem, beheben und lösen es.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und darüber hinaus auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Wichtige APM-Metriken zur Überwachung

Es gibt eine Reihe von Metriken, aus denen Sie wählen können, aber wir empfehlen, sich auf diese acht Metriken zu konzentrieren, um den größten Nutzen in Ihrem Unternehmen zu erzielen.

1. Apdex- und SLA-Werte

Beginnen wir mit den Werten des Anwendungsleistungsindex (Apdex) und der Service-Level-Vereinbarung (SLA), da diese die Grundlage für eine hervorragende Customer Experience bilden. Die Geschwindigkeiten und Feeds, die Sie messen, sind die spezifischen Aspekte, die zu einer schnellen Leistung beitragen, aber sie sind das Mittel, nicht das Ziel. Zufriedene Kunden sind Ihr Ziel – und hoffentlich führt das zu höheren Umsätzen.

Apdex- und SLA-Werte sind die beliebteste Methode zur Überwachung der Endbenutzererfahrung. Der Apdex-Score verfolgt die relative Leistung einer App, indem ein Ziel für die Zeit festgelegt wird, die eine Webanforderung oder Transaktion normalerweise in Anspruch nehmen sollte. Die SLAs sind die Metriken in Ihrem Kundenvertrag, und alles, was unter den definierten SLAs liegt, riskiert einen Rückgang der CX (und möglicherweise vordefinierte Strafen).

2. Anwendungsverfügbarkeit (auch bekannt als Betriebszeit oder Leistungsüberwachung)

Dies ist die grundlegendste Metrik: Ist das Licht an? Sie überwachen und messen, ob Ihre Anwendung online und verfügbar ist. Die meisten Unternehmen verwenden dies, um die Einhaltung von Service Level Agreements (SLA) zu messen. Die Betriebszeit ist oft eine Abkürzung für die Bewertung der gesamten Systemzuverlässigkeit und ihres Zustands. Übermäßige Ausfallzeiten können sich negativ auf die Benutzerzufriedenheit von Unternehmen auswirken, die Online-Services bereitstellen. Für Web-Anwendungen können Sie die Verfügbarkeit mit einer einfachen, regelmäßig geplanten HTTP-Prüfung nachvollziehen.

3. CPU-Auslastung (auch bekannt als Ressourcennutzung)

Ein hoher Anteil der von einer Anwendung genutzten CPU-Kapazität kann ein Zeichen für ein Leistungsproblem sein. Ein plötzlicher Anstieg der CPU-Auslastung kann zu langsameren Antwortzeiten führen. Schwankungen in der Nachfrage nach einer App dienen möglicherweise ebenfalls als Hinweis darauf, dass Sie weitere App-Instanzen hinzufügen müssen. Als Faustregel gilt: Wenn die CPU-Auslastung in mehr als 30 % der Fälle 70 % übersteigt, könnte die CPU-Kapazität knapp werden.

Die Ressourcennutzung kann auch die Speicher- und Festplattennutzung umfassen. Die Verfolgung des Arbeitsspeichers hilft bei der Identifizierung von Speicherlecks, die zu einem Ausfall oder zum Bedarf an größerem Speicher führen könnten. Metriken zur Festplattennutzung können verhindern, dass einer App der bestehende Speicherplatz ausgeht, was zu einem Ausfall führen könnte. Eine hohe Festplattenauslastung kann auch ein Zeichen für eine ineffiziente Datenspeicherung oder fehlerhafte Datenaufbewahrungsrichtlinien sein.

4. Fehlerraten

Ihre APM-Metrik-Software sollte Anwendungen überwachen, um den Anteil der Anfragen zu erfassen, die zu Fehlern führen. Dies hilft dabei, Probleme, die sich auf die Benutzerfahrung auswirken, zu identifizieren und zu priorisieren. Anwendungsfehler können Serverfehler, eine 404-Antwort oder eine Zeitüberschreitung in einer Web-App umfassen. Sie können Ihre APM-Lösung so konfigurieren, dass Benachrichtigungen gesendet werden, wenn eine Fehlerrate einen festgelegten Parameter überschreitet. Senden Sie beispielsweise eine Benachrichtigung, wenn 2,5 % der vorherigen 25 Anfragen zu einem Fehler geführt haben.

5. Garbage Collection

Garbage Collection (GC) kann die Leistung verbessern, indem die anhaltende starke Speicherbelegung von Java oder anderen Sprachen identifiziert und beseitigt wird. Die gute Nachricht ist, dass die GC-Automatisierung Speicherplatz zurückgewinnt, der für ungenutzte oder redundante Objekte oder Daten bestimmt ist, die von einer Anwendung nicht mehr verwendet werden. Nicht verwendete Objekte oder Daten werden gelöscht und aktive Objekte in einen Speicherpool einer späteren Generation kopiert. Dies ist eine Metrik, die im guten Mittelfeld gehalten werden sollte. Wenn GC zu oft ausgeführt wird, kann dies zu viel Aufwand erfordern. wird es jedoch nicht oft genug ausgeführt, steht Ihrem System möglicherweise zu wenig Speicherplatz zur Verfügung.

6. Anzahl der Instanzen

Mit der Verfolgung von Instanzen können Sie Ihre Anwendung skalieren, um den tatsächlichen Benutzerbedarf zu erfüllen, basierend darauf, wie viele App- oder Serverinstanzen jeweils ausgeführt werden. Dies kann besonders wichtig für Cloud-Anwendungen sein. Auto-Scaling kann Ihnen dabei helfen, sicherzustellen, dass moderne Anwendungen außerhalb der Spitzenzeiten skaliert werden, um der Nachfrage gerecht zu werden und das Budget zu schonen. Dies kann auch zu Herausforderungen bei der Infrastrukturüberwachung führen. Wenn Ihre App beispielsweise automatisch anhand der CPU-Auslastung nach oben skaliert wird, wird es möglicherweise überhaupt nicht zu einem Anstieg der CPU-Auslastung kommen. Stattdessen könnte es passieren, dass die Anzahl der Serverinstanzen zusammen mit Ihrer Hosting-Rechnung zu weit ansteigt.

7. Anfrageraten

Sie können den von einer Anwendung empfangenen Datenverkehr messen, um alle signifikanten Rückgänge, Zunahmen oder gleichbleibende Benutzer zu identifizieren. Die Korrelation von Anfrageraten mit anderen Leistungsmetriken für die Anwendung hilft Ihnen, die Skalierbarkeit Ihrer Softwareanwendungen zu verstehen. Die APM-Software kann auch den Datenverkehr überwachen, um Anomalien zu erkennen. Die Benutzerüberwachung, die einen unerwarteten Anstieg der Anfragen anzeigt, könnte ein Denial-of-Service-Angriff (DoS) sein. Eine große Anzahl von Anfragen von demselben Benutzer weist möglicherweise auf ein gehacktes Konto hin. Selbst ungewöhnlich niedrige Anfragen sind vielleicht schlecht – Inaktivität oder überhaupt kein Datenverkehr bedeuten mitunter einen Ausfall in Teilen Ihres Systems.

8. Reaktionszeiten (auch als Dauer bezeichnet)

Durch das Verfolgen der durchschnittlichen Antwortzeit auf eine Anfrage, also wie lange es dauert, bis eine Anwendung eine Ressourcenanfrage zurückgibt, können Sie die Leistung einer App bewerten. Diese Anfragen können Transaktionen umfassen, die von Endbenutzern initiiert wurden, wie z. B. eine Anforderung zum Laden einer Webseite, oder interne Anfragen von einem Teil Ihrer Anwendung an einen anderen, wie zum Beispiel einen Prozess oder Microservice, der Daten von der Festplatte oder dem Speicher anfordert. Die Gesamtantwortzeit umfasst die Antwortzeit des Servers (die Zeit, die Ihr Server benötigt, um eine Anfrage zu verarbeiten) und die Netzwerklatenz (die Gesamtzeit, die benötigt wird, um die Anfrage durch das Netzwerk zu übertragen).

Eine verwandte Metrik ist die Seitenladezeit, die die Zeit misst, die eine Webseite zum Laden in einem Browser benötigt. Die Verfolgung der Seitenladezeiten ermöglicht es Ihren Überwachungstools zur Anwendungsleistung, die Probleme zu identifizieren, die zu langsam ladenden Seiten führen, und dann die Digital Experience zu verbessern. Langsame Seitenladevorgänge können zum Abbruch von Seiten und zu Geschäftseinbußen führen. APM-Lösungen werden als Basislinie der Leistung für diese Metrik festgelegt, um Sie dann zu benachrichtigen, wenn dieser Benchmark nicht erreicht wird.

Mixture of Experts | 28. August, Folge 70

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Zusätzliche Metriken der Anwendung

Wer nach umfassenderen Metriken für die Überwachung der Anwendungsleistung sucht, kann die folgenden in Betracht ziehen:

  • Datenbankabfragen: Messen die Anzahl der Abfragen, die von einer Anwendung bei einer Datenbank angefordert wurden. Ihre APM-Tools können dann dabei helfen, langsame oder ineffiziente Abfragen zu identifizieren, die die Gesamtleistung Ihrer Anwendung beeinträchtigen können.
  • I/O (Eingabe/Ausgabe): I/O zeigt die Rate an, mit der Apps Daten lesen oder schreiben. Sie können die Leistung von bestehenden Speichermedien (z. B.HDD oder SSD) und I/O-Raten für Hauptspeicher oder virtuelle Festplatten verfolgen.
  • Netzwerknutzung: Die Netzwerknutzung stellt die gesamte von einer Anwendung genutzte Netzwerkbandbreite dar. Eine erhöhte Netzwerknutzung kann auf Leistungsprobleme hinweisen, die die Reaktionszeit der Anwendung verlangsamen oder Engpässe verursachen.
  • Knotenverfügbarkeit: Eine Messung, die der Anzahl der Instanzen ähnelt, ist die Knotenverfügbarkeit, die aber spezifisch für die Cloud ist. Wenn Sie Apps in einem Kubernetes Cluster bereitstellen, kann die Anzahl der verfügbaren und antwortenden Knoten (der Gesamtzahl der Knoten in einem Cluster) dabei helfen, Probleme in Ihrer Infrastruktur zu identifizieren. Metriken zu Cloud-Ausgaben sind mitunter ebenfalls wichtig, da sie Ihnen einen Echtzeit-Einblick in die Cloud-Kosten geben, indem sie API-Aufrufe, die Laufzeit für cloudbasierte virtuelle Maschinen und die Gesamtdatenausgaberaten verfolgen.
  • Durchsatz: Der Durchsatz ist das Datenvolumen, das zwischen einer App und Benutzern oder anderen Systemen übertragen werden kann. Er kann verwendet werden, um festzustellen, ob eine App das erwartete Datenverkehrsaufkommen bewältigen kann.
  • Transaktionsverfolgung: So erhalten Sie einen Überblick über einzelne Transaktionen, die von einer Anwendung ausgeführt werden. Zu den erfassten Daten gehören Datenbankaufrufe, externe Aufrufe und Funktionsaufrufe, sodass die Transaktionsanforderung von Anfang bis Ende überwacht wird.
  • Transaktionsvolumen: Das Transaktionsvolumen misst die Anzahl der Transaktionen, die von einer Anwendung verarbeitet werden. Auf diese Weise können APM-Tools Probleme mit der Skalierbarkeit und Kapazitätsplanung identifizieren.

Erste Schritte bei der Auswahl Ihrer APM-Lösung

IBM Instana Observability bietet Observability in Echtzeit, die wirklich jeder nutzen kann. Es ermöglicht eine rasche Wertschöpfung und stellt sicher, dass Ihre Beobachtbarkeitsstrategie mit der dynamischen Komplexität der heutigen und zukünftigen Umgebungen Schritt halten kann. Von Mobilgeräten bis hin zu Mainframes unterstützt Instana über 250 Technologien, wobei laufend weitere hinzukommen.

 
Weiterführende Lösungen
IBM Turbonomic

Skalieren Sie Ihre vorhandene IT-Infrastruktur automatisch, um eine höhere Leistung zu geringeren Kosten zu erzielen.

IBM Turbonomic erkunden
AIOps-Lösungen

Erfahren Sie, wie KI für den IT-Betrieb die Erkenntnisse liefert, die Sie benötigen, um die Leistung Ihres Unternehmens entscheidend zu verbessern.

AIOps-Lösungen erkunden
Beratungsleistungen für Automatisierung

Gehen Sie über einfache Aufgabenautomatisierungen hinaus und bewältigen Sie anspruchsvolle, kundenorientierte und umsatzfördernde Prozesse mit integrierter Akzeptanz und Skalierung.

Erkunden Sie die Beratungsleistungen von IBM zur Automatisierung
Machen Sie den nächsten Schritt

Erfahren Sie, wie KI für den IT-Betrieb Erkenntnisse liefert, um die Leistung Ihres Unternehmens entscheidend zu verbessern.

Mehr über Turbonomic AIOps-Lösungen erkunden