Es gibt eine Reihe von Metriken, aus denen Sie wählen können, aber wir empfehlen, sich auf diese acht Metriken zu konzentrieren, um den größten Nutzen in Ihrem Unternehmen zu erzielen.
1. Apdex- und SLA-Werte
Beginnen wir mit den Werten des Anwendungsleistungsindex (Apdex) und der Service-Level-Vereinbarung (SLA), da diese die Grundlage für eine hervorragende Customer Experience bilden. Die Geschwindigkeiten und Feeds, die Sie messen, sind die spezifischen Aspekte, die zu einer schnellen Leistung beitragen, aber sie sind das Mittel, nicht das Ziel. Zufriedene Kunden sind Ihr Ziel – und hoffentlich führt das zu höheren Umsätzen.
Apdex- und SLA-Werte sind die beliebteste Methode zur Überwachung der Endbenutzererfahrung. Der Apdex-Score verfolgt die relative Leistung einer App, indem ein Ziel für die Zeit festgelegt wird, die eine Webanforderung oder Transaktion normalerweise in Anspruch nehmen sollte. Die SLAs sind die Metriken in Ihrem Kundenvertrag, und alles, was unter den definierten SLAs liegt, riskiert einen Rückgang der CX (und möglicherweise vordefinierte Strafen).
2. Anwendungsverfügbarkeit (auch bekannt als Betriebszeit oder Leistungsüberwachung)
Dies ist die grundlegendste Metrik: Ist das Licht an? Sie überwachen und messen, ob Ihre Anwendung online und verfügbar ist. Die meisten Unternehmen verwenden dies, um die Einhaltung von Service Level Agreements (SLA) zu messen. Die Betriebszeit ist oft eine Abkürzung für die Bewertung der gesamten Systemzuverlässigkeit und ihres Zustands. Übermäßige Ausfallzeiten können sich negativ auf die Benutzerzufriedenheit von Unternehmen auswirken, die Online-Services bereitstellen. Für Web-Anwendungen können Sie die Verfügbarkeit mit einer einfachen, regelmäßig geplanten HTTP-Prüfung nachvollziehen.
3. CPU-Auslastung (auch bekannt als Ressourcennutzung)
Ein hoher Anteil der von einer Anwendung genutzten CPU-Kapazität kann ein Zeichen für ein Leistungsproblem sein. Ein plötzlicher Anstieg der CPU-Auslastung kann zu langsameren Antwortzeiten führen. Schwankungen in der Nachfrage nach einer App dienen möglicherweise ebenfalls als Hinweis darauf, dass Sie weitere App-Instanzen hinzufügen müssen. Als Faustregel gilt: Wenn die CPU-Auslastung in mehr als 30 % der Fälle 70 % übersteigt, könnte die CPU-Kapazität knapp werden.
Die Ressourcennutzung kann auch die Speicher- und Festplattennutzung umfassen. Die Verfolgung des Arbeitsspeichers hilft bei der Identifizierung von Speicherlecks, die zu einem Ausfall oder zum Bedarf an größerem Speicher führen könnten. Metriken zur Festplattennutzung können verhindern, dass einer App der bestehende Speicherplatz ausgeht, was zu einem Ausfall führen könnte. Eine hohe Festplattenauslastung kann auch ein Zeichen für eine ineffiziente Datenspeicherung oder fehlerhafte Datenaufbewahrungsrichtlinien sein.
4. Fehlerraten
Ihre APM-Metrik-Software sollte Anwendungen überwachen, um den Anteil der Anfragen zu erfassen, die zu Fehlern führen. Dies hilft dabei, Probleme, die sich auf die Benutzerfahrung auswirken, zu identifizieren und zu priorisieren. Anwendungsfehler können Serverfehler, eine 404-Antwort oder eine Zeitüberschreitung in einer Web-App umfassen. Sie können Ihre APM-Lösung so konfigurieren, dass Benachrichtigungen gesendet werden, wenn eine Fehlerrate einen festgelegten Parameter überschreitet. Senden Sie beispielsweise eine Benachrichtigung, wenn 2,5 % der vorherigen 25 Anfragen zu einem Fehler geführt haben.
5. Garbage Collection
Garbage Collection (GC) kann die Leistung verbessern, indem die anhaltende starke Speicherbelegung von Java oder anderen Sprachen identifiziert und beseitigt wird. Die gute Nachricht ist, dass die GC-Automatisierung Speicherplatz zurückgewinnt, der für ungenutzte oder redundante Objekte oder Daten bestimmt ist, die von einer Anwendung nicht mehr verwendet werden. Nicht verwendete Objekte oder Daten werden gelöscht und aktive Objekte in einen Speicherpool einer späteren Generation kopiert. Dies ist eine Metrik, die im guten Mittelfeld gehalten werden sollte. Wenn GC zu oft ausgeführt wird, kann dies zu viel Aufwand erfordern. wird es jedoch nicht oft genug ausgeführt, steht Ihrem System möglicherweise zu wenig Speicherplatz zur Verfügung.
6. Anzahl der Instanzen
Mit der Verfolgung von Instanzen können Sie Ihre Anwendung skalieren, um den tatsächlichen Benutzerbedarf zu erfüllen, basierend darauf, wie viele App- oder Serverinstanzen jeweils ausgeführt werden. Dies kann besonders wichtig für Cloud-Anwendungen sein. Auto-Scaling kann Ihnen dabei helfen, sicherzustellen, dass moderne Anwendungen außerhalb der Spitzenzeiten skaliert werden, um der Nachfrage gerecht zu werden und das Budget zu schonen. Dies kann auch zu Herausforderungen bei der Infrastrukturüberwachung führen. Wenn Ihre App beispielsweise automatisch anhand der CPU-Auslastung nach oben skaliert wird, wird es möglicherweise überhaupt nicht zu einem Anstieg der CPU-Auslastung kommen. Stattdessen könnte es passieren, dass die Anzahl der Serverinstanzen zusammen mit Ihrer Hosting-Rechnung zu weit ansteigt.
7. Anfrageraten
Sie können den von einer Anwendung empfangenen Datenverkehr messen, um alle signifikanten Rückgänge, Zunahmen oder gleichbleibende Benutzer zu identifizieren. Die Korrelation von Anfrageraten mit anderen Leistungsmetriken für die Anwendung hilft Ihnen, die Skalierbarkeit Ihrer Softwareanwendungen zu verstehen. Die APM-Software kann auch den Datenverkehr überwachen, um Anomalien zu erkennen. Die Benutzerüberwachung, die einen unerwarteten Anstieg der Anfragen anzeigt, könnte ein Denial-of-Service-Angriff (DoS) sein. Eine große Anzahl von Anfragen von demselben Benutzer weist möglicherweise auf ein gehacktes Konto hin. Selbst ungewöhnlich niedrige Anfragen sind vielleicht schlecht – Inaktivität oder überhaupt kein Datenverkehr bedeuten mitunter einen Ausfall in Teilen Ihres Systems.
8. Reaktionszeiten (auch als Dauer bezeichnet)
Durch das Verfolgen der durchschnittlichen Antwortzeit auf eine Anfrage, also wie lange es dauert, bis eine Anwendung eine Ressourcenanfrage zurückgibt, können Sie die Leistung einer App bewerten. Diese Anfragen können Transaktionen umfassen, die von Endbenutzern initiiert wurden, wie z. B. eine Anforderung zum Laden einer Webseite, oder interne Anfragen von einem Teil Ihrer Anwendung an einen anderen, wie zum Beispiel einen Prozess oder Microservice, der Daten von der Festplatte oder dem Speicher anfordert. Die Gesamtantwortzeit umfasst die Antwortzeit des Servers (die Zeit, die Ihr Server benötigt, um eine Anfrage zu verarbeiten) und die Netzwerklatenz (die Gesamtzeit, die benötigt wird, um die Anfrage durch das Netzwerk zu übertragen).
Eine verwandte Metrik ist die Seitenladezeit, die die Zeit misst, die eine Webseite zum Laden in einem Browser benötigt. Die Verfolgung der Seitenladezeiten ermöglicht es Ihren Überwachungstools zur Anwendungsleistung, die Probleme zu identifizieren, die zu langsam ladenden Seiten führen, und dann die Digital Experience zu verbessern. Langsame Seitenladevorgänge können zum Abbruch von Seiten und zu Geschäftseinbußen führen. APM-Lösungen werden als Basislinie der Leistung für diese Metrik festgelegt, um Sie dann zu benachrichtigen, wenn dieser Benchmark nicht erreicht wird.