Le metriche forniscono insight quantitativi sulle prestazioni del sistema misurando vari parametri di rete. Aiutano i team a capire il "cosa" dei problemi di sistema. I tipi di metriche includono:

Metriche dell'host: utilizzo della memoria, del disco e della CPU

utilizzo della memoria, del disco e della CPU Metriche delle prestazioni di rete: tempo di attività, latenza, throughput

tempo di attività, latenza, throughput Metriche dell'app: tempi di risposta, richieste e tassi di errore

tempi di risposta, richieste e tassi di errore Metriche del pool di server: istanze totali, numero di istanze in esecuzione

istanze totali, numero di istanze in esecuzione Metriche delle dipendenze esterne: disponibilità, stato del servizio

Le metriche comuni, come l'utilizzo della memoria e la latenza, si allineano in modo intuitivo allo stato di salute. Tuttavia, molte altre metriche e indicatori chiave di prestazione (KPI) possono rivelare problemi di sistema. Ad esempio, gli handle del sistema operativo esauriti possono rallentare un sistema e spesso richiedono un riavvio per ripristinare la funzionalità.

Le metriche sono spesso aggregate per fornire una visualizzazione riassuntiva che utilizzi dashboard e altre visualizzazioni (come grafici di serie temporali) per aiutare gli sviluppatori a valutare rapidamente lo stato di salute del sistema, analizzare le tendenze dei dati e rispondere ai problemi di rete. Inoltre, informano le decisioni sulla scalabilità e l'allocazione delle risorse, rendendo le metriche essenziali per un'efficace pianificazione della capacità e per la gestione del carico.

È fondamentale che i team selezionino attentamente le metriche da monitorare e le analizzino continuamente, poiché alcune possono aiutarli ad anticipare potenziali problemi prima che si verifichino.

I team possono stabilire soglie di metriche che, in caso di violazione, attivano avvisi per notificare al personale IT problemi attuali o imminenti. Le metriche consentono inoltre agli strumenti di osservabilità di rilevare i problemi che si accumulano nel tempo, come le perdite degli handle del sistema operativo, molto prima che interrompano l'esperienza.

Tuttavia, le metriche spesso forniscono un contesto limitato, quindi generalmente devono essere correlate con registri e tracce per fornire agli sviluppatori una comprensione completa degli eventi di sistema. Le metriche ad alta risoluzione generano anche enormi quantità di dati che possono essere difficili da memorizzare e gestire in modo efficiente. Quindi, l'osservabilità richiede spesso soluzioni di storage a lungo termine di alta qualità in grado di gestire le metriche e contribuire garantire che rimangano disponibili per l'analisi.