Surveillance d'un hôte d' Windows

Vous pouvez surveiller votre hôte Windows avec Instana. Instana fournit des informations complètes sur les performances, l'état et l'utilisation des ressources de l'hôte de l' Windows, permettant ainsi un dépannage efficace, une optimisation des performances et une détection proactive des problèmes.

Informations système

Instana récupère diverses informations système à partir de l'hôte. Vous pouvez afficher les détails suivants de l'hôte dans l'interface graphique d' Instana, dans le volet Système :

Paramètre Description
OS Les détails du système d'exploitation, la version du noyau et l'architecture.
UC Les détails du processeur et le nombre.
GPU Les caractéristiques techniques du GPU, notamment le modèle et la fréquence d'horloge.
Mémoire Quantité de mémoire système disponible dans l' GiB s (gigaoctets).
Nom d'hôte Le nom d'hôte de la machine hôte.
Nom de domaine complet Nom de domaine complet. Il s'agit du nom de domaine complet de l'hôte, y compris le sous-domaine et le domaine de premier niveau.
ID de machine Identifiant unique de l'hôte généré lors de l'installation de la distribution hôte.
ID hôte L'adresse MAC de l'interface réseau de l'hôte, qui est un identifiant unique pour la carte réseau.
Démarrage L'heure à laquelle la machine hôte a démarré.

d'interfaces

Vous trouverez les informations suivantes :

  • Interfaces : liste des interfaces réseau et des adresses IP.
  • Instana agent : L'agent d' Instana s pour l'hôte.
  • Processus : nombre et détails des processus en cours d'exécution sur l'hôte.

Statut de rapport

La disponibilité historique d'un hôte Windows est indiquée dans le graphique Reporting Status (État des rapports) du tableau de bord de l'hôte Windows. Vous pouvez voir trois indicateurs de couleur qui identifient l'état d'un hôte signalant à Instana.

Statut Description Indicateur de couleur
Génération de rapports L'hôte a signalé à Instana sans aucune interruption. Vert
Rapports - suivi des problèmes L'hôte a signalé à Instana quelques interruptions (telles que des interruptions réseau ou des problèmes de surveillance des agents) et n'était pas entièrement disponible. Orange
N'envoie pas de rapport L'hôte n'a pas envoyé de rapport à Instana pendant toute cette période. Rouge

La métrique utilisée pour afficher ces données sur le tableau de bord de l'hôte est basée sur l'agrégation des messages reçus de l'agent surveillant l'hôte. Un hôte est classé comme « Reporting » si Instana reçoit au moins 98 % des messages attendus dans un délai donné.

Par exemple, si la fenêtre temporelle d'agrégation des métriques est de 5 minutes et que la fréquence d'interrogation de l'hôte est d'une fois par seconde, Instana s'attend à recevoir 300 messages de l'hôte pendant cette période.

  • Si au moins 294 messages sont reçus (98 % de 300), le statut de l'hôte est affiché comme Reporting.
  • Si moins de 294 messages mais plus de 0 messages sont reçus, l'état de l'hôte s'affiche comme suit : Rapport – Problèmes de surveillance.
  • Si aucun message n'est reçu, l'état de l'hôte est affiché comme « Ne rapporte pas ».

Métriques de performance

Les indicateurs de performance suivants sont affichés pour l'hôte.

Utilisation du processeur - pourcentage

Les valeurs d'utilisation du processeur, lorsqu'elles sont combinées, fournissent une vue détaillée de la manière dont les ressources du processeur sont utilisées sur un hôte.

Métrique Description Granularité
Utilisation de l'UC Utilisation totale du processeur en pourcentage pour la période que vous avez définie. 1 seconde

Utilisation de la mémoire

Métrique Description Granularité
Utilisation de la mémoire Utilisation totale de la mémoire en pourcentage 1 seconde

Utilisation du processeur - total

Métrique Description Granularité
Utilisateur Quantité de temps CPU consacrée à l'exécution des processus de l'espace utilisateur (applications et services). 1 seconde
Système Quantité de temps CPU consacrée à l'exécution des processus de l'espace noyau (fonctions principales du système d'exploitation). 1 seconde
Wait Temps CPU passé à attendre la fin des opérations d'entrée/sortie. 1 seconde
Priorité modérée Quantité de temps CPU consacrée à l'exécution de processus ayant une priorité inférieure (valeur nice). 1 seconde
Vol Le temps CPU perdu en raison de la gestion par l'hyperviseur d'autres machines virtuelles ou conteneurs sur le même hôte physique. 1 seconde

Utilisation de l'UC individuelle

La CPU usage métrique affiche les métriques suivantes en pourcentage sur un graphique pour une période sélectionnée pour chaque CPU :

Métrique Description Granularité
Utilisateur Quantité de temps CPU consacrée à l'exécution des processus de l'espace utilisateur (applications et services). 1 seconde
Système Quantité de temps CPU consacrée à l'exécution des processus de l'espace noyau (fonctions principales du système d'exploitation). 1 seconde
Wait Temps CPU passé à attendre la fin des opérations d'entrée/sortie. 1 seconde
Priorité modérée Quantité de temps CPU consacrée à l'exécution de processus ayant une priorité inférieure (valeur nice). 1 seconde
Vol Le temps CPU perdu en raison de la gestion par l'hyperviseur d'autres machines virtuelles ou conteneurs sur le même hôte physique. 1 seconde

Point de données : Filesystem

Utilisation d'un GPU individuel

Le tableau suivant présente les Individual GPU usage valeurs :

Métrique Description Granularité Unité
Utilisation du processeur graphique Pourcentage d'utilisation du GPU 1 seconde %
Température Température du GPU en degrés Celsius 1 seconde °C
Codeur Utilisation de l'encodeur 1 seconde %
Décodeur Utilisation du décodeur 1 seconde %
Mémoire utilisée Utilisation de la mémoire 1 seconde %
Mémoire totale Mémoire GPU totale 1 seconde octets
Débit transmis Débit de données transmis 1 seconde octets/s
Débit reçu Débit de données reçues 1 seconde octets/s

La métrique est collectée à partir de nvidia-smi. Le tableau suivant présente les versions prises en charge des cartes graphiques Nvidia :

Marque Modèle
Tesla S1070, S2050, C1060, C2050/70, M2050/70/90, X2070/90, K10, K20, K20X, K40, K80, M40, P40, P100, V100
Quadro 4000, 5000, 6000, 7000, M2070-Q, K-series, M-series, P-series, RTX-series
GeForce plusieurs niveaux de prise en charge, avec moins de métriques disponibles par rapport aux produits Tesla et Quadro

Prérequis

Vous devez installer les derniers pilotes officiels Nvidia.

Pour plus d'informations sur le démarrage d'un conteneur Docker pour l'agent Instana avec prise en charge GPU, consultez Activer la surveillance GPU via le conteneur de l'agent Instana.

La collecte des données relatives aux métriques GPU est soigneusement conçue pour avoir un impact minimal, en séparant le sondage et l'interrogation en deux processus à l'aide de nvidia-smi. Le processus d'arrière-plan est lancé en mode boucle et conservé en mémoire. Ce processus améliore considérablement les performances de la collecte des métriques et évite toute surcharge potentielle.

Le capteur interroge les métriques GPU en fonction du taux d'interrogation configuré (toutes les secondes par défaut). Cette solution permet au capteur de collecter chaque seconde des mesures précises et actualisées pour plusieurs GPU sans surcharge.

Mémoire/Processus GPU

La liste suivante répertorie les processus qui utilisent le GPU :

Point de données Collecté à partir de Granularité
Process Name nvidia-smi 1 seconde
PID nvidia-smi 1 seconde
GPU nvidia-smi 1 seconde
Memory nvidia-smi 1 seconde

Le tableau suivant présente les versions prises en charge des cartes graphiques Nvidia pour la mémoire GPU :

Marque Modèle
Tesla S1070, S2050, C1060, C2050/70, M2050/70/90, X2070/90, K10, K20, K20X, K40, K80, M40, P40, P100, V100
Quadro 4000, 5000, 6000, 7000, M2070-Q, K-series, M-series, P-series, RTX-series
GeForce plusieurs niveaux de prise en charge, avec moins de métriques disponibles par rapport aux produits Tesla et Quadro

Mémoire

Le tableau suivant présente les unités de mesure de la mémoire :

Métrique Unité Description Granularité
Utilisé Pourcentage Quantité de mémoire utilisée 1 seconde

Les valeurs sont affichées sur un graphique pour une période sélectionnée.

Point de données : Filesystem

Système de fichiers

Ces indicateurs fournissent des informations sur les performances, la capacité et l'utilisation du système de fichiers, permettant ainsi aux administrateurs de surveiller et d'optimiser efficacement leurs systèmes de stockage.

Métrique Description Granularité
Appareil Nom du périphérique. 60 secondes
Options Les options ou paramètres utilisés lors du montage du système de fichiers. 60 secondes
Libre Quantité d'espace libre disponible sur le système de fichiers. 1 seconde
Fuité Espace qui a été alloué mais qui n'a pas été utilisé, considéré comme « perdu » ou gaspillé. 1 seconde
Type Le type de système de fichiers. 60 secondes
Capacité Capacité totale du système de fichiers. 60 secondes
Utilisé Quantité d'espace utilisé sur le système de fichiers. 1 seconde
Lectures/s Le nombre d'opérations de lecture par seconde. 1 seconde
Ecritures/s Le nombre d'opérations d'écriture par seconde. 1 seconde
Octets lus/s Nombre d'octets lus par seconde. 1 seconde
Octets écrits/s Nombre d'octets écrits par seconde. 1 seconde

Point de données : Filesystem

* Les métriques relatives à l'utilisation totale, en lecture et en écriture affichent l'utilisation des E/S disque sous forme de pourcentage.

* Leaked (fait référence aux fichiers supprimés qui sont en cours d'utilisation et équivaut à capacity - used - free. Vous pouvez trouver ces fichiers avec lsof | grep deleted).

Par défaut, Instana surveille uniquement les systèmes de fichiers locaux. Vous pouvez répertorier les systèmes de fichiers surveillés ou exclus dans le configuration.yaml fichier.

Le nom du paramètre de configuration correspond au nom de l'appareil, que vous pouvez trouver dans la sortie de la commande Get-PSDrive -PSProvider FileSystem.

L'exemple suivant montre la liste des systèmes de fichiers surveillés :

com.instana.plugin.host:
  filesystems:
    - 'C'
    - 'D'
 

L'exemple suivant montre les systèmes de fichiers qui sont inclus ou exclus :

com.instana.plugin.host:
  filesystems:
    include:
      - 'C'
      - 'D'
    exclude:
      - 'E'
 

Interfaces réseau

Le tableau suivant présente le trafic réseau et les erreurs par interface.

Métrique Description Granularité
Interface L'interface réseau utilisée pour la communication. 60 secondes
Mac Adresse MAC (Media Access Control) de l'interface réseau. 60 secondes
Adresses IP Les adresses IP attribuées à l'interface réseau. 60 secondes
Octets RX Nombre total d'octets reçus par l'interface réseau par seconde. 1 seconde
Erreurs RX Pourcentage d'erreurs rencontrées lors de la réception de données sur l'interface réseau. 1 seconde
Octets TX Nombre total d'octets transmis par l'interface réseau par seconde. 1 seconde
Erreurs TX Pourcentage d'erreurs rencontrées lors de la transmission de données sur l'interface réseau. 1 seconde
Reçu/s Nombre de paquets reçus par l'interface réseau par seconde. 1 seconde
Transmis/s Nombre de paquets transmis par l'interface réseau par seconde. 1 seconde

Point de données : Filesystem

Activité TCP

Ces indicateurs fournissent des informations sur l'activité de connexion d' TCP, notamment les connexions établies, les taux de transmission par segment et les occurrences d'erreurs.

Métrique Description Granularité
Établi Nombre de connexions établies à l'adresse TCP. 1 seconde
Ouverture/s Le nombre de nouvelles connexions TCP ouvertes par seconde. 1 seconde
Segments entrants/s Nombre de segments d' TCP s entrants par seconde. 1 seconde
Segments sortants/s Nombre de segments d' TCP s sortants par seconde. 1 seconde
Réinitialisations établies Pourcentage de connexions établies TCP qui ont été réinitialisées par seconde. 1 seconde
Réinitialisations en sortie Pourcentage de connexions sortantes TCP qui ont été réinitialisées par seconde. 1 seconde
Échec Pourcentage de tentatives de connexion à l' TCP qui ont échoué par seconde. 1 seconde
Erreur Pourcentage d'erreurs d' TCP s par seconde. 1 seconde
Retransmission Pourcentage de retransmissions d' TCP s par seconde. 1 seconde

Point de données : Filesystem

Windows liste des services

Windows Les services ne sont pas surveillés par défaut. Cette fonctionnalité n'est activée que si winServiceRegex est spécifié dans le fichier de configuration.yaml l'agent hôte. Il winServiceRegex s'agit d'une expression régulière utilisée pour surveiller les services dont le nom de service ou le nom d'affichage correspond à l'expression régulière. Par exemple, winServiceRegex: '(Sensor|Device)' surveille tous les services dont le nom de service ou le Device nom d'affichage comprend Sensor ou.

Métrique Description Granularité
Nom du service Nom du service 60 secondes
Nom d'affichage Afficher le nom 60 secondes
PID ID du processus 60 secondes
Etat Etat du service 60 secondes

Les mesures sont collectées à partir de Windows sc queryex.

Liste des premiers processus

Ces indicateurs fournissent des informations sur les processus en cours d'exécution, notamment leur ID, leur nom, leur utilisation du processeur, leur utilisation normalisée du processeur et leur consommation de mémoire. La liste des processus les plus importants est mise à jour toutes les 30 secondes et ne contient que les processus qui utilisent le système. Par exemple, les processus ayant utilisé plus de 10 % du CPU au cours des 30 dernières secondes ou ceux ayant utilisé plus de 512 Mo de mémoire (RSS) sont affichés dans la liste des processus les plus importants.

Linuxtop la sémantique est utilisée. 100 % CPU signifie utilisation complète d'un seul cœur de processeur. Vous pouvez rechercher l'historique des instantanés du mois précédent. Le CPU normalisé est calculé en divisant le CPU par le nombre de processeurs logiques.

Métrique Description Granularité
PID Identifiant unique attribué à chaque processus par le système d'exploitation. 30 secondes
Nom de processus Nom du processus tel que défini par l'application ou le service. 30 secondes
UC La quantité de ressources CPU consommées par le processus. 30 secondes
UC (normalisée) Utilisation du processeur par le processus, normalisée à une échelle. 30 secondes
Mémoire La quantité de mémoire consommée par le processus. 30 secondes

Point de données : Filesystem

Signatures d'intégrité

Pour chaque capteur, une base de connaissances des signatures de santé est évaluée en continu par rapport aux mesures entrantes. Ils sont utilisés pour signaler des problèmes ou des incidents en fonction de leur impact sur les utilisateurs.

Les événements intégrés déclenchent des problèmes ou des incidents en fonction de signatures de santé défaillantes sur des entités, tandis que les événements personnalisés déclenchent des problèmes ou des incidents en fonction des seuils d'une métrique spécifique d'une entité.

Pour plus d'informations sur les événements intégrés pour le capteur hôte, consultez la référence sur les événements intégrés.