Surveillance d'un hôte d' Windows
Vous pouvez surveiller votre hôte Windows avec Instana. Instana fournit des informations complètes sur les performances, l'état et l'utilisation des ressources de l'hôte de l' Windows, permettant ainsi un dépannage efficace, une optimisation des performances et une détection proactive des problèmes.
- Informations système
- INTERFACES
- Statut de rapport
- Métriques de performance
- Utilisation du processeur - pourcentage
- Utilisation de la mémoire
- Utilisation du processeur - total
- Utilisation de l'UC individuelle
- Utilisation d'un GPU individuel
- Mémoire/Processus GPU
- Mémoire
- Système de fichiers
- Interfaces réseau
- Activité TCP
- Windows liste des services
- Liste des premiers processus
- Signatures d'intégrité
Informations système
Instana récupère diverses informations système à partir de l'hôte. Vous pouvez afficher les détails suivants de l'hôte dans l'interface graphique d' Instana, dans le volet Système :
| Paramètre | Description |
|---|---|
| OS | Les détails du système d'exploitation, la version du noyau et l'architecture. |
| UC | Les détails du processeur et le nombre. |
| GPU | Les caractéristiques techniques du GPU, notamment le modèle et la fréquence d'horloge. |
| Mémoire | Quantité de mémoire système disponible dans l' GiB s (gigaoctets). |
| Nom d'hôte | Le nom d'hôte de la machine hôte. |
| Nom de domaine complet | Nom de domaine complet. Il s'agit du nom de domaine complet de l'hôte, y compris le sous-domaine et le domaine de premier niveau. |
| ID de machine | Identifiant unique de l'hôte généré lors de l'installation de la distribution hôte. |
| ID hôte | L'adresse MAC de l'interface réseau de l'hôte, qui est un identifiant unique pour la carte réseau. |
| Démarrage | L'heure à laquelle la machine hôte a démarré. |
d'interfaces
Vous trouverez les informations suivantes :
- Interfaces : liste des interfaces réseau et des adresses IP.
- Instana agent : L'agent d' Instana s pour l'hôte.
- Processus : nombre et détails des processus en cours d'exécution sur l'hôte.
Statut de rapport
La disponibilité historique d'un hôte Windows est indiquée dans le graphique Reporting Status (État des rapports) du tableau de bord de l'hôte Windows. Vous pouvez voir trois indicateurs de couleur qui identifient l'état d'un hôte signalant à Instana.
| Statut | Description | Indicateur de couleur |
|---|---|---|
| Génération de rapports | L'hôte a signalé à Instana sans aucune interruption. | Vert |
| Rapports - suivi des problèmes | L'hôte a signalé à Instana quelques interruptions (telles que des interruptions réseau ou des problèmes de surveillance des agents) et n'était pas entièrement disponible. | Orange |
| N'envoie pas de rapport | L'hôte n'a pas envoyé de rapport à Instana pendant toute cette période. | Rouge |
La métrique utilisée pour afficher ces données sur le tableau de bord de l'hôte est basée sur l'agrégation des messages reçus de l'agent surveillant l'hôte. Un hôte est classé comme « Reporting » si Instana reçoit au moins 98 % des messages attendus dans un délai donné.
Par exemple, si la fenêtre temporelle d'agrégation des métriques est de 5 minutes et que la fréquence d'interrogation de l'hôte est d'une fois par seconde, Instana s'attend à recevoir 300 messages de l'hôte pendant cette période.
- Si au moins 294 messages sont reçus (98 % de 300), le statut de l'hôte est affiché comme Reporting.
- Si moins de 294 messages mais plus de 0 messages sont reçus, l'état de l'hôte s'affiche comme suit : Rapport – Problèmes de surveillance.
- Si aucun message n'est reçu, l'état de l'hôte est affiché comme « Ne rapporte pas ».
Métriques de performance
Les indicateurs de performance suivants sont affichés pour l'hôte.
Utilisation du processeur - pourcentage
Les valeurs d'utilisation du processeur, lorsqu'elles sont combinées, fournissent une vue détaillée de la manière dont les ressources du processeur sont utilisées sur un hôte.
| Métrique | Description | Granularité |
|---|---|---|
| Utilisation de l'UC | Utilisation totale du processeur en pourcentage pour la période que vous avez définie. | 1 seconde |
Utilisation de la mémoire
| Métrique | Description | Granularité |
|---|---|---|
| Utilisation de la mémoire | Utilisation totale de la mémoire en pourcentage | 1 seconde |
Utilisation du processeur - total
| Métrique | Description | Granularité |
|---|---|---|
| Utilisateur | Quantité de temps CPU consacrée à l'exécution des processus de l'espace utilisateur (applications et services). | 1 seconde |
| Système | Quantité de temps CPU consacrée à l'exécution des processus de l'espace noyau (fonctions principales du système d'exploitation). | 1 seconde |
| Wait | Temps CPU passé à attendre la fin des opérations d'entrée/sortie. | 1 seconde |
| Priorité modérée | Quantité de temps CPU consacrée à l'exécution de processus ayant une priorité inférieure (valeur nice). | 1 seconde |
| Vol | Le temps CPU perdu en raison de la gestion par l'hyperviseur d'autres machines virtuelles ou conteneurs sur le même hôte physique. | 1 seconde |
Utilisation de l'UC individuelle
La CPU usage métrique affiche les métriques suivantes en pourcentage sur un graphique pour une période sélectionnée pour chaque CPU :
| Métrique | Description | Granularité |
|---|---|---|
| Utilisateur | Quantité de temps CPU consacrée à l'exécution des processus de l'espace utilisateur (applications et services). | 1 seconde |
| Système | Quantité de temps CPU consacrée à l'exécution des processus de l'espace noyau (fonctions principales du système d'exploitation). | 1 seconde |
| Wait | Temps CPU passé à attendre la fin des opérations d'entrée/sortie. | 1 seconde |
| Priorité modérée | Quantité de temps CPU consacrée à l'exécution de processus ayant une priorité inférieure (valeur nice). | 1 seconde |
| Vol | Le temps CPU perdu en raison de la gestion par l'hyperviseur d'autres machines virtuelles ou conteneurs sur le même hôte physique. | 1 seconde |
Point de données : Filesystem
Utilisation d'un GPU individuel
Le tableau suivant présente les Individual GPU usage valeurs :
| Métrique | Description | Granularité | Unité |
|---|---|---|---|
| Utilisation du processeur graphique | Pourcentage d'utilisation du GPU | 1 seconde | % |
| Température | Température du GPU en degrés Celsius | 1 seconde | °C |
| Codeur | Utilisation de l'encodeur | 1 seconde | % |
| Décodeur | Utilisation du décodeur | 1 seconde | % |
| Mémoire utilisée | Utilisation de la mémoire | 1 seconde | % |
| Mémoire totale | Mémoire GPU totale | 1 seconde | octets |
| Débit transmis | Débit de données transmis | 1 seconde | octets/s |
| Débit reçu | Débit de données reçues | 1 seconde | octets/s |
La métrique est collectée à partir de nvidia-smi. Le tableau suivant présente les versions prises en charge des cartes graphiques Nvidia :
| Marque | Modèle |
|---|---|
| Tesla | S1070, S2050, C1060, C2050/70, M2050/70/90, X2070/90, K10, K20, K20X, K40, K80, M40, P40, P100, V100 |
| Quadro | 4000, 5000, 6000, 7000, M2070-Q, K-series, M-series, P-series, RTX-series |
| GeForce | plusieurs niveaux de prise en charge, avec moins de métriques disponibles par rapport aux produits Tesla et Quadro |
Prérequis
Vous devez installer les derniers pilotes officiels Nvidia.
Pour plus d'informations sur le démarrage d'un conteneur Docker pour l'agent Instana avec prise en charge GPU, consultez Activer la surveillance GPU via le conteneur de l'agent Instana.
La collecte des données relatives aux métriques GPU est soigneusement conçue pour avoir un impact minimal, en séparant le sondage et l'interrogation en deux processus à l'aide de nvidia-smi. Le processus d'arrière-plan est lancé en mode boucle et conservé en mémoire. Ce processus améliore considérablement les performances de la collecte des métriques et évite toute surcharge potentielle.
Le capteur interroge les métriques GPU en fonction du taux d'interrogation configuré (toutes les secondes par défaut). Cette solution permet au capteur de collecter chaque seconde des mesures précises et actualisées pour plusieurs GPU sans surcharge.
Mémoire/Processus GPU
La liste suivante répertorie les processus qui utilisent le GPU :
| Point de données | Collecté à partir de | Granularité |
|---|---|---|
Process Name |
nvidia-smi |
1 seconde |
PID |
nvidia-smi |
1 seconde |
GPU |
nvidia-smi |
1 seconde |
Memory |
nvidia-smi |
1 seconde |
Le tableau suivant présente les versions prises en charge des cartes graphiques Nvidia pour la mémoire GPU :
| Marque | Modèle |
|---|---|
| Tesla | S1070, S2050, C1060, C2050/70, M2050/70/90, X2070/90, K10, K20, K20X, K40, K80, M40, P40, P100, V100 |
| Quadro | 4000, 5000, 6000, 7000, M2070-Q, K-series, M-series, P-series, RTX-series |
| GeForce | plusieurs niveaux de prise en charge, avec moins de métriques disponibles par rapport aux produits Tesla et Quadro |
Mémoire
Le tableau suivant présente les unités de mesure de la mémoire :
| Métrique | Unité | Description | Granularité |
|---|---|---|---|
| Utilisé | Pourcentage | Quantité de mémoire utilisée | 1 seconde |
Les valeurs sont affichées sur un graphique pour une période sélectionnée.
Point de données : Filesystem
Système de fichiers
Ces indicateurs fournissent des informations sur les performances, la capacité et l'utilisation du système de fichiers, permettant ainsi aux administrateurs de surveiller et d'optimiser efficacement leurs systèmes de stockage.
| Métrique | Description | Granularité |
|---|---|---|
| Appareil | Nom du périphérique. | 60 secondes |
| Options | Les options ou paramètres utilisés lors du montage du système de fichiers. | 60 secondes |
| Libre | Quantité d'espace libre disponible sur le système de fichiers. | 1 seconde |
| Fuité | Espace qui a été alloué mais qui n'a pas été utilisé, considéré comme « perdu » ou gaspillé. | 1 seconde |
| Type | Le type de système de fichiers. | 60 secondes |
| Capacité | Capacité totale du système de fichiers. | 60 secondes |
| Utilisé | Quantité d'espace utilisé sur le système de fichiers. | 1 seconde |
| Lectures/s | Le nombre d'opérations de lecture par seconde. | 1 seconde |
| Ecritures/s | Le nombre d'opérations d'écriture par seconde. | 1 seconde |
| Octets lus/s | Nombre d'octets lus par seconde. | 1 seconde |
| Octets écrits/s | Nombre d'octets écrits par seconde. | 1 seconde |
Point de données : Filesystem
* Les métriques relatives à l'utilisation totale, en lecture et en écriture affichent l'utilisation des E/S disque sous forme de pourcentage.
* Leaked (fait référence aux fichiers supprimés qui sont en cours d'utilisation et équivaut à capacity - used - free. Vous pouvez trouver ces fichiers avec lsof | grep deleted).
Par défaut, Instana surveille uniquement les systèmes de fichiers locaux. Vous pouvez répertorier les systèmes de fichiers surveillés ou exclus dans le configuration.yaml fichier.
Le nom du paramètre de configuration correspond au nom de l'appareil, que vous pouvez trouver dans la sortie de la commande Get-PSDrive -PSProvider FileSystem.
L'exemple suivant montre la liste des systèmes de fichiers surveillés :
com.instana.plugin.host:
filesystems:
- 'C'
- 'D'
L'exemple suivant montre les systèmes de fichiers qui sont inclus ou exclus :
com.instana.plugin.host:
filesystems:
include:
- 'C'
- 'D'
exclude:
- 'E'
Interfaces réseau
Le tableau suivant présente le trafic réseau et les erreurs par interface.
| Métrique | Description | Granularité |
|---|---|---|
| Interface | L'interface réseau utilisée pour la communication. | 60 secondes |
| Mac | Adresse MAC (Media Access Control) de l'interface réseau. | 60 secondes |
| Adresses IP | Les adresses IP attribuées à l'interface réseau. | 60 secondes |
| Octets RX | Nombre total d'octets reçus par l'interface réseau par seconde. | 1 seconde |
| Erreurs RX | Pourcentage d'erreurs rencontrées lors de la réception de données sur l'interface réseau. | 1 seconde |
| Octets TX | Nombre total d'octets transmis par l'interface réseau par seconde. | 1 seconde |
| Erreurs TX | Pourcentage d'erreurs rencontrées lors de la transmission de données sur l'interface réseau. | 1 seconde |
| Reçu/s | Nombre de paquets reçus par l'interface réseau par seconde. | 1 seconde |
| Transmis/s | Nombre de paquets transmis par l'interface réseau par seconde. | 1 seconde |
Point de données : Filesystem
Activité TCP
Ces indicateurs fournissent des informations sur l'activité de connexion d' TCP, notamment les connexions établies, les taux de transmission par segment et les occurrences d'erreurs.
| Métrique | Description | Granularité |
|---|---|---|
| Établi | Nombre de connexions établies à l'adresse TCP. | 1 seconde |
| Ouverture/s | Le nombre de nouvelles connexions TCP ouvertes par seconde. | 1 seconde |
| Segments entrants/s | Nombre de segments d' TCP s entrants par seconde. | 1 seconde |
| Segments sortants/s | Nombre de segments d' TCP s sortants par seconde. | 1 seconde |
| Réinitialisations établies | Pourcentage de connexions établies TCP qui ont été réinitialisées par seconde. | 1 seconde |
| Réinitialisations en sortie | Pourcentage de connexions sortantes TCP qui ont été réinitialisées par seconde. | 1 seconde |
| Échec | Pourcentage de tentatives de connexion à l' TCP qui ont échoué par seconde. | 1 seconde |
| Erreur | Pourcentage d'erreurs d' TCP s par seconde. | 1 seconde |
| Retransmission | Pourcentage de retransmissions d' TCP s par seconde. | 1 seconde |
Point de données : Filesystem
Windows liste des services
Windows Les services ne sont pas surveillés par défaut. Cette fonctionnalité n'est activée que si winServiceRegex est spécifié dans le fichier de configuration.yaml l'agent hôte. Il winServiceRegex s'agit d'une expression régulière utilisée pour surveiller les services dont le nom de service ou le nom d'affichage correspond à l'expression régulière. Par exemple, winServiceRegex: '(Sensor|Device)' surveille tous les services dont le nom de service ou le Device nom d'affichage comprend Sensor ou.
| Métrique | Description | Granularité |
|---|---|---|
| Nom du service | Nom du service | 60 secondes |
| Nom d'affichage | Afficher le nom | 60 secondes |
| PID | ID du processus | 60 secondes |
| Etat | Etat du service | 60 secondes |
Les mesures sont collectées à partir de Windows sc queryex.
Liste des premiers processus
Ces indicateurs fournissent des informations sur les processus en cours d'exécution, notamment leur ID, leur nom, leur utilisation du processeur, leur utilisation normalisée du processeur et leur consommation de mémoire. La liste des processus les plus importants est mise à jour toutes les 30 secondes et ne contient que les processus qui utilisent le système. Par exemple, les processus ayant utilisé plus de 10 % du CPU au cours des 30 dernières secondes ou ceux ayant utilisé plus de 512 Mo de mémoire (RSS) sont affichés dans la liste des processus les plus importants.
Linuxtop la sémantique est utilisée. 100 % CPU signifie utilisation complète d'un seul cœur de processeur. Vous pouvez rechercher l'historique des instantanés du mois précédent. Le CPU normalisé est calculé en divisant le CPU par le nombre de processeurs logiques.
| Métrique | Description | Granularité |
|---|---|---|
| PID | Identifiant unique attribué à chaque processus par le système d'exploitation. | 30 secondes |
| Nom de processus | Nom du processus tel que défini par l'application ou le service. | 30 secondes |
| UC | La quantité de ressources CPU consommées par le processus. | 30 secondes |
| UC (normalisée) | Utilisation du processeur par le processus, normalisée à une échelle. | 30 secondes |
| Mémoire | La quantité de mémoire consommée par le processus. | 30 secondes |
Point de données : Filesystem
Signatures d'intégrité
Pour chaque capteur, une base de connaissances des signatures de santé est évaluée en continu par rapport aux mesures entrantes. Ils sont utilisés pour signaler des problèmes ou des incidents en fonction de leur impact sur les utilisateurs.
Les événements intégrés déclenchent des problèmes ou des incidents en fonction de signatures de santé défaillantes sur des entités, tandis que les événements personnalisés déclenchent des problèmes ou des incidents en fonction des seuils d'une métrique spécifique d'une entité.
Pour plus d'informations sur les événements intégrés pour le capteur hôte, consultez la référence sur les événements intégrés.