Surveillance d'un hôte d' Windows

Modifier en ligne

Vous pouvez surveiller votre hôte Windows avec Instana. Instana fournit des informations complètes sur les performances, l'état et l'utilisation des ressources de l'hôte de l' Windows, permettant ainsi un dépannage efficace, une optimisation des performances et une détection proactive des problèmes.

Informations système
INTERFACES
Statut de rapport
Métriques de performance
Signatures d'intégrité

Informations système

Modifier en ligne

Instana récupère diverses informations système à partir de l'hôte. Vous pouvez afficher les détails suivants de l'hôte dans l'interface graphique d' Instana, dans le volet Système :


Paramètre	Description
OS	Les détails du système d'exploitation, la version du noyau et l'architecture.
UC	Les détails du processeur et le nombre.
GPU	Les caractéristiques techniques du GPU, notamment le modèle et la fréquence d'horloge.
Mémoire	Quantité de mémoire système disponible dans l' GiB s (gigaoctets).
Nom d'hôte	Le nom d'hôte de la machine hôte.
Nom de domaine complet	Nom de domaine complet. Il s'agit du nom de domaine complet de l'hôte, y compris le sous-domaine et le domaine de premier niveau.
ID de machine	Identifiant unique de l'hôte généré lors de l'installation de la distribution hôte.
ID hôte	L'adresse MAC de l'interface réseau de l'hôte, qui est un identifiant unique pour la carte réseau.
Démarrage	L'heure à laquelle la machine hôte a démarré.

d'interfaces

Modifier en ligne

Vous trouverez les informations suivantes :

Interfaces : liste des interfaces réseau et des adresses IP.
Instana agent : L'agent d' Instana s pour l'hôte.
Processus : nombre et détails des processus en cours d'exécution sur l'hôte.

Statut de rapport

Modifier en ligne

La disponibilité historique d'un hôte Windows est indiquée dans le graphique Reporting Status (État des rapports) du tableau de bord de l'hôte Windows. Vous pouvez voir trois indicateurs de couleur qui identifient l'état d'un hôte signalant à Instana.


Statut	Description	Indicateur de couleur
Génération de rapports	L'hôte a signalé à Instana sans aucune interruption.	Vert
Rapports - suivi des problèmes	L'hôte a signalé à Instana quelques interruptions (telles que des interruptions réseau ou des problèmes de surveillance des agents) et n'était pas entièrement disponible.	Orange
N'envoie pas de rapport	L'hôte n'a pas envoyé de rapport à Instana pendant toute cette période.	Rouge

La métrique utilisée pour afficher ces données sur le tableau de bord de l'hôte est basée sur l'agrégation des messages reçus de l'agent surveillant l'hôte. Un hôte est classé comme « Reporting » si Instana reçoit au moins 98 % des messages attendus dans un délai donné.

Par exemple, si la fenêtre temporelle d'agrégation des métriques est de 5 minutes et que la fréquence d'interrogation de l'hôte est d'une fois par seconde, Instana s'attend à recevoir 300 messages de l'hôte pendant cette période.

Si au moins 294 messages sont reçus (98 % de 300), le statut de l'hôte est affiché comme Reporting.
Si moins de 294 messages mais plus de 0 messages sont reçus, l'état de l'hôte s'affiche comme suit : Rapport – Problèmes de surveillance.
Si aucun message n'est reçu, l'état de l'hôte est affiché comme « Ne rapporte pas ».

Métriques de performance

Modifier en ligne

Les indicateurs de performance suivants sont affichés pour l'hôte.

Utilisation du processeur - pourcentage

Modifier en ligne

Les valeurs d'utilisation du processeur, lorsqu'elles sont combinées, fournissent une vue détaillée de la manière dont les ressources du processeur sont utilisées sur un hôte.


Métrique	Description	Granularité
Utilisation de l'UC	Utilisation totale du processeur en pourcentage pour la période que vous avez définie.	1 seconde

Utilisation de la mémoire

Modifier en ligne


Métrique	Description	Granularité
Utilisation de la mémoire	Utilisation totale de la mémoire en pourcentage	1 seconde

Utilisation du processeur - total

Modifier en ligne


Métrique	Description	Granularité
Utilisateur	Quantité de temps CPU consacrée à l'exécution des processus de l'espace utilisateur (applications et services).	1 seconde
Système	Quantité de temps CPU consacrée à l'exécution des processus de l'espace noyau (fonctions principales du système d'exploitation).	1 seconde
Wait	Temps CPU passé à attendre la fin des opérations d'entrée/sortie.	1 seconde
Priorité modérée	Quantité de temps CPU consacrée à l'exécution de processus ayant une priorité inférieure (valeur nice).	1 seconde
Vol	Le temps CPU perdu en raison de la gestion par l'hyperviseur d'autres machines virtuelles ou conteneurs sur le même hôte physique.	1 seconde

Utilisation de l'UC individuelle

Modifier en ligne

La CPU usage métrique affiche les métriques suivantes en pourcentage sur un graphique pour une période sélectionnée pour chaque CPU :


Métrique	Description	Granularité
Utilisateur	Quantité de temps CPU consacrée à l'exécution des processus de l'espace utilisateur (applications et services).	1 seconde
Système	Quantité de temps CPU consacrée à l'exécution des processus de l'espace noyau (fonctions principales du système d'exploitation).	1 seconde
Wait	Temps CPU passé à attendre la fin des opérations d'entrée/sortie.	1 seconde
Priorité modérée	Quantité de temps CPU consacrée à l'exécution de processus ayant une priorité inférieure (valeur nice).	1 seconde
Vol	Le temps CPU perdu en raison de la gestion par l'hyperviseur d'autres machines virtuelles ou conteneurs sur le même hôte physique.	1 seconde

Point de données : Filesystem

Utilisation d'un GPU individuel

Modifier en ligne

Le tableau suivant présente les Individual GPU usage valeurs :


Métrique	Description	Granularité	Unité
Utilisation du processeur graphique	Pourcentage d'utilisation du GPU	1 seconde	%
Température	Température du GPU en degrés Celsius	1 seconde	°C
Codeur	Utilisation de l'encodeur	1 seconde	%
Décodeur	Utilisation du décodeur	1 seconde	%
Mémoire utilisée	Utilisation de la mémoire	1 seconde	%
Mémoire totale	Mémoire GPU totale	1 seconde	octets
Débit transmis	Débit de données transmis	1 seconde	octets/s
Débit reçu	Débit de données reçues	1 seconde	octets/s

La métrique est collectée à partir de nvidia-smi. Le tableau suivant présente les versions prises en charge des cartes graphiques Nvidia :


Marque	Modèle
Tesla	S1070, S2050, C1060, C2050/70, M2050/70/90, X2070/90, K10, K20, K20X, K40, K80, M40, P40, P100, V100
Quadro	4000, 5000, 6000, 7000, M2070-Q, K-series, M-series, P-series, RTX-series
GeForce	plusieurs niveaux de prise en charge, avec moins de métriques disponibles par rapport aux produits Tesla et Quadro

Prérequis

Modifier en ligne

Vous devez installer les derniers pilotes officiels Nvidia.

Pour plus d'informations sur le démarrage d'un conteneur Docker pour l'agent Instana avec prise en charge GPU, consultez Activer la surveillance GPU via le conteneur de l'agent Instana.

La collecte des données relatives aux métriques GPU est soigneusement conçue pour avoir un impact minimal, en séparant le sondage et l'interrogation en deux processus à l'aide de nvidia-smi. Le processus d'arrière-plan est lancé en mode boucle et conservé en mémoire. Ce processus améliore considérablement les performances de la collecte des métriques et évite toute surcharge potentielle.

Le capteur interroge les métriques GPU en fonction du taux d'interrogation configuré (toutes les secondes par défaut). Cette solution permet au capteur de collecter chaque seconde des mesures précises et actualisées pour plusieurs GPU sans surcharge.

Mémoire/Processus GPU

Modifier en ligne

La liste suivante répertorie les processus qui utilisent le GPU :


Point de données	Collecté à partir de	Granularité
`Process Name`	`nvidia-smi`	1 seconde
`PID`	`nvidia-smi`	1 seconde
`GPU`	`nvidia-smi`	1 seconde
`Memory`	`nvidia-smi`	1 seconde

Le tableau suivant présente les versions prises en charge des cartes graphiques Nvidia pour la mémoire GPU :


Marque	Modèle
Tesla	S1070, S2050, C1060, C2050/70, M2050/70/90, X2070/90, K10, K20, K20X, K40, K80, M40, P40, P100, V100
Quadro	4000, 5000, 6000, 7000, M2070-Q, K-series, M-series, P-series, RTX-series
GeForce	plusieurs niveaux de prise en charge, avec moins de métriques disponibles par rapport aux produits Tesla et Quadro

Mémoire

Modifier en ligne

Le tableau suivant présente les unités de mesure de la mémoire :


Métrique	Unité	Description	Granularité
Utilisé	Pourcentage	Quantité de mémoire utilisée	1 seconde

Les valeurs sont affichées sur un graphique pour une période sélectionnée.

Point de données : Filesystem

Système de fichiers

Modifier en ligne

Ces indicateurs fournissent des informations sur les performances, la capacité et l'utilisation du système de fichiers, permettant ainsi aux administrateurs de surveiller et d'optimiser efficacement leurs systèmes de stockage.


Métrique	Description	Granularité
Appareil	Nom du périphérique.	60 secondes
Options	Les options ou paramètres utilisés lors du montage du système de fichiers.	60 secondes
Libre	Quantité d'espace libre disponible sur le système de fichiers.	1 seconde
Fuité	Espace qui a été alloué mais qui n'a pas été utilisé, considéré comme « perdu » ou gaspillé.	1 seconde
Type	Le type de système de fichiers.	60 secondes
Capacité	Capacité totale du système de fichiers.	60 secondes
Utilisé	Quantité d'espace utilisé sur le système de fichiers.	1 seconde
Lectures/s	Le nombre d'opérations de lecture par seconde.	1 seconde
Ecritures/s	Le nombre d'opérations d'écriture par seconde.	1 seconde
Octets lus/s	Nombre d'octets lus par seconde.	1 seconde
Octets écrits/s	Nombre d'octets écrits par seconde.	1 seconde

Point de données : Filesystem

* Les métriques relatives à l'utilisation totale, en lecture et en écriture affichent l'utilisation des E/S disque sous forme de pourcentage.

* Leaked (fait référence aux fichiers supprimés qui sont en cours d'utilisation et équivaut à capacity - used - free. Vous pouvez trouver ces fichiers avec lsof | grep deleted).

Par défaut, Instana surveille uniquement les systèmes de fichiers locaux. Vous pouvez répertorier les systèmes de fichiers surveillés ou exclus dans le configuration.yaml fichier.

Le nom du paramètre de configuration correspond au nom de l'appareil, que vous pouvez trouver dans la sortie de la commande Get-PSDrive -PSProvider FileSystem.

L'exemple suivant montre la liste des systèmes de fichiers surveillés :

com.instana.plugin.host:
  filesystems:
    - 'C'
    - 'D'

L'exemple suivant montre les systèmes de fichiers qui sont inclus ou exclus :

com.instana.plugin.host:
  filesystems:
    include:
      - 'C'
      - 'D'
    exclude:
      - 'E'

Interfaces réseau

Modifier en ligne

Le tableau suivant présente le trafic réseau et les erreurs par interface.


Métrique	Description	Granularité
Interface	L'interface réseau utilisée pour la communication.	60 secondes
Mac	Adresse MAC (Media Access Control) de l'interface réseau.	60 secondes
Adresses IP	Les adresses IP attribuées à l'interface réseau.	60 secondes
Octets RX	Nombre total d'octets reçus par l'interface réseau par seconde.	1 seconde
Erreurs RX	Pourcentage d'erreurs rencontrées lors de la réception de données sur l'interface réseau.	1 seconde
Octets TX	Nombre total d'octets transmis par l'interface réseau par seconde.	1 seconde
Erreurs TX	Pourcentage d'erreurs rencontrées lors de la transmission de données sur l'interface réseau.	1 seconde
Reçu/s	Nombre de paquets reçus par l'interface réseau par seconde.	1 seconde
Transmis/s	Nombre de paquets transmis par l'interface réseau par seconde.	1 seconde

Point de données : Filesystem

Activité TCP

Modifier en ligne

Ces indicateurs fournissent des informations sur l'activité de connexion d' TCP, notamment les connexions établies, les taux de transmission par segment et les occurrences d'erreurs.


Métrique	Description	Granularité
Établi	Nombre de connexions établies à l'adresse TCP.	1 seconde
Ouverture/s	Le nombre de nouvelles connexions TCP ouvertes par seconde.	1 seconde
Segments entrants/s	Nombre de segments d' TCP s entrants par seconde.	1 seconde
Segments sortants/s	Nombre de segments d' TCP s sortants par seconde.	1 seconde
Réinitialisations établies	Pourcentage de connexions établies TCP qui ont été réinitialisées par seconde.	1 seconde
Réinitialisations en sortie	Pourcentage de connexions sortantes TCP qui ont été réinitialisées par seconde.	1 seconde
Échec	Pourcentage de tentatives de connexion à l' TCP qui ont échoué par seconde.	1 seconde
Erreur	Pourcentage d'erreurs d' TCP s par seconde.	1 seconde
Retransmission	Pourcentage de retransmissions d' TCP s par seconde.	1 seconde

Point de données : Filesystem

Windows liste des services

Modifier en ligne

Windows Les services ne sont pas surveillés par défaut. Cette fonctionnalité n'est activée que si winServiceRegex est spécifié dans le fichier de configuration.yaml l'agent hôte. Il winServiceRegex s'agit d'une expression régulière utilisée pour surveiller les services dont le nom de service ou le nom d'affichage correspond à l'expression régulière. Par exemple, winServiceRegex: '(Sensor|Device)' surveille tous les services dont le nom de service ou le Device nom d'affichage comprend Sensor ou.


Métrique	Description	Granularité
Nom du service	Nom du service	60 secondes
Nom d'affichage	Afficher le nom	60 secondes
PID	ID du processus	60 secondes
Etat	Etat du service	60 secondes

Les mesures sont collectées à partir de Windows sc queryex.

Liste des premiers processus

Modifier en ligne

Ces indicateurs fournissent des informations sur les processus en cours d'exécution, notamment leur ID, leur nom, leur utilisation du processeur, leur utilisation normalisée du processeur et leur consommation de mémoire. La liste des processus les plus importants est mise à jour toutes les 30 secondes et ne contient que les processus qui utilisent le système. Par exemple, les processus ayant utilisé plus de 10 % du CPU au cours des 30 dernières secondes ou ceux ayant utilisé plus de 512 Mo de mémoire (RSS) sont affichés dans la liste des processus les plus importants.

Linuxtop la sémantique est utilisée. 100 % CPU signifie utilisation complète d'un seul cœur de processeur. Vous pouvez rechercher l'historique des instantanés du mois précédent. Le CPU normalisé est calculé en divisant le CPU par le nombre de processeurs logiques.


Métrique	Description	Granularité
PID	Identifiant unique attribué à chaque processus par le système d'exploitation.	30 secondes
Nom de processus	Nom du processus tel que défini par l'application ou le service.	30 secondes
UC	La quantité de ressources CPU consommées par le processus.	30 secondes
UC (normalisée)	Utilisation du processeur par le processus, normalisée à une échelle.	30 secondes
Mémoire	La quantité de mémoire consommée par le processus.	30 secondes

Point de données : Filesystem

Signatures d'intégrité

Modifier en ligne

Pour chaque capteur, une base de connaissances des signatures de santé est évaluée en continu par rapport aux mesures entrantes. Ils sont utilisés pour signaler des problèmes ou des incidents en fonction de leur impact sur les utilisateurs.

Les événements intégrés déclenchent des problèmes ou des incidents en fonction de signatures de santé défaillantes sur des entités, tandis que les événements personnalisés déclenchent des problèmes ou des incidents en fonction des seuils d'une métrique spécifique d'une entité.

Pour plus d'informations sur les événements intégrés pour le capteur hôte, consultez la référence sur les événements intégrés.