Surveillance d'un hôte d' AIX

Modifier en ligne

Vous pouvez surveiller votre hôte avec Instana. Instana fournit des informations complètes sur les performances, l'état et l'utilisation des ressources de l'hôte, ce qui permet un dépannage efficace, une optimisation des performances et une détection proactive des problèmes.

Important : Instana SaaS 1.0.314 (23 février 2026), Self Hosted 1.0.315 (9 mars 2026) et Host sensor 1.1.227 apportent des améliorations significatives à la surveillance des hôtes AIX. Pour garantir une visualisation correcte des données et éviter toute donnée manquante ou incohérente, mettez à jour l'agent Instana et le backend Instana vers la dernière version. Pour obtenir des instructions sur la mise à jour de l'agent hôte, consultez la section Mise à jour de l'agent hôte. Si les indicateurs n'apparaissent toujours pas dans l'interface utilisateur d' Instana après la mise à jour, redémarrez l'agent et patientez 10 à 15 minutes, en fonction de la bande passante du réseau. Pour obtenir un aperçu complet des modifications apportées dans cette version, consultez les notes de mise à jour du capteur hôte. Pour plus d'informations sur les problèmes courants et leurs solutions, consultez la section Dépannage.

Informations système
INTERFACES
Statut de rapport
Métriques de performance
Signatures d'intégrité
Signaler des erreurs
Traitement des incidents

Informations système

Modifier en ligne

Instana collecte des informations système complètes à partir de votre hôte AIX. Consultez ces informations dans le volet Système du tableau de bord d' Instana :

Paramètre	Description
OS	Informations sur le système d'exploitation avec la version du noyau et l'architecture du système.
UC	Unités de traitement logiques disponibles pour le système.
Mémoire	Quantité de mémoire système en gibioctets ( GiB ).
Nom d'hôte	Nom d'hôte de la machine AIX.
Nom de domaine complet	Nom de domaine complet. Il s'agit du nom de domaine complet de l'hôte, y compris le sous-domaine et le domaine de premier niveau.
ID de système	Identifiant unique utilisé par Instana pour gérer l'hôte surveillé et établir une corrélation avec les systèmes de gestion des actifs.
ID hôte	L'adresse MAC de l'interface réseau de l'hôte, qui est un identifiant unique pour la carte réseau.
Marque du matériel	Nom du fabricant du matériel.
Modèle matériel	Nom du modèle du matériel.
Numéro de série de la machine	Numéro de série de la machine.
Processeurs virtuels	Nombre d'unités d'exécution CPU logiques attribuées à une LPAR par le Power Hypervisor sur lequel le système d'exploitation AIX planifie le travail. Cette valeur représente les processeurs équivalents au cœur et exclut les threads SMT.
Démarré à	Heure à laquelle le système a démarré.

L'identifiant système est utilisé pour la corrélation avec les systèmes de gestion des actifs. Activez la collecte des identifiants système en configurant le fichier d' YAML s de l'agent comme indiqué dans l'exemple suivant :

"com.instana.plugin.host": 
  "collectSystemId": true

d'interfaces

Modifier en ligne

Vous trouverez les informations suivantes :

Interfaces : liste des interfaces réseau et des adresses IP.
Instana agent : L'agent d' Instana s pour l'hôte.
Processus : nombre et détails des processus en cours d'exécution sur l'hôte.

Statut de rapport

Modifier en ligne

La disponibilité historique d'un hôte AIX est indiquée dans le graphique Reporting Status (État des rapports) du tableau de bord de l'hôte AIX. Vous pouvez voir trois indicateurs de couleur qui identifient l'état d'un hôte signalant à Instana.

Statut	Description	Indicateur de couleur
Génération de rapports	L'hôte a signalé à Instana sans aucune interruption.	Vert
Rapports - suivi des problèmes	L'hôte a signalé à Instana quelques interruptions (telles que des interruptions réseau ou des problèmes de surveillance des agents) et n'est pas entièrement disponible.	Orange
N'envoie pas de rapport	L'hôte n'a pas envoyé de rapport à Instana pendant toute cette période.	Rouge

La métrique utilisée pour afficher ces données sur le tableau de bord de l'hôte est basée sur l'agrégation des messages reçus de l'agent surveillant l'hôte. Un hôte est classé comme « Reporting » si Instana a reçu au moins 98 % des messages attendus dans un délai donné.

Par exemple, si la fenêtre temporelle d'agrégation des métriques est de 5 minutes et que la fréquence d'interrogation de l'hôte est d'une fois par seconde, Instana s'attend à recevoir 300 messages de l'hôte pendant cette période.

Si au moins 294 messages sont reçus (98 % de 300), le statut de l'hôte est affiché comme Reporting.
Si moins de 294 messages mais plus de 0 messages sont reçus, l'état de l'hôte s'affiche comme suit : Rapport – Problèmes de surveillance.
Si aucun message n'est reçu, l'état de l'hôte est affiché comme « Ne rapporte pas ».

Métriques de performance

Modifier en ligne

Instana surveille et affiche un ensemble complet de mesures de performances pour les hôtes d' AIX. Ces indicateurs fournissent des informations détaillées sur l'utilisation des ressources système, notamment les modèles d'utilisation du processeur, l'allocation de mémoire, les opérations d'E/S disque, l'activité de l'interface réseau et le comportement des processus, ce qui permet une analyse efficace des performances et un dépannage efficace.

Utilisation du processeur : globale

Modifier en ligne

Cette section indique le pourcentage d'utilisation totale du processeur sur tous les processeurs, représentant l'utilisation combinée de toutes les ressources du processeur sur l'hôte. Cet indicateur agrégé vous aide à évaluer rapidement la charge globale du système et à identifier les périodes de forte demande CPU.

Pour collecter des informations plus précises sur l'utilisation du processeur dans un environnement LPAR d' AIX, vous devez définir `useMpstat` sur true dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml) comme indiqué dans l'exemple suivant :

com.instana.plugin.host:
  useMpstat: true

Métrique	Description	Granularité
Utilisation de l'UC	Utilisation totale du processeur en pourcentage pour la période que vous avez définie.	1 seconde

Utilisation de la mémoire : globale

Modifier en ligne

Cette section affiche le pourcentage global d'utilisation de la mémoire pour l'hôte AIX, représentant la quantité totale de mémoire physique actuellement utilisée. Cet indicateur fournit un aperçu rapide de la consommation de mémoire et aide à identifier les pressions potentielles sur la mémoire du système.

Métrique	Description	Granularité
Utilisation de la mémoire	Utilisation totale de la mémoire en pourcentage pour la période que vous avez définie.	1 seconde

Remarque : dans les environnements LPAR d' AIX, la used valeur de la mémoire est calculée comme suit : (computational + non-computational) ÷ real total. Ce calcul inclut à la fois la mémoire informatique (utilisée activement par les applications et le système d'exploitation) et la mémoire non informatique (utilisée pour la mise en cache et d'autres fins récupérables). La composante non computationnelle représente souvent une grande partie de la mémoire utilisée, ce qui signifie qu'un pourcentage used élevé ne signifie pas nécessairement que la mémoire est insuffisante. Pour une surveillance efficace de la mémoire et une planification adéquate de la capacité sur AIX, le computational pourcentage de mémoire est plus informatif, car il indique la pression réelle sur la mémoire et aide à déterminer si le système est surchargé.

Charge CPU : Pic

Modifier en ligne

Cette section surveille la charge CPU maximale atteinte pendant la période sélectionnée, indiquant le niveau le plus élevé de demande CPU enregistré par le système. Les mesures de charge maximale sont essentielles pour la planification des capacités, car elles révèlent les limites supérieures d'utilisation du système et aident à identifier les périodes pendant lesquelles les ressources CPU peuvent être insuffisantes pour gérer les pics de charge de travail.

Métrique	Description	Granularité
Charger	Charge CPU maximale enregistrée pour la période sélectionnée, représentant le nombre maximal de processus prêts à s'exécuter ou en cours d'exécution sur le système.	1 seconde

File d'attente d'exécution moyenne (1h)

Modifier en ligne

Cette section surveille la profondeur moyenne de la file d'attente au cours de la dernière heure, en mesurant le nombre de processus en attente d'exécution par le processeur. La file d'attente d'exécution est un indicateur clé de la contention CPU : des valeurs élevées indiquent qu'un plus grand nombre de processus se disputent les ressources CPU, ce qui peut signaler la nécessité d'optimiser les performances ou d'augmenter la capacité CPU.

Métrique	Description	Granularité
File d'attente d'exécution moyenne (1h)	Nombre moyen de processus dans la file d'attente d'exécution au cours des 60 dernières minutes. Si l'agent est disponible pendant moins de 60 minutes, il affiche `Not collected`.	60 minutes

UC physique consommée

Modifier en ligne

La consommation physique du processeur représente la quantité réelle de capacité physique du processeur utilisée par une LPAR, mesurée en unités de processeur (cœurs), quel que soit le nombre de processeurs virtuels configurés.

Métrique	Description	Granularité
UC physique consommée	Nombre de processeurs physiques utilisés.	1 seconde

Sessions utilisateur

Modifier en ligne

Cette section surveille les sessions de connexion simultanées des utilisateurs sur l'hôte AIX, en suivant le nombre d'utilisateurs activement connectés au système. Cet indicateur aide les administrateurs à surveiller l'accès au système, à identifier les schémas de connexion inhabituels et à garantir la conformité avec les politiques de licence ou de sécurité.

Métrique	Description	Granularité
Sessions utilisateur	Nombre de sessions utilisateur connectées simultanément sur l'hôte.	1 minute

Utilisation du processeur : Total

Modifier en ligne

Cette section ventile l'utilisation totale du processeur en catégories spécifiques, indiquant comment le temps processeur est réparti entre les processus utilisateur, les opérations système, les états d'attente E/S et le temps d'inactivité.

Métrique	Description	Granularité
Utilisateur	Pourcentage du temps CPU consacré à l'exécution des processus de l'espace utilisateur, y compris les applications et les services lancés par l'utilisateur.	1 seconde
Système	Pourcentage du temps CPU consacré à l'exécution des opérations du noyau, y compris les appels système, les pilotes de périphériques et les fonctions essentielles du système d'exploitation.	1 seconde
Wait	Pourcentage du temps CPU passé à attendre la fin des opérations d'E/S, indiquant d'éventuels goulots d'étranglement au niveau du disque ou du réseau.	1 seconde
En veille	Pourcentage du temps CPU pendant lequel le processeur était inactif et n'attendait pas d'opérations d'E/S, indiquant la capacité CPU disponible.	1 seconde

Evénements de l'unité centrale

Modifier en ligne

Cette section surveille les événements système liés au processeur, en suivant les changements de contexte et les interruptions des périphériques qui ont un impact sur les performances du processeur et la réactivité du système.

Métrique	Description	Granularité
Changements de contexte	Nombre de fois où le processeur bascule entre les processus ou les threads. Des valeurs élevées peuvent indiquer un multitâche excessif ou un conflit de ressources.	1 seconde
Interruptions d'unité	Nombre de requêtes d'interruption matérielle provenant de périphériques qui nécessitent l'attention immédiate du processeur pour des opérations d'E/S.	1 seconde

Charge CPU : moyenne

Modifier en ligne

Cette section suit la charge moyenne du processeur au fil du temps, en mesurant le nombre de processus qui se disputent les ressources du processeur. Cet indicateur permet d'évaluer la charge de travail du système et d'identifier les périodes de forte demande ou de contention des ressources.

Métrique	Description	Granularité
Charge d'UC	Nombre moyen de processus exécutables ou en attente sur une période d'une minute, indiquant la charge de travail globale du système et la pression sur les ressources du processeur.	5 secondes

Utilisation du processeur physique

Modifier en ligne

Cette section surveille l'utilisation physique du processeur dans les LPAR d' AIX, en suivant la consommation physique réelle du processeur.

Métrique	Description	Granularité
UC physique consommée	Nombre de processeurs physiques utilisés.	1 seconde
Appels de l'hyperviseur	Pourcentage du temps processeur physique consacré aux appels hyperviseur. Cette option n'est disponible que pour les déploiements en tant qu'utilisateur root; dans le cas contraire, la valeur est `0`.	1 seconde
Cycles occupés détournés	Pourcentage d'utilisation physique du processeur qui se produit pendant que l'hyperviseur vole des cycles occupés.	1 seconde
Cycles d'inactivité détournés	Pourcentage d'utilisation physique du processeur qui se produit pendant que l'hyperviseur vole des cycles d'inactivité.	1 seconde

Par défaut, les mesures d'utilisation du processeur physique ne sont pas collectées. Pour activer la collecte, configurez le paramètre suivant dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectPhysicalProcessorUtil: true

Cet indicateur est également affiché dans le graphique chronologique Utilisation du processeur physique, qui permet d'analyser les tendances historiques.

Utilisation de l'UC individuelle

Modifier en ligne

Cette section affiche la répartition de l'utilisation du processeur pour chaque processeur individuel, indiquant comment le temps processeur est réparti entre les différents états d'exécution :

Métrique	Description	Granularité
Utilisateur	Pourcentage du temps CPU consacré à l'exécution des processus de l'espace utilisateur (applications et services).	1 seconde
Système	Pourcentage du temps CPU consacré à l'exécution des processus de l'espace noyau (fonctions essentielles du système d'exploitation).	1 seconde
Wait	Pourcentage du temps CPU passé à attendre la fin des opérations d'E/S.	1 seconde
En veille	Pourcentage du temps CPU pendant lequel le processeur était inactif.	1 seconde

Par défaut, les mesures individuelles d'utilisation du processeur ne sont pas collectées. Pour activer la collecte, configurez le paramètre suivant dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectIndividualCpuMetrics: true

Par défaut, les mesures individuelles d'utilisation du processeur sont désactivées afin d'optimiser les performances et de réduire la charge du système. Ces mesures fournissent des ventilations par processeur, mais peuvent avoir un impact sur les performances du système lors de la surveillance de systèmes comportant un grand nombre de processeurs logiques. Activez cette collecte uniquement si nécessaire.

Mémoire

Modifier en ligne

Cette section surveille les ressources mémoire sur l'hôte AIX, fournissant des mesures relatives à l'utilisation de la mémoire physique et virtuelle, à l'allocation de l'espace d'échange et à l'activité de pagination afin d'aider à évaluer la pression sur la mémoire et à optimiser les performances du système.

Métrique	Unité	Description	Granularité
Utilisé	%	Pourcentage de mémoire physique actuellement alloué, y compris la mémoire informatique et non informatique.	1 seconde
Informatique	%	Pourcentage de mémoire activement utilisé par les applications et le système d'exploitation pour traiter les tâches.	1 seconde
Non computationnel	%	Pourcentage de mémoire utilisé pour la mise en cache et d'autres fins récupérables qui peut être libéré si nécessaire.	1 seconde
Informatique	Octet	Quantité absolue de mémoire activement utilisée par les applications et le système d'exploitation.	1 seconde
Non computationnel	Octet	Quantité absolue de mémoire utilisée pour la mise en cache et d'autres fins récupérables.	1 seconde
Réel disponible	Octet	Quantité de mémoire physique disponible pour l'allocation sans nécessiter de pagination ou de permutation.	1 seconde
Seuil minimal de pages de fichier (minperm%)	%	Seuil minimal pour les pages de fichiers, en dessous duquel de la mémoire peut être libérée à la fois à partir des pages de fichiers et des pages de calcul.	10 minutes
Mémoire d'échange utilisée	%	Pourcentage d'espace d'échange actuellement utilisé, indiquant une pression sur la mémoire lorsqu'il est élevé.	1 seconde
Virtuel utilisé	%	Pourcentage de mémoire virtuelle (mémoire physique plus espace d'échange) actuellement alloué.	1 seconde
Mémoire totale d'échange	Octet	Quantité totale d'espace d'échange configurée sur le système.	1 seconde
Mémoire d'échange disponible	Octet	Quantité d'espace d'échange disponible pour utilisation.	1 seconde
Virtuel total	Octet	Capacité totale de mémoire virtuelle (mémoire physique plus espace d'échange).	1 seconde
Virtuel libre	Octet	Quantité de mémoire virtuelle disponible pour l'allocation.	1 seconde
Actif virtuel	Octet	Quantité de mémoire virtuelle activement utilisée par les processus en cours d'exécution.	1 seconde
Page d'accueil	Taux	Nombre de pages lues depuis le disque vers la mémoire physique, indiquant une demande en mémoire supérieure à la RAM disponible.	1 seconde
Sortie de page	Taux	Nombre de pages écrites depuis la mémoire physique vers le disque, indiquant la pression sur la mémoire et l'impact potentiel sur les performances.	1 seconde
Numérisation de page	Taux	Nombre de pages mémoire analysées par le système afin d'identifier les candidates à la récupération ou à l'échange.	1 seconde
Défauts de page	Taux	Nombre d'exceptions de défaut de page lorsque les processus accèdent à des pages mémoire qui ne se trouvent pas actuellement dans la mémoire RAM physique.	1 seconde
Récupération de pages	Taux	Nombre de pages mémoire récupérées à partir de la liste libre sans nécessiter d'E/S disque.	1 seconde

Toutes les mesures de mémoire sont visualisées dans le tableau de bord d' Instana sous forme de graphiques chronologiques, ce qui vous permet d'analyser les tendances et les corrélations entre les différents composants de mémoire sur la période sélectionnée.

Activité d'E-S

Modifier en ligne

Cette section surveille l'activité d'E/S du système, en suivant à la fois les opérations au niveau de l'application et les E/S physiques du disque.

Métrique	Description	Granularité
Lectures	Nombre d'appels système read et readv exécutés par les applications, représentant les requêtes de lecture de fichiers de haut niveau qui peuvent être satisfaites à partir du cache ou qui nécessitent un accès au disque.	1 seconde
Ecritures	Nombre d'appels système write et writev exécutés par les applications, représentant les requêtes d'écriture de fichiers de haut niveau qui sont initialement écrites dans le cache tampon.	1 seconde
Lectures de bloc	Nombre d'opérations de lecture de blocs physiques à partir de périphériques de disque pendant la période d'échantillonnage, indiquant les E/S de lecture de disque réelles qui ont contourné ou manqué le cache tampon.	1 seconde
Ecritures de bloc	Nombre d'opérations d'écriture de blocs physiques sur des périphériques de disque, y compris les écritures synchrones et asynchrones qui transfèrent les données du cache tampon vers un stockage persistant.	1 seconde
Lectures non bloquantes	Nombre d'opérations de lecture de blocs physiques, y compris les E/S synchrones et asynchrones, fournissant des informations sur les modèles d'activité de lecture totale du disque.	1 seconde
Écritures non bloquantes	Nombre d'opérations d'écriture d'E/S brutes qui contournent entièrement le cache tampon du système de fichiers, généralement utilisées pour les opérations d'E/S directes ou les opérations de base de données nécessitant des écritures immédiates.	1 seconde
Lectures de bloc logique	Nombre de lectures de blocs logiques satisfaites directement à partir du cache du tampon système sans accès physique au disque, indiquant une utilisation efficace du cache pour les opérations de lecture.	1 seconde
Ecritures de bloc logique	Nombre d'écritures de blocs logiques dans le cache tampon du système qui seront vidées de manière asynchrone sur le disque ultérieurement, ce qui permet d'évaluer l'efficacité de la mise en mémoire tampon des écritures.	1 seconde
Appels système	Le nombre total d'appels système effectués par l'ensemble des processus	1 seconde

Par défaut, la collecte de ces métriques est activée. Pour désactiver la collecte, configurez le paramètre suivant dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectIOActivity: false

Statistiques de processus

Modifier en ligne

Cette section surveille l'activité des processus et des threads, en suivant les états des processus, les modèles d'exécution et l'activité des appels système afin d'aider à évaluer la répartition de la charge de travail et à identifier les problèmes de planification.

Métrique	Description	Granularité
Nombre total de processus	Nombre total de processus actuellement présents dans le système dans tous les états, y compris les processus actifs, en veille, arrêtés et inactifs.	1 seconde
Exécutable	Nombre de processus en attente d'exécution, y compris les processus pouvant être exécutés et ceux actuellement en cours d'exécution sur le processeur.	1 seconde
Unités d'exécution en attente	Nombre de processus ou de threads bloqués pendant l'attente de la fin des opérations de chargement de pages, indiquant l'activité de pagination de la mémoire.	1 seconde
Commandes Exec exécutées	Nombre d'appels système exécutés pendant la période d'échantillonnage, représentant les opérations d'exécution et de remplacement du programme.	1 seconde
Commandes Fork exécutées	Nombre d'appels système fork exécutés pendant l'intervalle d'échantillonnage, représentant l'activité de création de nouveaux processus.	1 seconde
Arrêté	Nombre de processus actuellement à l'arrêt, généralement mis en pause par des signaux de contrôle des tâches ou pendant les sessions de débogage.	1 seconde
En sommeil	Nombre de processus actuellement en état de veille, en attente de la fin d'événements, de ressources ou d'opérations d'E/S.	1 seconde
En veille	Nombre de processus actuellement en état d'inactivité, sans tâche active à effectuer ni ressources à consommer.	1 seconde
Zombie	Le nombre de processus « zombies » qui ont terminé leur exécution mais dont les entrées figurent toujours dans la table des processus, dans l'attente que leur processus parent lise leur état.	1 seconde

com.instana.plugin.host:
  collectProcessStatistics: false

Disques

Modifier en ligne

Cette section surveille les mesures de performances des disques physiques, notamment les opérations d'E/S, les taux de transfert et les modèles d'utilisation.

Métrique	Description	Granularité
Nom de disque	Nom du périphérique disque physique.	10 minutes
Taille moyenne des transferts	Nombre moyen d'octets transférés par opération d'E/S disque. Il permet d'évaluer la taille typique des transferts et de déterminer si les charges de travail effectuent des opérations séquentielles volumineuses ou de petits E/S aléatoires.	5 secondes
Occupé	Pourcentage du temps pendant lequel le disque transfère activement des données. Les valeurs supérieures à 30 % indiquent souvent une activité de pagination excessive ou des processus liés aux E/S. Lorsqu'elle est associée à une utilisation élevée du processeur (>80 %), cette valeur indique généralement une surcharge du système nécessitant une attention particulière.	5 secondes
Taux de transfert	Nombre d'opérations de transfert de données effectuées par seconde, représentant le débit global des transactions du disque et permettant d'évaluer l'intensité de la charge de travail d'E/S.	5 secondes
Opérations de lecture	Nombre d'opérations de transfert en lecture effectuées par seconde, applicable à tous les types de périphériques de stockage à l'exception des adaptateurs, indiquant l'intensité de la charge de travail en lecture sur le disque.	5 secondes
Opérations d'écriture	Nombre d'opérations de transfert en écriture effectuées par seconde, applicable à tous les types de périphériques de stockage à l'exception des adaptateurs, indiquant l'intensité de la charge de travail en écriture sur le disque.	5 secondes
Fréquence de saturation de la file d'attente	Fréquence par seconde à laquelle la file d'attente de service du disque a atteint sa capacité maximale et n'a pas pu accepter de demandes supplémentaires, indiquant une saturation des E/S et une dégradation potentielle des performances.	5 secondes
Données transférées	Nombre total de kilo-octets transférés pendant l'intervalle, fournissant un indicateur clé de la vitesse de transfert des données sur le disque, bien que les performances réelles dépendent également du format du disque et de l'efficacité de l'utilisation de l'espace.	5 secondes
Données lues	Nombre d'octets par seconde lus à partir du disque, mesuré pendant l'intervalle de surveillance afin de suivre le débit en lecture et d'identifier les charges de travail intensives en lecture.	5 secondes
Données écrites	Nombre d'octets par seconde écrits sur le disque, mesuré pendant l'intervalle de surveillance afin de suivre le débit d'écriture et d'identifier les charges de travail intensives en écriture.	5 secondes
Type	Classification des types de périphériques de stockage, identifiant le type spécifique de disque ou d'adaptateur de stockage pour une interprétation correcte des performances et un dépannage efficace.	10 minutes

Par défaut, les données sont collectées pour les 10 disques les plus sollicités en fonction du pourcentage d'activité (du plus élevé au plus faible). Pour collecter les données de tous les disques, configurez le paramètre suivant dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectAllDisks: true # Set false to collect only top 10 disks

Volumes physiques

Modifier en ligne

Cette section surveille les volumes physiques. Un volume physique est un périphérique de stockage brut (disque ou partition) qui doit être initialisé et ajouté à un groupe de volumes avant de pouvoir être utilisé.

Métrique	Description	Granularité
Nom de volume physique	Identifiant attribué au volume physique à des fins de référence système et d'opérations de gestion.	10 minutes
Taille totale	Capacité de stockage brute totale disponible sur le volume physique pour l'attribution à des groupes de volumes.	10 minutes
Taille utilisée	Quantité de stockage actuellement allouée à partir de ce volume physique aux volumes logiques au sein du groupe de volumes.	8 minutes
Taille disponible	Quantité d'espace de stockage non alloué restant sur le volume physique disponible pour créer ou étendre des volumes logiques.	8 minutes
Espace utilisé	Pourcentage de la capacité physique du volume actuellement allouée au groupe de volumes.	8 minutes
Espace disponible	Pourcentage de la capacité physique du volume disponible pour être alloué au groupe de volumes.	8 minutes

Par défaut, les données sont collectées pour les 10 volumes physiques les plus importants en fonction de l'utilisation de la capacité (du plus élevé au plus faible). Pour collecter les données de tous les volumes physiques, configurez le paramètre suivant dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectAllVolumeGroups: true # Set false to collect only top 10 physical volumes.

Groupes de volumes

Modifier en ligne

Cette section surveille les groupes de volumes. Un groupe de volumes est un ensemble de volumes physiques qui crée un pool de stockage.

Métrique	Description	Granularité
Nom du groupe de volumes	Identifiant unique attribué au groupe de volumes à des fins de gestion et de référence.	10 minutes
Taille totale	Capacité de stockage totale disponible dans le groupe de volumes, représentant la somme de tous les volumes physiques.	10 minutes
Taille utilisée	Quantité de stockage actuellement allouée aux volumes logiques au sein du groupe de volumes.	8 minutes
Taille disponible	Quantité d'espace de stockage non alloué restant dans le groupe de volumes disponible pour de nouveaux volumes logiques.	8 minutes
Espace utilisé	Pourcentage de la capacité du groupe de volumes actuellement alloué aux volumes logiques.	8 minutes
Espace disponible	Pourcentage de la capacité du groupe de volumes disponible pour l'allocation à des volumes logiques nouveaux ou en expansion.	8 minutes
Volumes physiques actifs	Nombre de volumes physiques actuellement actifs et accessibles au sein du groupe de volumes.	8 minutes
Volumes physiques	Nombre total de volumes physiques configurés dans le groupe de volumes, y compris les volumes actifs et inactifs.	8 minutes
Volumes logiques	Nombre de volumes logiques actuellement définis dans le groupe de volumes.	8 minutes
État du groupe de volumes	État opérationnel du groupe de volumes, indiquant s'il est actif, inactif ou dans un état variable.	10 minutes

Par défaut, les données sont collectées pour les 10 groupes de volume les plus importants en fonction de l'utilisation de la capacité (du plus élevé au plus faible). Pour collecter des données pour tous les groupes de volumes, configurez le paramètre suivant dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectAllVolumeGroups: true # Set false to collect only top 10 volume groups.

Volumes logiques

Modifier en ligne

Cette section surveille les volumes logiques. Un volume logique est un périphérique bloc virtuel créé au sein d'un groupe de volumes qui peut être utilisé pour les systèmes de fichiers ou le stockage brut.

Métrique	Description	Granularité
Nom du groupe de volumes	Nom du groupe de volumes contenant ce volume logique, établissant la relation avec le pool de stockage.	10 minutes
Nom de volume logique	Identifiant unique attribué au volume logique à des fins de référence système et d'opérations de gestion.	10 minutes
Taille	Capacité de stockage totale allouée au volume logique, qui peut être ajustée dynamiquement selon les besoins.	10 minutes
Type	Type de volume logique, indiquant son utilisation, par exemple : volume de stockage ( jfs2 ), volume de stockage de données ( jfs2log ), pagination ou autres fonctions spécialisées.	10 minutes
Point de montage	Point de montage du système de fichiers où le volume logique est accessible, s'il héberge un système de fichiers monté.	10 minutes
Etat	État opérationnel du volume logique, indiquant s'il est ouvert, fermé, synchronisé ou dans un autre état.	10 minutes

Par défaut, les données sont collectées pour les 10 volumes logiques supérieurs en fonction de l'utilisation de la capacité (du plus élevé au plus faible). Pour collecter les données de tous les volumes logiques, configurez le paramètre suivant dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectAllLogicalVolumes: true # Set false to collect only top 10 logical volumes.

Systèmes de fichiers

Modifier en ligne

Ces indicateurs fournissent des informations sur les performances, la capacité et l'utilisation du système de fichiers, permettant ainsi aux administrateurs de surveiller et d'optimiser efficacement leurs systèmes de stockage.

Métrique	Description	Granularité
Espace disque libre	Quantité d'espace libre disponible sur le système de fichiers.	1 seconde
Fuité	Espace alloué mais non utilisé, considéré comme perdu ou gaspillé.	1 seconde
Capacité	Capacité totale du système de fichiers.	1 seconde
Pourcentage d'utilisation du disque	Pourcentage d'espace utilisé sur le système de fichiers.	1 seconde
Utilisation d'inode	Pourcentage d'inodes (structures de données décrivant les fichiers et les répertoires) utilisés.	1 seconde
Inode libre	Nombre d'inodes libres disponibles sur le système de fichiers.	1 seconde
Octets lus/s	Nombre d'octets lus à partir du système de fichiers.	1 seconde
Octets écrits/s	Nombre d'octets écrits dans le système de fichiers.	1 seconde
Lectures/s	Nombre d'opérations de lecture par seconde.	1 seconde
Ecritures/s	Nombre d'opérations d'écriture par seconde.	1 seconde

Balise	Description
Appareil	Nom du périphérique.
Montage	Point de montage où le périphérique est connecté dans la hiérarchie du système de fichiers.
Options	Les options ou paramètres utilisés lors du montage du système de fichiers.
Type	Le type de système de fichiers.

* Les métriques relatives à l'utilisation totale, en lecture et en écriture affichent l'utilisation des E/S disque sous forme de pourcentage.

* Leaked (fait référence aux fichiers supprimés qui sont en cours d'utilisation et équivaut à capacity - used - free. Vous pouvez trouver ces fichiers avec lsof | grep deleted).

Par défaut, Instana surveille uniquement les systèmes de fichiers locaux. Vous pouvez répertorier les systèmes de fichiers surveillés ou exclus dans le configuration.yaml fichier (*instanaAgentDir*/etc/instana/configuration.yaml).

Le nom du paramètre de configuration correspond au nom de l'appareil, que vous pouvez trouver dans la première colonne de la sortie de la df commande.

L'exemple suivant montre la liste des systèmes de fichiers surveillés :

com.instana.plugin.host:
  filesystems:
    - '/dev/hd11admin'
    - '/dev/livedump'
    - '/dev/hd10opt'
    - '/dev/hd2'

L'exemple suivant montre les systèmes de fichiers qui sont inclus ou exclus :

com.instana.plugin.host:
  filesystems:
    include:
      - '/dev/hd11admin'
      - '/dev/livedump'
    exclude:
      - '/dev/hd10opt'
      - '/dev/hd2'

Par défaut, les données sont collectées pour les 10 principaux systèmes de fichiers en fonction de l'utilisation de la capacité (du plus élevé au plus faible). Pour collecter des données pour tous les systèmes de fichiers, configurez le paramètre suivant dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectAllAixFilesystems: true # Set false to collect only top 10 filesystems

Statistiques NFS

Modifier en ligne

Les statistiques du système de fichiers réseau (Network File System, NFS ) fournissent des informations détaillées sur la manière dont le système interagit avec les systèmes de fichiers distants sur le réseau. Ces statistiques sont essentielles pour comprendre les performances, diagnostiquer les problèmes de latence et identifier les goulots d'étranglement liés à l'accès au stockage ou au comportement du réseau.

NFS Les appels client et serveur des versions 2, 3 et 4 sont pris en charge.

Les tableaux suivants décrivent les mesures d' NFS s disponibles.

NFS Le tableau des appels de haut niveau présente une vue d'ensemble des activités d' NFS s sur le système. Il vous aide à comprendre rapidement combien de requêtes NFS sont traitées et si certaines d'entre elles échouent.

Métrique	Description	Granularité
Nombre total d'appels	Nombre total de demandes d' NFS s reçues pendant l'intervalle.	60 secondes
Appels rejetés	Nombre de demandes d' NFS s qui ont été rejetées et n'ont pas pu être traitées.	60 secondes
Pourcentage d'appels rejetés	Pourcentage d'appels rejetés par l' NFS par rapport au nombre total d'appels.	60 secondes

NFS Le tableau client affiche l'activité du système lorsqu'il agit en tant que client, y compris le nombre de requêtes envoyées aux serveurs NFS et les erreurs ou rejets rencontrés.

Métrique	Description	Granularité
Recherches	Nombre d'opérations de recherche effectuées par le client pour trouver des fichiers ou des répertoires.	60 secondes
Appels Read	Nombre de requêtes de lecture envoyées par le client.	60 secondes
Nombre d'appels Read Directory	Nombre de requêtes pour lire le contenu du répertoire.	60 secondes
Nombre d'appels de lecture de lien	Nombre de requêtes pour lire les liens symboliques.	60 secondes
Ecritures	Nombre d'opérations d'écriture effectuées par le client.	60 secondes
Nombre d'appels d'écriture dans la mémoire cache	Nombre d'opérations d'écriture mises en cache envoyées par le client.	60 secondes
Créations de fichier	Nombre de demandes de création de fichiers provenant du client.	60 secondes
Appels de suppression de fichier	Nombre de demandes de suppression de fichiers.	60 secondes
Appels de renommage de fichier	Nombre de demandes de renommage de fichiers effectuées par le client.	60 secondes
Nombre d'appels de création de répertoire	Nombre de demandes de création de nouveaux répertoires.	60 secondes
Appels de suppression de répertoire	Nombre de demandes de suppression de répertoires.	60 secondes
Nombre d'appels Get Attribute	Nombre de requêtes pour récupérer les attributs d'un fichier ou d'un répertoire.	60 secondes
Nombre d'appels Set Attribute	Nombre de requêtes pour mettre à jour les attributs d'un fichier ou d'un répertoire.	60 secondes
Nombre d'appels de statistiques du système de fichiers	Nombre de requêtes pour récupérer les statistiques du système de fichiers.	60 secondes
Appels Link	Nombre de demandes de création de liens physiques.	60 secondes
Nombre d'appels Symbolic Link	Nombre de demandes de création de liens symboliques.	60 secondes
Appels nuls	Nombre d'appels de procédure NULL utilisés pour vérifier la connectivité.	60 secondes
Appels Root	Nombre d'appels d'opérations racine effectués par le client.	60 secondes

NFS Le tableau du serveur affiche les requêtes d' NFS s reçues et traitées par le serveur. Il permet de surveiller les performances du serveur, de suivre les erreurs et d'identifier les goulots d'étranglement potentiels dans les opérations de partage de fichiers.

Métrique	Description	Granularité
Recherches	Nombre de requêtes de recherche traitées par le serveur pendant l'intervalle.	60 secondes
Appels Read	Nombre de requêtes de lecture reçues par le serveur.	60 secondes
Ecritures	Nombre de requêtes d'écriture reçues par le serveur.	60 secondes
Nombre d'appels Read Directory	Nombre de requêtes pour lire le contenu du répertoire.	60 secondes
Nombre d'appels de lecture de lien	Nombre de requêtes pour lire les liens symboliques.	60 secondes
Nombre d'appels d'écriture dans la mémoire cache	Nombre d'opérations d'écriture mises en cache gérées par le serveur.	60 secondes
Créations de fichier	Nombre de demandes de création de fichiers traitées par le serveur.	60 secondes
Appels de suppression de fichier	Nombre de demandes de suppression de fichiers.	60 secondes
Appels de renommage de fichier	Nombre de demandes de renommage de fichiers traitées par le serveur.	60 secondes
Nombre d'appels de création de répertoire	Nombre de demandes de création de nouveaux répertoires.	60 secondes
Appels de suppression de répertoire	Nombre de demandes de suppression de répertoires.	60 secondes
Nombre d'appels Get Attribute	Nombre de requêtes pour récupérer les attributs d'un fichier ou d'un répertoire.	60 secondes
Nombre d'appels Set Attribute	Nombre de requêtes pour mettre à jour les attributs d'un fichier ou d'un répertoire.	60 secondes
Nombre d'appels de statistiques du système de fichiers	Nombre de requêtes pour récupérer les statistiques du système de fichiers.	60 secondes
Appels Link	Nombre de demandes de création de liens physiques.	60 secondes
Nombre d'appels Symbolic Link	Nombre de demandes de création de liens symboliques.	60 secondes
Appels nuls	Nombre d'appels de procédure NULL utilisés pour vérifier la connectivité.	60 secondes
Appels Root	Nombre d'appels d'opérations racine reçus par le serveur.	60 secondes

Par défaut, les statistiques d' NFS s ne sont pas collectées. Pour les activer, vous devez configurer le paramètre dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectNfsStatistics: true

Configurez ce paramètre uniquement si un système de fichiers NFS est monté. Sinon, les valeurs collectées seront égales à zéro.

Statistiques RPC

Modifier en ligne

L'appel de procédure à distance (Remote Procedure Call, RPC ) est un mécanisme de communication essentiel utilisé pour permettre à des programmes d'un système d'exécuter des procédures sur un autre système comme s'il s'agissait d'appels de fonction locaux. RPC abstrait la complexité de la communication réseau, de la sérialisation et du transport, permettant aux composants distribués d'interagir de manière transparente.

Les appels client et serveur d' RPC, avec ou sans connexion, sont pris en charge.

RPC client Le tableau montre les requêtes d' RPC s envoyées par le client aux serveurs. Il permet de surveiller la réussite des appels, les délais d'attente, les retransmissions et les problèmes d'authentification afin de garantir une communication fiable des procédures à distance.

Métrique	Description	Granularité
Appels	Nombre de requêtes d' RPC s envoyées par le client.	60 secondes
Appels rejetés par le serveur	Nombre de requêtes client rejetées par le serveur RPC.	60 secondes
Appels expiré	Nombre d'appels d' RPC s provenant du client qui ont expiré avant de recevoir une réponse du serveur.	60 secondes
Appels retransmis	Nombre de paquets d' RPC s retransmis au serveur en raison de réponses manquantes ou retardées.	60 secondes
Réponses ne correspondant pas aux appels	Nombre de fois où les réponses du serveur ne correspondaient pas à la requête du client.	60 secondes
Temps d'attente de l'appel sur occupation	Nombre de fois où le client a dû attendre parce que le serveur était occupé.	60 secondes
Nombre d'actualisations d'authentification	Nombre de fois où le client a dû renvoyer les informations d'authentification pendant l'intervalle.	60 secondes

RPC Le tableau du serveur affiche les requêtes d' RPC s reçues et traitées par le serveur. Il permet de surveiller les requêtes rejetées, les appels en double, les erreurs de paquets et les problèmes de disponibilité afin de garantir une communication fiable côté serveur.

Métrique	Description	Granularité
Appels	Nombre de requêtes d' RPC s reçues par le serveur.	60 secondes
Appels rejetés	Nombre de requêtes d' RPC s rejetées par le serveur.	60 secondes
Demandes en double	Nombre de requêtes d' RPC s en double reçues par le serveur.	60 secondes
Contrôles de doublons	Nombre de requêtes d' RPC s traitées à partir du cache des requêtes en double.	60 secondes
Paquets avec un en-tête incorrectement formé	Nombre de paquets d' RPC s reçus avec des en-têtes mal formés, provoquant des erreurs de traitement.	60 secondes
Paquets trop courts	Nombre de paquets d' RPC s incomplets reçus qui étaient trop courts pour être traités.	60 secondes
Temps de paquet RPC indisponible	Nombre de fois où le serveur a tenté de recevoir un paquet alors qu'aucun n'était disponible.	60 secondes

Par défaut, les statistiques d' RPC s ne sont pas collectées. Pour les activer, vous devez configurer le paramètre dans la section hôte du fichier de configuration de l'agent (*instanaAgentDir*/etc/instana/configuration.yaml):

com.instana.plugin.host:
  collectRpcStatistics: true

Configurez ce paramètre uniquement si un système de fichiers NFS est monté ou si le système fait office de serveur NFS. Sinon, les statistiques d' RPC s collectées seront nulles.

Interfaces réseau

Modifier en ligne

Le tableau suivant présente le trafic réseau et les erreurs par interface.

Métrique	Description	Granularité
Interface	Interface réseau utilisée pour la communication.	60 secondes
Mac	Adresse MAC (Media Access Control) de l'interface réseau.	60 secondes
Adresses IP	Adresses IP attribuées à l'interface réseau.	60 secondes
Octets RX	Nombre total d'octets reçus par l'interface réseau par seconde.	1 seconde
Erreurs RX	Nombre d'erreurs rencontrées lors de la réception de données sur l'interface réseau.	1 seconde
Octets TX	Nombre total d'octets transmis par l'interface réseau par seconde.	1 seconde
Erreurs TX	Erreurs survenues lors de la transmission de paquets sur l'interface réseau.	1 seconde
Reçu/s	Nombre de paquets reçus par l'interface réseau par seconde.	1 seconde
Transmis/s	Nombre de paquets transmis par l'interface réseau par seconde.	1 seconde

Activité TCP

Modifier en ligne

Ces indicateurs fournissent des informations sur l'activité de connexion d' TCP, notamment les connexions établies, les taux de transmission par segment et les occurrences d'erreurs.

Métrique	Description	Granularité
Établi	Nombre de connexions TCP s établies.	1 seconde
Ouverture/s	Nombre de nouvelles connexions TCP ouvertes par seconde.	1 seconde
Segments entrants/s	Nombre de segments d' TCP s entrants par seconde.	1 seconde
Segments sortants/s	Nombre de segments d' TCP s sortants par seconde.	1 seconde
Réinitialisations établies	Pourcentage de connexions établies TCP qui sont réinitialisées par seconde.	1 seconde
Réinitialisations en sortie	Pourcentage de connexions sortantes TCP qui sont réinitialisées par seconde.	1 seconde
Échec	Pourcentage de tentatives de connexion à l' TCP qui ont échoué par seconde.	1 seconde
Erreur	Pourcentage d'erreurs d' TCP s par seconde.	1 seconde
Retransmission	Pourcentage de retransmissions d' TCP s par seconde.	1 seconde

Liste des principaux processus

Modifier en ligne

Ces indicateurs fournissent des informations sur les processus en cours d'exécution, notamment leur ID, leur nom, leur utilisation du processeur, leur utilisation normalisée du processeur et leur consommation de mémoire. La liste des processus les plus importants est mise à jour toutes les 30 secondes et ne contient que les processus qui utilisent le système. Par exemple, les processus ayant utilisé plus de 10 % du CPU au cours des 30 dernières secondes ou ceux ayant utilisé plus de 512 Mo de mémoire (RSS) sont affichés dans la liste des processus les plus importants.

Pour créer une liste combinée des processus à partir des 10 listes d'utilisation maximale du processeur et de la mémoire, définissez combineTopProcesses sur true. Les processus sont inclus dans la liste combinée même si leur utilisation du processeur est inférieure à 10 % ou leur utilisation de la mémoire inférieure à 512 Mo. Si le même processus figure dans les listes des 10 principaux processus utilisant le plus de ressources CPU et les 10 principaux processus utilisant le plus de mémoire, il n'apparaît qu'une seule fois dans la liste combinée, qui peut contenir jusqu'à 20 entrées.

com.instana.plugin.host:
  combineTopProcesses: true

Linuxtop la sémantique est utilisée. 100 % CPU signifie utilisation complète d'un seul cœur de processeur. Vous pouvez rechercher l'historique des instantanés du mois précédent. Le CPU normalisé est calculé en divisant le CPU par le nombre de processeurs logiques.

Métrique	Description	Granularité
PID	Identifiant unique attribué à chaque processus par le système d'exploitation.	30 secondes
Nom de processus	Nom du processus tel que défini par l'application ou le service.	30 secondes
ID du processus parent	ID du processus parent qui a lancé le processus actuel, indiquant la hiérarchie des processus.	30 secondes
ID GROUPE	L'ID du groupe qui indique le groupe propriétaire principal d'un processus.	30 secondes
UID	Identifiant utilisateur qui identifie le propriétaire d'un processus.	30 secondes
Temps écoulé	Durée totale d'exécution du processus depuis son démarrage.	30 secondes
UC	La quantité de ressources CPU consommée par le processus.	30 secondes
UC (normalisée)	Utilisation du processeur par le processus, normalisée à une échelle.	30 secondes
Mémoire	La quantité de mémoire consommée par le processus.	30 secondes

Signatures d'intégrité

Modifier en ligne

Pour chaque capteur, une base de connaissances des signatures de santé est évaluée en continu par rapport aux mesures entrantes. Ils sont utilisés pour signaler des problèmes ou des incidents en fonction de leur impact sur les utilisateurs.

Les événements intégrés déclenchent des problèmes ou des incidents en fonction de signatures de santé défaillantes sur des entités, tandis que les événements personnalisés déclenchent des problèmes ou des incidents en fonction des seuils d'une métrique spécifique d'une entité.

Pour plus d'informations sur les événements intégrés pour le capteur hôte, consultez la référence sur les événements intégrés.

Signaler des erreurs

Modifier en ligne

Dans le système d' AIX, la errpt commande génère un rapport d'erreurs à partir des entrées d'un journal d'erreurs. Les erreurs figurant dans le rapport d'erreurs sont ensuite enregistrées en tant qu'événements et envoyées à Instana. Le capteur détecte les types d'erreurs permanentes et temporaires, ainsi que les classes d'erreurs matérielles et logicielles. Vous devez activer cette fonctionnalité à l'aide du fichier configuration.yaml agent (*instanaAgentDir*/etc/instana/configuration.yaml) comme indiqué dans l'exemple suivant :

com.instana.plugin.host:
  aixEventsPollRate: 900 # In seconds

Traitement des incidents

Modifier en ligne

Vous pourriez rencontrer les problèmes suivants lors de la surveillance d'hôtes AIX à l'aide d' Instana :

Plantages de l'agent, indicateurs manquants ou rapports erronés

Modifier en ligne

Suite aux récentes améliorations apportées à l'agent d' Instana, publiées le 27 mai 2026, l'agent plante, ne transmet pas correctement les données ou présente des métriques manquantes dans certains déploiements d' AIX.

Solution : ce problème est résolu dans l'Agent 2026.06.11.1448, le Boot 1.2.55 et le capteur hôte 1.1.234. Pour résoudre ces problèmes, effectuez une mise à jour vers les dernières versions disponibles.