Surveillance de la console HMC IBM Z

Le capteur HMC d' IBM Z s est automatiquement déployé et installé une fois que vous avez installé l'agent Instana.

Remarque : pour surveiller l'HMC d' IBM Z dans un cluster Kubernetes ou Red Hat OpenShift, n'installez pas d'agents hôtes Instana sur chaque nœud du cluster. Installez des agents hôte sur des machines hôte dédiées.

Il s'agit d'une fonctionnalité facultative, désactivée par défaut dans le backend d' Instana. Pour activer cette fonctionnalité facultative, consultez la page correspondant à votre déploiement d' Instana : SaaS, Édition personnalisée auto-hébergée ( Kubernetes ou Red Hat OpenShift Container Platform ) ou Édition classique auto-hébergée ( Docker )

Informations de support

Pour vous assurer que le capteur HMC d' IBM Z est compatible avec votre configuration actuelle, consultez les sections d'informations d'assistance suivantes :

Versions prises en charge et politique d'assistance

Le capteur prend en charge les versions suivantes d' IBM Z HMC :

  • Z/HMC API version 2.x
  • Z/HMC API version 3.x
  • Z/HMC API version 4.x

Le tableau suivant présente la dernière version prise en charge et la politique d'assistance :

Technologie Politique de support Dernière version technologique Dernière version prise en charge
Console HMC IBM Z A la demande 2.16.0 2.16.0

Pour plus d'informations sur la politique d'assistance, consultez la section « Stratégie d'assistance pour les capteurs ».

Configuration

Droits requis

Pour le IBM zHMC capteur à connecter zHMC et surveillez les métriques, assurez-vous que l'utilisateur HMC doit disposer des autorisations suivantes :

  • Accès aux API de service Web sur la console HMC. Pour activer l'accès, accédez à « Gestion HMC » - « Personnaliser les paramètres d' API ».
  • Permission a Gestion des audits et des journaux, Messages matériels, et Afficher les journaux de sécurité Tâches. Pour accorder l'autorisation, utilisez le Gestion des utilisateurs tâche pour créer un rôle d'utilisateur qui inclut des tâches spécifiques, ou rechercher un rôle d'utilisateur avec ces tâches. Ensuite, attribuez ce rôle d'utilisateur à l'utilisateur.
  • Autorisation d'utiliser les API des services Web HMC. Pour accorder l'accès, dans la section « Détails de l'utilisateur » de la gestion des utilisateurs, sélectionnez le Allow access to Web Services management interfaces champ correspondant dans la tâche « Personnaliser les paramètres d' API » ou dans la tâche « Gestion des utilisateurs ».
  • L’accès aux objets est requis pour surveiller les objets. Les objets indispensables sont les « images LPAR , CPC définies pour, and le processeur central (CP) ». Pour surveiller les adaptateurs, ajoutez des objets adaptateurs lorsque vous créez un rôle sur zHMC. Utilisez le Gestion des utilisateurs tâche pour créer un rôle d'utilisateur contenant des objets ou des types d'objets spécifiques à surveiller, ou rechercher un rôle d'utilisateur existant avec les objets appropriés. Attribuez ensuite ce rôle d'utilisateur à l'utilisateur.

Configuration du capteur

Pour vous connecter au serveur zHMC , vous devez configurer les zones suivantes dans la configuration d'agent <agent_install_dir>/etc/instana/configuration.yaml:

Remarque : seule le monitoring à distance est prise en charge. Vous pouvez configurer plusieurs consoles HMC comme suit:
com.instana.plugin.zhmc:
  remote:
    - host: ''             # IP address of the HMC
      port: ''             # HMC port
      user: ''             # userid on the HMC to be used for logging on
      password: ''         # password for the userid
      poll_rate: 15        # metrics poll rate in seconds. Poll rate can not be less than 15 seconds.
      eventsPollRate: 60   # event poll rate in seconds (optional). Comment this configuration to stop the events.
      connectionTimeout: 50 # It is the timeout until a connection with the server is established. Default is 50 seconds.
      connectionRequestTimeout: 50 # It is the time to fetch a connection from the connection pool. Default is 50 seconds.
      socketTimeout: 50 # It is socket read time out. Default is 50 seconds.

 

Collecte des métriques

Pour consulter ces indicateurs, sélectionnez « Platforms » dans la barre latérale de l'interface utilisateur d' Instana, cliquez sur « zHMC » dans la liste des plateformes, puis vous verrez s'afficher un tableau de bord contenant une liste des serveurs HMC d' IBM Z dans l'onglet « zHMCs » et une liste des complexes de processeurs centraux (CPC) dans l'onglet « Systems ».

Actuellement, les 11 groupes de mesures suivants sont pris en charge en mode en mode opérationnel Classic et DPM.

N° SI Nom du groupe de mesures Mode
1 cpc-usage-overview C
2 logical-partition-usage C
3 channel-usage C
4 dpm-system-usage-overview D
5 partition-usage D
6 zcpc-environmentals-and-power C+D
7 zcpc-processor-usage C+D
8 crypto-usage C
9 flash-memory-usage D
10 adapter-usage C
11 network-physical-adapter-port D
Remarque : C - Mode Classic et D - DPM.

Présentation de la CPC (C)

Ce groupe de mesures indique l'utilisation globale du processeur et du canal, la température ambiante et la consommation totale d'énergie pour chaque système. cpc-processor-usage est la moyenne des pourcentages de capacité de traitement de tous les processeurs physiques de le processeur CPC. channel-usage est la moyenne des pourcentages de capacité d'E-S de tous les canaux et adaptateurs du processeur CPC.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
Utilisation du processeur CPC Pourcentage d'utilisation du processeur pour les processeurs Central Processor Complex. 15 secondes
Utilisation du canal Pourcentage d'utilisation du canal. 15 secondes
Consommation électrique en Watts Consommation totale d'énergie du système en watts. 15 secondes
Température en degrés Celsius Température ambiante en degrés Celsius. 15 secondes
Utilisation des processeurs centraux partagés Pourcentage d'utilisation des processeurs centraux partagés. 15 secondes
Utilisation des processeurs centraux dédiés Pourcentage des processeurs centraux dédiés. 15 secondes
Utilisation des processeurs IFL partagés Pourcentage d'utilisation des processeurs Integrated Facility for Linux partagés. 15 secondes
Utilisation des processeurs IFL dédiés Pourcentage d'utilisation des processeurs Integrated Facility for Linux dédiés. 15 secondes
Utilisation des processeurs ICF partagés Pourcentage d'utilisation des processeurs Fonction de couplage interne partagés. 15 secondes
Utilisation des processeurs Fonction de couplage interne dédiés Pourcentage d'utilisation des processeurs Fonction de couplage interne dédiés. 15 secondes
Utilisation des processeurs IIP partagés Pourcentage d'utilisation des processeurs Integrated Information partagés. 15 secondes
Utilisation des processeurs Integrated Information dédiés Pourcentage d'utilisation des processeurs Integrated Information dédiés. 15 secondes
Utilisation des processeurs APP partagés Pourcentage d'utilisation des processeurs Application Assist partagés. 15 secondes
Utilisation des processeurs AAP dédiés Pourcentage d'utilisation des processeurs Application Assist dédiés. 15 secondes
Utilisation de tous les processeurs partagés Pourcentage d'utilisation de tous les processeurs partagés combinés. 15 secondes
Utilisation de tous les processeurs dédiés Pourcentage d'utilisation de tous les processeurs dédiés combinés. 15 secondes
Utilisation de tous les processeurs centraux Pourcentage d'utilisation de tous les processeurs centraux combinés. 15 secondes
Utilisation de tous les processeurs IFL Pourcentage d'utilisation de tous les processeurs d'Integrated Facility for Linux combinés. 15 secondes
Utilisation der tous les processeurs Fonction de couplage interne Pourcentage d'utilisation de tous les processeurs Fonction de couplage interne combinés. 15 secondes
Utilisation der tous les processeurs IIP Pourcentage d'utilisation de tous les processeurs Information Processor combinés. 15 secondes
Utilisation des processeurs CBP partagés Pourcentage d'utilisation des processeurs Information Processor partagés. 15 secondes
Utilisation des processeurs CBP dédiés Pourcentage d'utilisation des processeurs Container Based Processor dédiés. 15 secondes
Utilisation de tous les processeurs CBP Pourcentage d'utilisation de tous les processeurs Container Based Processor. 15 secondes

Partitions logiques (C)

Ce groupe d'indicateurs indique l'utilisation du processeur pour chaque partition logique active (image, image de partition logique, zone, serveur virtuel PR/SM) sur le système.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
Utilisation du processeur Pourcentage d'utilisation du processeur de la partition logique. 15 secondes
Utilisation du processeur CP Pourcentage d'utilisation du processeur central. 15 secondes
Utilisation des processeur IFL Pourcentage d'utilisation des processeurs Integrated Facility for Linux. 15 secondes
Utilisation des processeur ICF Pourcentage d'utilisation des processeur Fonction de couplage interne. 15 secondes
Utilisation des processeurs IIP Pourcentage d'utilisation des processeurs Integrated Information Processor 15 secondes
Utilisation du processeur CBP Pourcentage d'utilisation du processeur Container Based Processor. 15 secondes
Consommation électrique des LPAR La puissance totale consommée par une partition logique, en watts. 15 secondes

Utilisation des canaux (C)

Ce groupe de mesures indique l'utilisation du canal pour chaque canal du système. Une instance de ce groupe de mesures est créée pour chaque canal d'une CPC.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
Nom du canal Nom du canal dans le chemin du sous-système du canal de formulaire. 15 secondes
Canal partagé True si le canal est partagé entre des partitions logiques et false si ce n'est pas le cas. 15 secondes
Nom de partition logique Nom de la partition logique propriétaire ou de la valeur « shared » si le canal est partagé. 15 secondes
Utilisation du canal Pourcentage d'utilisation du canal (0 à 100 %). 15 secondes

Présentation du système DPM (D)

Ce groupe de mesures indique l'utilisation agrégée du processeur, l'utilisation du réseau, l'utilisation du stockage, l'utilisation de l'accélérateur, l'utilisation de la cryptographique, la consommation d'énergie et la température de chaque système DPM activé.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
Utilisation du processeur Pourcentage d'utilisation du processeur. 15 secondes
Utilisation du réseau Pourcentage d'utilisation du réseau. 15 secondes
Utilisation du stockage Pourcentage d'utilisation de l'espace de stockage. 15 secondes
Utilisation de l'accélérateur Pourcentage d'utilisation de l'accélérateur. 15 secondes
Utilisation de la cryptographie Pourcentage d'utilisation de la cryptographique. 15 secondes
Consommation d'énergie en watts Consommation d'énergie en watts. 15 secondes
Température celsius Température ambiante. 15 secondes
Utilisation du processeur partagé de CP Pourcentage d'utilisation du processeur pour tous les processeurs partagés CP. 15 secondes
CP, utilisation de tous les processeurs Pourcentage d'utilisation de processeur pour tous les processeurs CP. 15 secondes
Utilisation du processeur partagé IFL Pourcentage d'utilisation du processeur pour tous les processeurs partagés IFL. 15 secondes
Utilisation de tous les processeurs Pourcentage d'utilisation du processeur pour tous les processeurs IFL. 15 secondes
Utilisation de tous les processeurs partagés Pourcentage d'utilisation du processeur pour tous les processeurs partagés. 15 secondes

Partitions (D)

Ce groupe de mesures indique l'utilisation du processeur, l'utilisation du réseau, l'utilisation de la mémoire, l'utilisation de l'accélérateur et l'utilisation de la cryptographique pour chaque partition active sur un système DPM activé.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
Utilisation du processeur Pourcentage d'utilisation du processeur. 15 secondes
Utilisation du réseau Pourcentage d'utilisation du réseau. 15 secondes
Utilisation du stockage Pourcentage d'utilisation de l'espace de stockage. 15 secondes
Utilisation de l'accélérateur Pourcentage d'utilisation de l'accélérateur. 15 secondes
Utilisation de la cryptographie Pourcentage d'utilisation de la cryptographique. 15 secondes

Données environnementale zCPC et consommation d'énergie (C + D)

Ce groupe de mesures indique les données environnementales et la consommation d'énergie du zCPC.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
Température celsius Température ambiante 15 secondes
Humidité Humidité relative 15 secondes
Point de rosée celsius Le point de rosée 15 secondes
Consommation d'énergie en watts Consommation d'énergie en watts 15 secondes
Charge calorifique Charge calorifique totale du système (charge thermique air pulsé + charge thermique eau) 15 secondes
Charge thermique air pulsé Charge thermique couverte par l'air pulsé 15 secondes
Charge thermique eau Charge thermique couverte par eau 15 secondes
Température d'échappement celsius Température d"échappement 15 secondes

Processeurs zCPC (C+D)

Ce groupe de mesures indique l'utilisation de processeur pour chaque processeur zCPC physique sur le système. Cela inclut les processeurs SAP (System Assist Processors). Une instance de ce groupe de métriques est créée pour chaque processeur d'un processeur CPC.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
Nom du processeur Nom du processeur zCPC dans le type de processeur de formulaire + ID processeur. 15 secondes
Type de processeur Type du processeur zCPC. 15 secondes
Utilisation du processeur Pourcentage d'utilisation du processeur. 15 secondes
Utilisation SMT Pourcentage de temps pendant lequel le processeur s'exécute en mode de traitement multitâche simultané (SMT) 15 secondes
Utilisation de l'unité d'exécution 0 Pourcentage d'utilisation de l'unité d'exécution 0 lorsque le processeur s'exécute en mode de traitement multitâche simultané (SMT) 15 secondes
Utilisation de l'unité d'exécution 1 Pourcentage d'utilisation de l'unité d'exécution 1 lorsque le processeur s'exécute en mode de traitement multitâche simultané (SMT) 15 secondes

Cryptos (C)

Ce groupe de mesures indique l'utilisation de l'adaptateur pour chaque cryptographie sur le système. Une instance de ce groupe de mesures est créée pour chaque adaptateur cryptographique. Ce groupe de mesures n'est pas utilisé pour un système DPM. Pour DPM, les adaptateurs cryptographique sont signalées dans le groupe de mesures Adaptateurs.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
ID de canal Identificateur du canal physique de la cryptographie 15 secondes
ID de cryptographie Identificateur de la cryptographie, décimal 0-15 15 secondes
Utilisation de l'adaptateur Pourcentage d'utilisation de l'adaptateur (0 à 100 %) 15 secondes

Adaptateurs (D)

Ce groupe de mesures indique l'utilisation de l'adaptateur pour chaque adaptateur sur le système DPM activé. Une instance de ce groupe de mesures est créée pour chaque adaptateur.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
Utilisation de l'adaptateur Pourcentage d'utilisation de l'adaptateur (0 à 100 %) 15 secondes

Cartes mémoire flash (C)

Ce groupe de mesures signale l'utilisation de l'adaptateur pour chaque adaptateur Flash (Flash Express) sur le système. Une instance de ce groupe de mesures est créée pour chaque adaptateur de mémoire flash du processeur CPC. Si un processeur CPC n'a pas d'adaptateurs de mémoire flash, aucune donnée n'apparaît dans ce groupe de mesures pour ce processeur.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
ID de canal Identificateur du canal physique de l'adaptateur de mémoire flash 15 secondes
Utilisation de l'adaptateur Pourcentage d'utilisation de l'adaptateur (0 à 100 %) 15 secondes

Groupe de mesures de port d'adaptateur de réseau (D)

Les adaptateurs de réseau OSA et RoCE ont jusqu'à deux ports physiques qui se connectent au réseau. Les mesures sont collectées à partir de ces ports sur un système DPM activé et fournies à l'utilisateur. Ce groupe de mesures contient des données de mesure représentant des mesures pour un port physique.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
network-port-id Valeur numérique correspondant au port physique de l'adaptateur de réseau. 15 secondes
bytes-sent Nombre d'octets que ce port physique a envoyés au réseau connecté. 15 secondes
bytes-received Nombre de paquets unicast que ce port physique a reçu du réseau connecté. 15 secondes
packets-sent Nombre de paquets unicast que ce port physique a envoyés au réseau connecté. 15 secondes
packets-received Nombre de paquets unicast que ce port physique a reçu du réseau connecté. 15 secondes
packets-sent-dropped Nombre de paquets supprimés lorsque ce port physique les envoyait sur le réseau connecté. 15 secondes
packets-received- dropped Nombre de paquets supprimés lorsque ce port physique les recevait du réseau connecté. 15 secondes
packets-sent- discarded Nombre de paquets qui ont été supprimés lorsque ce port physique les a envoyés sur le réseau connecté. 15 secondes
packets-received- discarded Nombre de paquets supprimés lorsque ce port physique les recevait du réseau connecté. 15 secondes
multicast-packets-sent Nombre de paquets de multidiffusion envoyés par ce port physique au réseau connecté. 15 secondes
multicast-packets received Nombre de paquets de multidiffusion que ce port physique a reçus du réseau connecté. 15 secondes
broadcast-packets sent Nombre de paquets de diffusion envoyés par ce port physique au réseau connecté. 15 secondes
broadcast-packets received Nombre de paquets de diffusion que ce port physique a reçus du réseau connecté. 15 secondes
interval-bytes-sent Nombre d'octets envoyés par ce port physique pendant l'intervalle de collecte. 15 secondes
interval-bytes-received Nombre d'octets reçus par ce port physique sur l'intervalle de collecte. 15 secondes
bytes-per-second-sent Nombre d'octets envoyés par seconde par ce port physique sur l'intervalle de collecte. 15 secondes
bytes-per-second- received Nombre d'octets reçus par seconde par ce port physique sur l'intervalle de collecte. 15 secondes
utilisation Utilisation du lien exprimée sous la forme d'un pourcentage d'utilisation de la bande passante globale de la liaison. 15 secondes
mac-address Adresse MAC de cette liaison montante, si elle est connue. 15 secondes
marquages Indicateurs indiquant les types de mesure pris en charge par cette interface. 15 secondes

Groupe de métriques d'interface réseau (D)

Ce groupe d'indicateurs fournit des indicateurs pour les cartes d'interface réseau sur un système compatible DPM. Les cartes réseau sont des ressources réseau associées à des partitions DPM. Seules les cartes d'interface réseau activées signalent les données de métrique. Ce groupe de métriques contient des données de métriques représentant les métriques d'une carte d'interface réseau. Les métriques sont collectées et fournies sur un intervalle, et chaque métrique fournie correspond à la valeur cumulée totale, et non à un delta.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
ID-partition Identificateur unique de la partition qui possède la carte d'interface réseau dont la métrique est contenue dans ce groupe d'indicateurs. 30 secondes
bytes-per-second-sent Nombre d'octets envoyés par seconde par cet adaptateur de réseau au cours de l'intervalle de collecte. 30 secondes
octets par seconde-reçus Nombre d'octets par seconde reçus par cet adaptateur de réseau au cours de l'intervalle de collecte. 30 secondes
packets-sent Nombre de paquets monodiffusion envoyés par cet adaptateur de réseau au réseau connecté. 30 secondes
packets-received Nombre de paquets monodiffusion que cet adaptateur de réseau a reçus du réseau connecté. 30 secondes
packets-sent-dropped Nombre de paquets qui ont été supprimés lorsque cet adaptateur de réseau les a envoyés au réseau connecté. 30 secondes
paquets-reçus-supprimés Nombre de paquets qui ont été supprimés lorsque cet adaptateur de réseau les a reçus du réseau connecté. 30 secondes
paquets-envoyés-supprimés Nombre de paquets qui ont été supprimés lorsque cet adaptateur de réseau les a envoyés au réseau connecté. 30 secondes
paquets-reçus-supprimés Nombre de paquets qui ont été supprimés lorsque cet adaptateur de réseau les a reçus du réseau connecté. 30 secondes

RoCE adaptateurs ( C )

Ce groupe de métriques indique l'utilisation de l'adaptateur pour chaque adaptateur RoCE (10GbE RoCE) du système. Une instance de ce groupe de métriques est créée pour chaque adaptateur RoCE du processeur CPC.

Les mesures suivantes sont fournies dans chaque entrée de ce groupe de mesures :

Métrique Description Granularité
ID-canal Identificateur de canal physique de l'adaptateur RoCE . 15 secondes
adapter-usage Pourcentage d'utilisation de l'adaptateur (0 à 100%). 15 secondes

Gérer les événements depuis CPC (serveur) et la console HMC

Les événements critiques sont déclenchés à partir de ces serveurs en raison de défaillances ou d'incidents. Les types d'événements suivants sont envoyés à Instana afin d'être affichés sur la page des événements :

  • Messages matériels problématiques provenant de CPC
  • Messages matériels problématiques de la console
  • Evénements d'audit de console critiques
  • Evénements de sécurité critiques de la console

Traitement des incidents

  • Importation du certificat autosigné utilisé par le serveur Z HMC Si le serveur Z HMC utilise un certificat autosigné, assurez-vous qu'il est importé dans le fichier cacert de la machine virtuelle Java. De plus, si vous voyez l'exception suivante dans le journal, cela implique que le serveur Z HMC utilise un certificat autosigné et qu'il doit être importé dans le fichier cacert de la machine virtuelle Java. sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target. PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target.

    Solution : Importez un certificat auto-signé en suivant les instructions de la section « Certificat auto-signé ».

  • Certificat autosigné avec un réseau de stockage non valide Le certificat du serveur n'est pas valide si le réseau de stockage ne possède pas l'adresse IP attendue.

    Solution: Corrigez le certificat serveur et importez-le à nouveau.

  • 403 Accès interdit Le code d'état de réponse « 403 Accès interdit » ( HTTP ) indique que le serveur comprend la requête mais refuse de l'autoriser.

    Solution: Vérifiez les données d'identification fournies dans le fichier configuration.yaml ainsi que toutes les autorisations requises pour l'utilisateur.