L'attribut OpState d'une ressource a la valeur Echec hors ligne

Cette erreur possède trois causes possibles :
Le noeud du cluster n'est pas en ligne
Si un noeud d'un cluster n'est pas en ligne, l'attribut OpState de toutes les ressources définies sur le noeud prennent a la valeur Echec hors ligne. En pareil cas, l'incident n'est pas lié à la ressource mais au noeud.
L'attribut MonitorCommand de la ressource renvoie le code de retour 3 (= Failed Offline)
Pour savoir si c'est le cas, exécutez manuellement MonitorCommand et vérifiez le code de retour de la commande. Suivez cette procédure :
  1. Extrayez la valeur de l'attribut MonitorCommand pour la ressource :
    # lsrsrc –s ‘Name=”<resource_name>” ‘ IBM.Application Name MonitorCommand
  2. Exécutez MonitorCommand.
  3. Extrayez le code de retour de MonitorCommand :
    # echo $?

Si le code de retour est 3 (Failed Offline), recherchez pourquoi l'attribut MonitorCommand proprement dit renvoie cette valeur et résolvez l'incident. Une fois que l'incident a été résolu, l'attribut OpState de la ressource doit prendre la valeur Offline.

System Automation a défini la ressource sur ‘Failed Offline’ car les tentatives précédentes de lancement de la ressource ont échoué.
Si MonitorCommand renvoie 2 (Offline) mais que la valeur de l'attribut OpState de la ressource prend la valeur ‘Failed Offline’, cela indique que l'exécution de la commande StartCommand de cette ressource a été renvoyée avec une erreur (pas 0 ni une expiration) ou que System Automation n'a pas pu lancer la ressource dans le nombre de tentatives défini dans l'attribut RetryCount (reportez-vous à la description de la commande lssamctrl ci-dessus).
Pour en savoir plus sur l'incident :
  1. Recherchez, dans le journal système, les messages indiquant une expiration de la commande StartCommand pour cette ressource.
  2. S'il n'y a pas de message de ce type, recherchez dans les fichiers journaux appropriés l'application qui se trouve derrière la ressource. Identifiez et corrigez tous les incidents.
  3. Vérifiez la trace d'audit.
    Les entrées de la trace d'audit ci-dessous indiquent des incidents dans le script de lancement :
    12:16:35.727970 T(1096711088) _RCD RMC 
                 Rejected online request against RA on node saxb02
    12:16:35.727970 T(1096711088) _RCD 
                 Failed Offline Request against RA on node saxb02
    Les entrées ci-dessous indiquent que la commande de lancement a abouti de manière répétée à une expiration :
    12:16:35.727970 T(1096711088) _RCD 
                  Maximum timer cancelled for RA on node saxb02
    12:16:35.727970 T(1096711088) _RCD 
                  Failed Offline Request against RA on node saxb02
  4. Enfin, utilisez la commande ci-dessous pour réinitialiser la ressource à partir de l'état ‘Failed Offline’ :
    # resetrsrc –s ‘Name=”<resource_name>” && NodeNameList={“node_name”}’ IBM.Application

    A présent, la ressource doit avoir l'état OpState Hors ligne et System Automation for Multiplatforms redémarre la ressource si l'état souhaité de la ressource est En ligne.