L'attribut OpState d'une ressource a la valeur Echec hors ligne
Cette erreur possède trois causes possibles :
- Le noeud du cluster n'est pas en ligne
- Si un noeud d'un cluster n'est pas en ligne, l'attribut OpState de toutes les ressources définies sur le noeud prennent a la valeur Echec hors ligne. En pareil cas, l'incident n'est pas lié à la ressource mais au noeud.
- L'attribut MonitorCommand de la ressource renvoie le code de retour 3 (= Failed Offline)
- Pour savoir si c'est le cas, exécutez manuellement MonitorCommand et vérifiez le code de retour de la commande. Suivez cette procédure :
- Extrayez la valeur de l'attribut MonitorCommand pour la ressource :
# lsrsrc –s ‘Name=”<resource_name>” ‘ IBM.Application Name MonitorCommand - Exécutez MonitorCommand.
- Extrayez le code de retour de MonitorCommand :
# echo $?
Si le code de retour est 3 (Failed Offline), recherchez pourquoi l'attribut MonitorCommand proprement dit renvoie cette valeur et résolvez l'incident. Une fois que l'incident a été résolu, l'attribut OpState de la ressource doit prendre la valeur Offline.
- Extrayez la valeur de l'attribut MonitorCommand pour la ressource :
- System Automation a défini la ressource sur ‘Failed Offline’ car les tentatives précédentes de lancement de la ressource ont échoué.
- Si MonitorCommand renvoie 2 (Offline) mais que la valeur de l'attribut OpState de la ressource prend la valeur ‘Failed Offline’, cela indique que l'exécution de la commande StartCommand de cette ressource a été renvoyée avec une erreur (pas 0 ni une expiration) ou que System Automation n'a pas pu lancer la ressource dans le nombre de tentatives défini dans l'attribut RetryCount (reportez-vous à la description de la commande lssamctrl ci-dessus).Pour en savoir plus sur l'incident :
- Recherchez, dans le journal système, les messages indiquant une expiration de la commande StartCommand pour cette ressource.
- S'il n'y a pas de message de ce type, recherchez dans les fichiers journaux appropriés l'application qui se trouve derrière la ressource. Identifiez et corrigez tous les incidents.
- Vérifiez la trace d'audit.Les entrées de la trace d'audit ci-dessous indiquent des incidents dans le script de lancement :
12:16:35.727970 T(1096711088) _RCD RMC Rejected online request against RA on node saxb02 12:16:35.727970 T(1096711088) _RCD Failed Offline Request against RA on node saxb02Les entrées ci-dessous indiquent que la commande de lancement a abouti de manière répétée à une expiration :12:16:35.727970 T(1096711088) _RCD Maximum timer cancelled for RA on node saxb02 12:16:35.727970 T(1096711088) _RCD Failed Offline Request against RA on node saxb02 - Enfin, utilisez la commande ci-dessous pour réinitialiser la ressource à partir de l'état ‘Failed Offline’ :
# resetrsrc –s ‘Name=”<resource_name>” && NodeNameList={“node_name”}’ IBM.ApplicationA présent, la ressource doit avoir l'état OpState Hors ligne et System Automation for Multiplatforms redémarre la ressource si l'état souhaité de la ressource est En ligne.