Résolution des problèmes et des limitations connues dans les clusters du plan de contrôle hébergé

Utilisez ces informations d'identification et de résolution des problèmes pour connaître le problème et la solution palliative pour l'installation du cluster spoke et

Impossible de supprimer des clusters internes et externes de plan de contrôle hébergé en métal nu en utilisant le CLI HCP de Red Hat

Instruction d'incident
Lorsque vous utilisez le CLI HCP, le cluster hébergé n'est pas supprimé. Le cluster reste dans un état de "destruction" pendant plus d'une heure.
Résolution
Vérifiez les journaux de pods de l'espace de noms hypershift pour les messages d'erreur

Hosted Control Plane dans la documentation Red Hat

Pour la documentation de dépannage du plan de contrôle hébergé par Red Hat® voir Red Hat Documentation.

Les PVC sur les clusters du plan de contrôle hébergé sont bloqués dans l'état de terminaison

Si les PVC sur les clusters du plan de contrôle hébergé sont bloqués dans l'état de terminaison, effectuez les étapes suivantes pour toutes les applications qui ont des PVC associés au stockage de Fusion Data Foundation.

  1. Réduire le déploiement de l'application PVC à 0.
  2. Supprimer la demande.
  3. Vérifier l'état du PVC pour s'assurer qu'il est supprimé.
    Remarque : retirez tous les PVC des applications avant de retirer l'étiquette de Fusion Data Foundation.
  4. Vérifiez si le client Fusion Data Foundation sur le cluster Hosted Control Plane est supprimé.

Problèmes liés au nettoyage des clusters hébergés

Problèmes liés au nettoyage de la base Fusion
Si le cluster hébergé n'est pas nettoyé après la suppression de l'étiquette de base (isf.ibm.com/fusion-base), laissez-lui un peu de temps pour que les modifications prennent effet. S'il ne se nettoie toujours pas, suivez les étapes suivantes pour comprendre la cause du problème :
  1. Connectez-vous au cluster hébergé.
  2. Allez dans les pods de l'espace de noms open-cluster-management-agent-addon .
  3. Obtenir l'accès du terminal à la nacelle fusion-cleanup-agent .
  4. Exécutez le script cleanup suivant :
    bash /scripts/sds/sds-cleanup.sh
  5. Si le script s'est bloqué lors de la suppression d'une ressource, il supprime le finalisateur de cette ressource.
Problèmes liés au nettoyage du service Fusion Data Foundation
Avant de commencer :
  • Avant de procéder à la suppression de Fusion Data Foundation, arrêtez le service de sauvegarde et nettoyez les PVC associés.
  • Si la taille de Fusion Data Foundation est importante et que les charges de travail s'exécutent en continu, telles que Cloud Pak ou Watsonx, procédez comme suit :
    1. Réduire les cosses à zéro.
    2. Arrêter l'application.
    3. Supprimer les PVC associés.
Si le service Fusion Data Foundation ne se nettoie pas après que vous ayez retiré son étiquette (isf.ibm.com/fusion-fdf), donnez-lui un peu de temps pour que les changements prennent effet. S'il ne se nettoie toujours pas, suivez les étapes suivantes pour comprendre la cause du problème :
  1. Connectez-vous au cluster hébergé.
  2. Allez dans les pods de l'espace de noms open-cluster-management-agent-addon .
  3. Obtenir l'accès du terminal à la nacelle fusion-odf-cleanup-agent .
  4. Exécutez le script cleanup suivant :
    bash /scripts/odf/delete-fusion-odf.sh
  5. Si le script s'est bloqué lors de la suppression d'une ressource, il supprime le finalisateur de cette ressource.
Problèmes liés au nettoyage du service de sauvegarde et de restauration
Si le service Backup & Restore ne se nettoie pas après avoir retiré son étiquette (isf.ibm.com/fusion-backup), laissez-lui un peu de temps pour que les changements prennent effet. S'il ne se nettoie toujours pas, suivez les étapes suivantes pour comprendre la cause du problème :
  1. Connectez-vous au cluster hébergé.
  2. Allez dans les pods de l'espace de noms open-cluster-management-agent-addon .
  3. Obtenir l'accès du terminal à la nacelle fusion-bnr-cleanup-agent .
  4. Exécutez le script cleanup suivant :
    bash /scripts/backup-restore/uninstall-backup-restore.sh
  5. Si le script s'est bloqué lors de la suppression d'une ressource, il supprime le finalisateur de cette ressource.

Un problème d'image pull se produit lors de l'installation de IBM Fusion dans un cluster hébergé

Instruction d'incident
Si un problème d'image pull se produit, assurez-vous que le secret pull de cp.icr.io est disponible pour le cluster Hosted Control Plane.
Résolution
Pour vérifier et mettre à jour le secret de tirage, procédez comme suit :
  1. Sur le cluster IBM Fusion HCI, allez dans Administration > CustomResourceDefinition et recherchez HostedCluster.
  2. Recherchez l'instance qui correspond au cluster Hosted Control Plane et ouvrez-la dans la vue YAML.
  3. Recherchez pullSecret et notez le nom du secret.
  4. Dans l'espace de noms des clusters, recherchez ce secret et ouvrez-le en mode édition.
  5. Vérifier si la valeur correcte de cp.icr.io est disponible. Si ce n'est pas le cas, modifiez le secret avec la bonne valeur.

    La propagation peut prendre un certain temps. Il se peut même que vous deviez approuver les modifications à partir de la page Compute > Nodes du cluster Hosted Control Plane.

Il est recommandé d'installer un cluster Hosted Control Plane avec les informations d'identification suivantes :
  • cloud.openshift.com
  • cp.icr.io
  • quay.io
  • registry.connect.redhat.com
  • registry.redhat.io

Problèmes d'installation de IBM Fusion dans un cluster hébergé

Résolution
  1. Vérifiez le statut de manifestwork fusion-install dans clusternamespace du cluster concentrateur:
    
    oc login to the hub
    oc get manifestwork fusion-install -n <spoke_cluster_name> -o yaml
  2. S'il n'y a pas d'erreur dans l'état de manifestwork, vérifiez l'état de l'installation de IBM Fusion dans le cluster de rayons :
    
    oc login to the spoke
    oc get csv -n ibm-spectrum-fusion-ns

Problèmes liés à l'installation de Fusion Data Foundation dans le cluster hébergé

Résolution
Pour résoudre ce problème, vérifiez le statut de manifestwork odfclient-install dans clusternamespace dans le cluster concentrateur:

oc login to the hub
oc get manifestwork odfclient-install -n <spoke_cluster_name> -o yaml

Problèmes de sauvegarde dans Hosted Control Plane avec Fusion Data Foundation

Instruction d'incident
Les sauvegardes simultanées échouent lors d'une image instantanée Velero avec le message d'erreur suivant:
The  operation has timed out because Velero has failed to report status.'
      However, the backup phase is updated as 'DataTransferfailed.

Le délai d'attente de la demande de ramassage de Velero est défini sur 30 minutes dans le gestionnaire de transactions.

Résolution
Pour résoudre le problème, augmentez-le à 60 minutes.

Le cluster Plan de contrôle hébergé n'est pas créé en raison de l'indisponibilité des adresses IP

Résolution
Vérifiez si l'équilibreur de charge installé dispose de suffisamment d'adresses IP pour le cluster Hosted Control Plane . Vérifiez l'objet IPAddressPool pour la plage d'adresses IP. Exécutez la commande suivante pour vérifier si une adresse IP est disponible:
oc get svc -A | grep LoadBalancer

Problèmes connus et limitations

  • Le plan de contrôle hébergé ne prend pas en charge les configurations Proxy ou les environnements hors ligne.
  • L'utilisation de l'opérateur GPU AMD n'est actuellement pas prise en charge par le plan de contrôle hébergé. Des nœuds internes équipés de GPU AMD peuvent être installés dans le hub cluster. Les clusters autonomes dotés de GPU AMD peuvent être gérés par le moteur multi-clusters. Dans le cas de serveurs externes, vous pouvez utiliser des GPU AMD uniquement sur le cluster hub et non sur le Hosted Control Plane.
    Remarque : il s'agit d'une limitation d'AMD/RH, et non de IBM Fusion.
  • Un échec d'extraction d'image aléatoire peut se produire sur le plan de contrôle hébergé en raison de secrets.
  • Parfois, le statut du cluster hébergé passe en mode hors ligne après la suppression. Contactez le support IBM pour résoudre le problème.
  • La commande hcp destroy peut provoquer un blocage indéfini du cluster hébergé pendant le nettoyage. Contactez le support IBM pour résoudre le problème.
  • La vue de l'onglet YAML sur la console OpenShift® Container Platform ne fonctionne pas comme prévu lors de l'installation de l'opérateur de moteur multi-clusters.
  • Les clusters hébergés attendent le storageprofile de la classe de stockage utilisée, mais il n'est pas disponible lors de la création du cluster.
  • Les problèmes suivants se produisent lorsque vous retirez les disques et que vous les replacez dans l'armoire:
    • Les disques ne sont pas reflétés dans le noeud.
    • Le cluster LVM et Data Foundation passent à l'état dégradé.
    Pour résoudre ce problème, redémarrez le noeud concerné.