Résolution des problèmes et des limitations connues dans les clusters du plan de contrôle hébergé
Utilisez ces informations d'identification et de résolution des problèmes pour connaître le problème et la solution palliative pour l'installation du cluster spoke et
Impossible de supprimer des clusters internes et externes de plan de contrôle hébergé en métal nu en utilisant le CLI HCP de Red Hat
- Instruction d'incident
- Lorsque vous utilisez le CLI HCP, le cluster hébergé n'est pas supprimé. Le cluster reste dans un état de "destruction" pendant plus d'une heure.
- Résolution
- Vérifiez les journaux de pods de l'espace de noms hypershift pour les messages d'erreur
Hosted Control Plane dans la documentation Red Hat
Pour la documentation de dépannage du plan de contrôle hébergé par Red Hat® voir Red Hat Documentation.
Les PVC sur les clusters du plan de contrôle hébergé sont bloqués dans l'état de terminaison
Si les PVC sur les clusters du plan de contrôle hébergé sont bloqués dans l'état de terminaison, effectuez les étapes suivantes pour toutes les applications qui ont des PVC associés au stockage de Fusion Data Foundation.
- Réduire le déploiement de l'application PVC à 0.
- Supprimer la demande.
- Vérifier l'état du PVC pour s'assurer qu'il est supprimé.Remarque : retirez tous les PVC des applications avant de retirer l'étiquette de Fusion Data Foundation.
- Vérifiez si le client Fusion Data Foundation sur le cluster Hosted Control Plane est supprimé.
Problèmes liés au nettoyage des clusters hébergés
- Problèmes liés au nettoyage de la base Fusion
- Si le cluster hébergé n'est pas nettoyé après la suppression de l'étiquette de base (
isf.ibm.com/fusion-base), laissez-lui un peu de temps pour que les modifications prennent effet. S'il ne se nettoie toujours pas, suivez les étapes suivantes pour comprendre la cause du problème :- Connectez-vous au cluster hébergé.
- Allez dans les pods de l'espace de noms
open-cluster-management-agent-addon. - Obtenir l'accès du terminal à la nacelle
fusion-cleanup-agent. - Exécutez le script cleanup suivant :
bash /scripts/sds/sds-cleanup.sh - Si le script s'est bloqué lors de la suppression d'une ressource, il supprime le finalisateur de cette ressource.
- Problèmes liés au nettoyage du service Fusion Data Foundation
- Avant de commencer :
- Avant de procéder à la suppression de Fusion Data Foundation, arrêtez le service de sauvegarde et nettoyez les PVC associés.
- Si la taille de Fusion Data Foundation est importante et que les charges de travail s'exécutent en continu, telles que Cloud Pak ou Watsonx, procédez comme suit :
- Réduire les cosses à zéro.
- Arrêter l'application.
- Supprimer les PVC associés.
Si le service Fusion Data Foundation ne se nettoie pas après que vous ayez retiré son étiquette (isf.ibm.com/fusion-fdf), donnez-lui un peu de temps pour que les changements prennent effet. S'il ne se nettoie toujours pas, suivez les étapes suivantes pour comprendre la cause du problème :- Connectez-vous au cluster hébergé.
- Allez dans les pods de l'espace de noms
open-cluster-management-agent-addon. - Obtenir l'accès du terminal à la nacelle
fusion-odf-cleanup-agent. - Exécutez le script cleanup suivant :
bash /scripts/odf/delete-fusion-odf.sh - Si le script s'est bloqué lors de la suppression d'une ressource, il supprime le finalisateur de cette ressource.
- Problèmes liés au nettoyage du service de sauvegarde et de restauration
- Si le service Backup & Restore ne se nettoie pas après avoir retiré son étiquette (
isf.ibm.com/fusion-backup), laissez-lui un peu de temps pour que les changements prennent effet. S'il ne se nettoie toujours pas, suivez les étapes suivantes pour comprendre la cause du problème :- Connectez-vous au cluster hébergé.
- Allez dans les pods de l'espace de noms
open-cluster-management-agent-addon. - Obtenir l'accès du terminal à la nacelle
fusion-bnr-cleanup-agent. - Exécutez le script cleanup suivant :
bash /scripts/backup-restore/uninstall-backup-restore.sh - Si le script s'est bloqué lors de la suppression d'une ressource, il supprime le finalisateur de cette ressource.
Un problème d'image pull se produit lors de l'installation de IBM Fusion dans un cluster hébergé
- Instruction d'incident
- Si un problème d'image pull se produit, assurez-vous que le secret pull de
cp.icr.ioest disponible pour le cluster Hosted Control Plane.
- Résolution
- Pour vérifier et mettre à jour le secret de tirage, procédez comme suit :
- Sur le cluster IBM Fusion HCI, allez dans et recherchez HostedCluster.
- Recherchez l'instance qui correspond au cluster Hosted Control Plane et ouvrez-la dans la vue YAML.
- Recherchez
pullSecretet notez le nom du secret. - Dans l'espace de noms des clusters, recherchez ce secret et ouvrez-le en mode édition.
- Vérifier si la valeur correcte de
cp.icr.ioest disponible. Si ce n'est pas le cas, modifiez le secret avec la bonne valeur.La propagation peut prendre un certain temps. Il se peut même que vous deviez approuver les modifications à partir de la page du cluster Hosted Control Plane.
cloud.openshift.comcp.icr.ioquay.ioregistry.connect.redhat.comregistry.redhat.io
Problèmes d'installation de IBM Fusion dans un cluster hébergé
- Résolution
- Vérifiez le statut de
manifestworkfusion-installdansclusternamespacedu cluster concentrateur:oc login to the hub oc get manifestwork fusion-install -n <spoke_cluster_name> -o yaml - S'il n'y a pas d'erreur dans l'état de
manifestwork, vérifiez l'état de l'installation de IBM Fusion dans le cluster de rayons :oc login to the spoke oc get csv -n ibm-spectrum-fusion-ns
- Vérifiez le statut de
Problèmes liés à l'installation de Fusion Data Foundation dans le cluster hébergé
- Résolution
- Pour résoudre ce problème, vérifiez le statut de
manifestworkodfclient-installdansclusternamespacedans le cluster concentrateur:oc login to the hub oc get manifestwork odfclient-install -n <spoke_cluster_name> -o yaml
Problèmes de sauvegarde dans Hosted Control Plane avec Fusion Data Foundation
- Instruction d'incident
- Les sauvegardes simultanées échouent lors d'une image instantanée Velero avec le message d'erreur suivant:
The operation has timed out because Velero has failed to report status.' However, the backup phase is updated as 'DataTransferfailed.Le délai d'attente de la demande de ramassage de Velero est défini sur 30 minutes dans le gestionnaire de transactions.
- Résolution
- Pour résoudre le problème, augmentez-le à 60 minutes.
Le cluster Plan de contrôle hébergé n'est pas créé en raison de l'indisponibilité des adresses IP
- Résolution
- Vérifiez si l'équilibreur de charge installé dispose de suffisamment d'adresses IP pour le cluster Hosted Control Plane . Vérifiez l'objet
IPAddressPoolpour la plage d'adresses IP. Exécutez la commande suivante pour vérifier si une adresse IP est disponible:oc get svc -A | grep LoadBalancer
Problèmes connus et limitations
- Le plan de contrôle hébergé ne prend pas en charge les configurations Proxy ou les environnements hors ligne.
- L'utilisation de l'opérateur GPU AMD n'est actuellement pas prise en charge par le plan de contrôle hébergé. Des nœuds internes équipés de GPU AMD peuvent être installés dans le hub cluster. Les clusters autonomes dotés de GPU AMD peuvent être gérés par le moteur multi-clusters. Dans le cas de serveurs externes, vous pouvez utiliser des GPU AMD uniquement sur le cluster hub et non sur le Hosted Control Plane.Remarque : il s'agit d'une limitation d'AMD/RH, et non de IBM Fusion.
- Un échec d'extraction d'image aléatoire peut se produire sur le plan de contrôle hébergé en raison de secrets.
- Parfois, le statut du cluster hébergé passe en mode hors ligne après la suppression. Contactez le support IBM pour résoudre le problème.
- La commande hcp destroy peut provoquer un blocage indéfini du cluster hébergé pendant le nettoyage. Contactez le support IBM pour résoudre le problème.
- La vue de l'onglet YAML sur la console OpenShift® Container Platform ne fonctionne pas comme prévu lors de l'installation de l'opérateur de moteur multi-clusters.
- Les clusters hébergés attendent le
storageprofilede la classe de stockage utilisée, mais il n'est pas disponible lors de la création du cluster. - Les problèmes suivants se produisent lorsque vous retirez les disques et que vous les replacez dans l'armoire:
- Les disques ne sont pas reflétés dans le noeud.
- Le cluster LVM et Data Foundation passent à l'état dégradé.