Sostituzione del disco e OpenShift recupero dei guasti dell'OSD dedicato

Imparare a sostituire un disco difettoso in un Red Hat® OpenShift® cluster dedicato Object Storage Device (OSD).

Procedura

  1. Identificare l'OSD guasto.
    Esempio di comando:
    oc get -n openshift-storage pods -l app=rook-ceph-osd -o wide
    Un esempio di output in cui osd-19 è fallito e lo stato è CrashLoopBackOff:
    NOME STATO PRONTO RIAVVII ETÀ IP NODO NOMINATO NODO PRONTEZZA CANCELLI
    rook-ceph-osd-0-85fcb5fd9-5cvws 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-1-5dd8bc8d9d-cbz7g 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-10-7cc49487b5-bdw6w 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-11-84cd6fb7d7-xpn22 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-12-7bb579498c-25tzh 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-13-866dbc7f57-kqqpn 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-14-6f7f6dd89b-7skg8 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-15-697c5b8577-9plff 2/2 Esecuzione 0 6h58m 9.42.107.146 control-1-ru3.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-16-8d78df98c-khbh7 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-17-c8ffbb5bf-q4xqb 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-18-65f847c8d4-zpz2f 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-19-85d475d68d-5kvmq 1/2 CrashLoopBackOff 6 ( 2m10s fa) 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    .
    .
    .
     <nessuno> <nessuno>
    rook-ceph-osd-7-7f79d4b76-jxz8x 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-8-75497d6999-wz296 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-9-56d5cc7c59-w29n2 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
  2. Ridurre prima ocs-operator , poi rook-ceph-operator.
    1. Riduzione della scala ocs-operator.
      1. Accedere alla Red Hat OpenShift Container Platform e selezionare il progetto.
      2. Accedere alla pagina Workloads > Pods e verificare che ocs-operator sia nello stato Running nell'elenco Pods.
      3. Andare alla pagina Carichi di lavoro > Distribuzioni.
      4. Fare clic su ocs-operator e controllare la scheda Deployment details.

        Ad esempio, la scheda Dettagli dell'installazione client mostra che ocs-operator ha 1 pod.

      5. Ridurre a 0 il numero del Pod.
      6. Tornare alla scheda Pods e controllare il sito ocs-operator.

        Il sito ocs-operator non appare o non è più disponibile nell'elenco dei Pod.

    2. Riduzione della scala rook-ceph-operator.
      1. Accedere alla pagina Workloads > Pods e verificare che rook-ceph-operator sia nello stato Running nell'elenco Pods.
      2. Andare alla pagina Carichi di lavoro > Distribuzioni.
      3. Fare clic su rook-ceph-operator e controllare la scheda Deployment details.

        Ad esempio, la scheda Dettagli dell'installazione client mostra che rook-ceph-operator ha 1 pod.

      4. Ridurre a 0 il numero del Pod.
      5. Tornare alla scheda Pods e controllare il sito rook-ceph-operator.

        Il sito rook-ceph-operator non appare o non è più disponibile nell'elenco dei Pod.

  3. Facoltativo: Verificare se i pod per ocs-operator e rook-ceph-operator sono stati rimossi come previsto.
    Esempio di comando:
    oc get pods |grep operator
    Output di esempio:
    noobaa-operator-79446cc789-gj66l 1/1 Esecuzione 0 38d
    ocs-client-operator-console-7d85dc6bf9-vdbhn 1/1 Esecuzione 0 9d
    ocs-client-operator-controller-manager-85bbcc7bfd-znvx4 2/2 Corsa 1 ( 6d1h fa) 37d
    odf-operator-controller-manager-59465654c-jmj5z 2/2 Esecuzione 0 38d
    
  4. Pulire l'OSD non funzionante.
    1. Ridurre la distribuzione di rook-ceph-osd .
      Esempio di comando:
      osd_id_to_remove=<replace-it-with-osd-id>
      oc scale -n openshift-storage deployment rook-ceph-osd-${osd_id_to_remove} --replicas=0
      Output di esempio:
      deployment.apps/rook-ceph-osd-19 scalare
    2. Verificare che il Pod rook-ceph-osd per l'OSD difettoso sia stato cancellato.
      Esempio di comando:
      oc get -n openshift-storage pods -l app=rook-ceph-osd -o wide
      Output di esempio:
      NOME STATO PRONTO RIAVVII ETÀ IP NODO NOMINATO NODO PRONTEZZA CANCELLI
      rook-ceph-osd-0-85fcb5fd9-5cvws 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-1-5dd8bc8d9d-cbz7g 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-10-7cc49487b5-bdw6w 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-11-84cd6fb7d7-xpn22 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-12-7bb579498c-25tzh 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-13-866dbc7f57-kqqpn 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-14-6f7f6dd89b-7skg8 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-15-697c5b8577-9plff 2/2 Esecuzione 0 7h16m 9.42.107.146 control-1-ru3.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-16-8d78df98c-khbh7 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-17-c8ffbb5bf-q4xqb 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-18-65f847c8d4-zpz2f 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-2-5fd5548c56-gclrv 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-20-b88868db5-h55h9 2/2 Esecuzione 0 37d 9.42.107.147 control-1-ru4.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      .
      .
      .
      .
      rook-ceph-osd-8-75497d6999-wz296 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      rook-ceph-osd-9-56d5cc7c59-w29n2 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
      
  5. Rimuovere il vecchio OSD dal cluster.
    1. Cancellare i lavori esistenti su ocs-osd-removal , se presenti.
      Esempio di comando:
      oc delete -n openshift-storage job ocs-osd-removal-job
      Output di esempio:
      job.batch "ocs-osd-removal-job" cancellato
    2. Rimuovere il vecchio OSD dal cluster
      Esempio di comando:
      oc process -n openshift-storage ocs-osd-removal -p FAILED_OSD_IDS=${osd_id_to_remove} FORCE_OSD_REMOVAL=true |oc create -n openshift-storage -f -
      Importante: assicurarsi di aver impostato il sito osd_id_to_remove corretto.
      Output di esempio:
      job.batch/ocs-osd-removal-job creato
    3. Verificare che il sito ocs-osd-removal-job sia stato completato.
      Esempio di comando:
      oc get pod -l job-name=ocs-osd-removal-job -n openshift-storage
      Output di esempio:
      NOME STATO PRONTO RIAVVIO ETÀ
      ocs-osd-removal-job-rh72h 0/1 Completato 0 39s

      Al termine di ocs-osd-removal-job , i volumi persistenti (PV) associati vengono rilasciati e le richieste di volumi persistenti (PVC) vengono eliminate o passano allo stato Pending .

    4. Controllare lo stato del PV.
      Esempio di comando:
      oc get pv |grep Released
      Output di esempio:
      local-pv-141605d2 7153Gi RWO Cancellare i dati rilasciati openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465 ibm-spectrum-fusion-local <unset> 37d
    5. Se la crittografia è abilitata, rimuovere la configurazione associata.

      Eseguire le seguenti operazioni:

      1. Recupera i dettagli del PVC e del nodo.

        Esempio di comando:
        oc describe pv local-pv-141605d2
        Output di esempio:
        Nome: local-pv-141605d2
        Etichette: kubernetes.io/hostname=control-1-ru2.isf-racka. rtp.raleigh.ibm.com
                           storage.openshift.com/owner-kind=LocalVolumeSet
                           storage.openshift.com/owner-name =ibm-spectrum-fusion-local
                           storage.openshift.com/owner-namespace =openshift-stoccaggio locale
        Annotazioni: pv.kubernetes.io/bound-by-controller: sì
                           pv.kubernetes.io/provisioned-by: local-volume-provisioner-control-1-ru2.isf-racka.rtp.raleigh.ibm.com
                           storage.openshift.com/device-id: nvme-MZWLJ7T6HALA-000V5_S5LLNE0R400096
                           storage.openshift.com/device-name: nvme1n1
        Finalizzatori: [ kubernetes.io/pv-protection ]
        StorageClass: ibm-spectrum-fusion-local
        Stato: Rilasciato
        Rivendicazione: openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465
        Politica di recupero: Cancellare
        Modalità di accesso: RWO
        VolumeMode: Blocco
        Capacità: 7153Gi
        Affinità dei nodi:     
          Termini richiesti:  
            Termine 0: kubernetes.io/hostname in [ control-1-ru2.isf-racka. rtp.raleigh.ibm.com ]
        Messaggio:           
        Origine:
            Tipo: LocalVolume (un volume persistente supportato dallo storage locale su un nodo)
            Percorso: /mnt/local-storage/ibm-spectrum-fusion-local/nvme-MZWLJ7T6HALA-000V5_S5LLNE0R400096
        Eventi:
          Tipo Motivo Età Da Messaggio
          ----     ------              ----                  ----     -------
          Attenzione VolumeFailedDelete 15s ( x15 su 3m20s ) deleter Errore nella pulizia del PV " local-pv-141605d2 ": non è stato possibile ottenere la modalità volume del percorso "/mnt/local-storage/ibm-spectrum-fusion-local/nvme-MZWLJ7T6HALA-000V5_S5LLNE0R400096": Controllo della directory per "/mnt/local-storage/ibm-spectrum-fusion-local/nvme-MZWLJ7T6HALA-000V5_S5LLNE0R400096" fallito: aperto /mnt/local-storage/ibm-spectrum-fusion-local/nvme-MZWLJ7T6HALA-000V5_S5LLNE0R400096: nessun file o directory di questo tipo
      2. Rimuovere la mappatura device-mapper gestita da dm-cryptdai dispositivi OSD.

        Esempio di comando:
        oc debug node/<node name
        chroot /host
        dmsetup ls| grep <pvc name>
        Output di esempio:
        ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt (253:3)
      3. Rimuovere il dispositivo mappato.

        Esempio di comando:
        cryptsetup luksClose --debug --verbose ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt
        Output di esempio:
        # cryptsetup 2.6.0 elaborazione "cryptsetup luksClose --debug --verbose ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt "
        # Verifica dei parametri per la chiusura del comando.
        # Chiusura del comando in esecuzione.
        # Installazione del gestore SIGINT/SIGTERM.
        # Sblocco dell'interruzione del segnale.
        # Allocazione di un contesto di cripto-dispositivo da parte del dispositivo ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt.
        # Inizializzazione della libreria backend device-mapper.
        # versione dm [ opencount flush ] [16384] (*1)
        # dm versions [ opencount flush ] [16384] (*1)
        # Rilevata versione dm-ioctl 4.48.0.
        # Rilevata la versione di dm-crypt 1.24.0.
        # Backend Device-mapper in esecuzione con supporto UDEV abilitato.
        # dm status ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt [ opencount noflush ] [16384] (*1)
        # Rilascio del backend device-mapper.
        # Allocazione del contesto per il dispositivo crypt (nessuno).
        # Inizializzazione della libreria backend device-mapper.
        Il dispositivo sottostante per il dispositivo di crittografia ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt è scomparso.
        # versioni dm [ opencount flush ] [16384] (*1)
        # tabella dm ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt [ opencount flush securedata ] [16384] (*1)
        # dm versions [ opencount flush ] [16384] (*1)
        # dm deps ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt [ opencount flush ] [16384] (*1)
        # L'intestazione del dispositivo LUKS non è disponibile.
        # Disattivazione del volume ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt.
        # versioni dm [ opencount flush ] [16384] (*1)
        # dm status ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt [ opencount noflush ] [16384] (*1)
        # dm versions [ opencount flush ] [16384] (*1)
        # tabella dm ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt [ opencount flush securedata ] [16384] (*1)
        # dm versions [ opencount flush ] [16384] (*1)
        # dm deps ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt [ opencount flush ] [16384] (*1)
        # dm versions [ opencount flush ] [16384] (*1)
        # tabella dm ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt [ opencount flush securedata ] [16384] (*1)
        # dm versions [ opencount flush ] [16384] (*1)
        # Cookie Udev 0xd4d2da5 (semid 0) creato
        # Cookie Udev 0xd4d2da5 (semid 0) incrementato a 1
        # Cookie Udev 0xd4d2da5 (semid 0) incrementato a 2
        # Cookie Udev 0xd4d2da5 (semid 0) assegnato al task REMOVE(2) con flag DISABLE_LIBRARY_FALLBACK ( 0x20 )
        # dm remove ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465-block-dmcrypt [ opencount flush retryremove ] [16384] (*1)
        # Cookie Udev 0xd4d2da5 (semid 0) decrementato a 0
        # Cookie Udev 0xd4d2da5 (semid 0) in attesa di zero
        # Cookie Udev 0xd4d2da5 (semid 0) distrutto
        # Rilascio del contesto vuoto del dispositivo cripto.
        # Rilascio del backend device-mapper.
        Comando riuscito.
    6. Identificare ed eliminare il PV fallito.

      Eseguire le seguenti operazioni:

      1. Identificare il PV guasto.

        Esempio di comando:
        oc get pv -l kubernetes.io/hostname=control-1-ru2.isf-racka.rtp.raleigh.ibm.com

        Lo stato del PV fallito viene visualizzato come Released.

        Output di esempio:
        NOME CAPACITÀ MODALITÀ DI ACCESSO RECLAIM POLICY STATUS CLAIM STORAGECLASS VOLUMEATTRIBUTESCLASS REASON AGE
        local-pv-141605d2 7153Gi RWO Cancellare i dati rilasciati openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-32b6465 ibm-spectrum-fusion-local <unset> 37d
        local-pv-4ce100b9 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-26px6qd ibm-spectrum-fusion-local <unset> 37d
        local-pv-5b320962 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-29w8c49 ibm-spectrum-fusion-local <unset> 37d
        local-pv-6ba1664e 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-334h7jp ibm-spectrum-fusion-local <unset> 22d
        local-pv-89429641 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-9tc4vl ibm-spectrum-fusion-local <unset> 37d
        local-pv-a3bb3040 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-5dtrs9 ibm-spectrum-fusion-local <unset> 37d
        local-pv-e9ed407b 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-17k74xw ibm-spectrum-fusion-local <unset> 37d
      2. Cancellare il PV fallito.

        Esempio di comando:
        oc delete pv local-pv-141605d2
        Output di esempio:
        persistentvolume " local-pv-141605d2 " cancellato
      3. Verificare che il PV fallito sia stato eliminato.

        Esempio di comando:
        oc get pv -l kubernetes.io/hostname=control-1-ru2.isf-racka.rtp.raleigh.ibm.com
        Output di esempio:
        NOME CAPACITÀ MODALITÀ DI ACCESSO RECLAIM POLICY STATUS CLAIM STORAGECLASS VOLUMEATTRIBUTESCLASS REASON AGE
        local-pv-4ce100b9 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-26px6qd ibm-spectrum-fusion-local <unset> 37d
        local-pv-5b320962 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-29w8c49 ibm-spectrum-fusion-local <unset> 37d
        local-pv-6ba1664e 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-334h7jp ibm-spectrum-fusion-local <unset> 22d
        local-pv-89429641 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-9tc4vl ibm-spectrum-fusion-local <unset> 37d
        local-pv-a3bb3040 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-5dtrs9 ibm-spectrum-fusion-local <unset> 37d
        local-pv-e9ed407b 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-17k74xw ibm-spectrum-fusion-local <unset> 37d
  6. Verificare che la voce OSD obsoleta sia stata rimossa.
    Esempio di comando:
    oc get pods
    Output di esempio:
    NOME STATO PRONTO RIAVVIO ETÀ
    csi-addons-controller-manager-585444c85d-vlklj 2/2 Esecuzione 0 38d
    csi-cephfsplugin-5rc9r 2/2 Esecuzione 0 37d
    csi-cephfsplugin-6zvlj 2/2 Esecuzione 0 37d
    csi-cephfsplugin-8rpcc 2/2 Esecuzione 0 37d
    csi-cephfsplugin-9xtqk 2/2 Corsa 4 ( 46h fa) 37d
    csi-cephfsplugin-k6jf9 2/2 Esecuzione 0 37d
    csi-cephfsplugin-provisioner-796d9bb95c-g6dsp 5/5 Esecuzione 0 37d
    csi-cephfsplugin-provisioner-796d9bb95c-klt8v 5/5 Corsa 3 ( 9d fa) 9d
    csi-cephfsplugin-srk79 2/2 Esecuzione 0 37d
    csi-rbdplugin-dzfln 3/3 Esecuzione 0 37d
    csi-rbdplugin-j5jk5 3/3 Running 5 ( 46h fa) 37d
    csi-rbdplugin-lw5lt 3/3 Esecuzione 0 37d
    csi-rbdplugin-mf6pp 3/3 Esecuzione 0 37d
    csi-rbdplugin-nc9g9 3/3 Esecuzione 0 37d
    csi-rbdplugin-provisioner-7cf4b47dd9-89j27 6/6 Esecuzione 0 37d
    csi-rbdplugin-provisioner-7cf4b47dd9-9w4zv 6/6 Esecuzione 0 37d
    csi-rbdplugin-tb2wf 3/3 Esecuzione 0 37d
    noobaa-core-0 2/2 Esecuzione 0 37d
    noobaa-db-pg-0 1/1 Esecuzione 0 37d
    noobaa-endpoint-68c99f7ddf-vlfbs 1/1 Esecuzione 0 37d
    noobaa-operator-79446cc789-gj66l 1/1 Esecuzione 0 38d
    ocs-client-operator-console-7d85dc6bf9-vdbhn 1/1 Esecuzione 0 9d
    ocs-client-operator-controller-manager-85bbcc7bfd-znvx4 2/2 Corsa 1 ( 6d1h fa) 37d
    ocs-metrics-exporter-858847c98f-m6x4l 1/1 Esecuzione 0 37d
    ocs-osd-removal-job-rh72h 0/1 Completato 0 22m
    ocs-provider-server-6d49cffc97-q4vfm 1/1 Esecuzione 0 37d
    odf-console-69bdbf8bc4-xt7jh 1/1 Esecuzione 0 38d
    odf-operator-controller-manager-59465654c-jmj5z 2/2 Esecuzione 0 38d
    rook-ceph-crashcollector-18f4004ce1313cc06e57f6eb215a1321-lhpn6 1/1 Esecuzione 0 37d
    rook-ceph-crashcollector-3f4d91760a68a6dbc7579b3e8b5915dd-m84jq 1/1 Esecuzione 0 8d
    rook-ceph-crashcollector-6ff2efb9f9fe11fb194447b2fbf5c1e4-85ztt 1/1 Esecuzione 0 9d
    rook-ceph-crashcollector-74af1983e44d54775407e88bf7382e9e-vchft 1/1 Esecuzione 0 37d
    rook-ceph-crashcollector-9178b690870ea615c9dc0b5706acedea-84kcs 1/1 Esecuzione 0 37d
    rook-ceph-crashcollector-e67f06af5747db0daafd2ddc1be00528-wlkn8 1/1 Esecuzione 0 46h
    rook-ceph-exporter-compute-1-ru5.isf-racka.rtp.raleigh.ibm7p7df 1/1 Esecuzione 0 37d
    rook-ceph-exporter-compute-1-ru6.isf-racka.rtp.raleigh.ibmz7qk8 1/1 Esecuzione 0 37d
    rook-ceph-exporter-compute-1-ru7.isf-racka.rtp.raleigh.ibm4v9ct 1/1 Esecuzione 0 8d
    rook-ceph-exporter-control-1-ru2.isf-racka.rtp.raleigh.ibmrd6f9 1/1 Esecuzione 0 9d
    rook-ceph-exporter-control-1-ru3.isf-racka.rtp.raleigh.ibms5wxb 1/1 Esecuzione 0 46h
    rook-ceph-exporter-control-1-ru4.isf-racka.rtp.raleigh.ibmtq9dr 1/1 Esecuzione 0 37d
    rook-ceph-mds-ocs-storagecluster-cephfilesystem-a-6b557764fgdv7 2/2 Corsa 10 ( 46h fa) 37d
    rook-ceph-mds-ocs-storagecluster-cephfilesystem-b-6d8c97d72fjts 2/2 Corsa 10 ( 46h fa) 9d
    rook-ceph-mgr-a-864fb44895-pl2n8 3/3 Esecuzione 0 46h
    rook-ceph-mgr-b-7cf6b49bcd-q5k49 3/3 Esecuzione 0 37d
    rook-ceph-mon-a-79897dd546-hbstb 2/2 Esecuzione 0 37d
    rook-ceph-mon-c-bf487b7c7-flcpf 2/2 Esecuzione 0 37d
    rook-ceph-mon-d-76f96d4fd4-h4h9t 2/2 Esecuzione 0 46h
    rook-ceph-osd-0-85fcb5fd9-5cvws 2/2 Esecuzione 0 9d
    rook-ceph-osd-1-5dd8bc8d9d-cbz7g 2/2 Esecuzione 0 37d
    rook-ceph-osd-10-7cc49487b5-bdw6w 2/2 Esecuzione 0 9d
    rook-ceph-osd-11-84cd6fb7d7-xpn22 2/2 Esecuzione 0 37d
    rook-ceph-osd-12-7bb579498c-25tzh 2/2 Esecuzione 0 9d
    rook-ceph-osd-13-866dbc7f57-kqqpn 2/2 Esecuzione 0 37d
    rook-ceph-osd-14-6f7f6dd89b-7skg8 2/2 Esecuzione 0 37d
    rook-ceph-osd-15-697c5b8577-9plff 2/2 Esecuzione 0 7h41m
    rook-ceph-osd-16-8d78df98c-khbh7 2/2 Esecuzione 0 37d
    rook-ceph-osd-17-c8ffbb5bf-q4xqb 2/2 Esecuzione 0 37d
    rook-ceph-osd-18-65f847c8d4-zpz2f 2/2 Esecuzione 0 37d
    rook-ceph-osd-2-5fd5548c56-gclrv 2/2 Esecuzione 0 37d
    rook-ceph-osd-20-b88868db5-h55h9 2/2 Esecuzione 0 37d
    rook-ceph-osd-21-556947cb6f-k29mm 2/2 Esecuzione 0 37d
    rook-ceph-osd-22-5d79578d54-b9qlb 2/2 Esecuzione 0 37d
    rook-ceph-osd-23-84bcb674c5-6jzxx 2/2 Esecuzione 0 37d
    rook-ceph-osd-24-6df4949c8c-qvczd 2/2 Esecuzione 0 37d
    rook-ceph-osd-26-5d7b7b6f46-vqgz4 2/2 Esecuzione 0 46h
    rook-ceph-osd-27-59b8c85b78-wz4pb 2/2 Esecuzione 0 46h
    rook-ceph-osd-28-54dc8db898-ml8r5 2/2 Esecuzione 0 46h
    rook-ceph-osd-29-5666b4975c-qrpm5 2/2 Esecuzione 0 46h
    rook-ceph-osd-3-7cfc7899dc-px8xm 2/2 Esecuzione 0 9d
    rook-ceph-osd-30-7cc88bfcfc-xsnvc 2/2 Esecuzione 0 37d
    rook-ceph-osd-31-78cc567d99-8jhkh 2/2 Esecuzione 0 37d
    rook-ceph-osd-32-6c5fcdfb45-4jz2q 2/2 Esecuzione 0 46h
    rook-ceph-osd-33-694f48d4f8-4sflf 2/2 Esecuzione 0 22d
    rook-ceph-osd-4-6f4fb99d7-w7vrb 2/2 Esecuzione 0 37d
    rook-ceph-osd-5-7b7ff5cfb5-blpj7 2/2 Esecuzione 0 37d
    rook-ceph-osd-6-5d9856b54f-bjpmm 2/2 Esecuzione 0 9d
    rook-ceph-osd-7-7f79d4b76-jxz8x 2/2 Esecuzione 0 37d
    rook-ceph-osd-8-75497d6999-wz296 2/2 Esecuzione 0 37d
    rook-ceph-osd-9-56d5cc7c59-w29n2 2/2 Esecuzione 0 37d
    rook-ceph-rgw-ocs-storagecluster-cephobjectstore-a-668df44tbvtn 2/2 Esecuzione 0 37d
    rook-ceph-tools-68d744d548-jwj5l 1/1 Esecuzione 0 23d
    storageclient-737342087af10580-status-reporter-29061474-tv52t 0/1 Completato 0 51s
    ux-backend-server-7796f96896-kwtsf 2/2 Esecuzione 0 38d
  7. Aggiungere un nuovo disco al nodo.
    Importante:
    • Se si inserisce un disco nuovo o inutilizzato, viene creato un nuovo PV nello stato Available .
    • Se si inserisce un disco usato come sostituto, è necessario formattarlo affinché il PV corrispondente diventi disponibile.

    Dopo aver aggiunto il nuovo disco, verificare lo stato del nuovo PV.

    Esempio di comando:
    oc get pv |grep local
    Output di esempio:
    local-pv-159e1b8e 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-11ms68d ibm-spectrum-fusion-local <unset> 37d
    local-pv-2ac8a85b 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-2xdlrk ibm-spectrum-fusion-local <unset> 37d
    local-pv-406f1af8 7153Gi RWO Cancellare i limiti openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-128sb6h ibm-spectrum-fusion-local <unset> 37d
    local-pv-451f6341 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-31wkjwp ibm-spectrum-fusion-local <unset> 37d
    local-pv-4ce100b9 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-26px6qd ibm-spectrum-fusion-local <unset> 37d
    local-pv-4da6a449 7153Gi RWO Cancellare ibm-spectrum-fusion-local <unset> disponibile 2m23s
    local-pv-521ee04f 7153Gi RWO Cancellare il vincolo openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-30g5vj5  
    .
    .
    .
    .
    local-pv-b7c4932c 7153Gi RWO Cancellare i confini openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-2825ldc ibm-spectrum-fusion-local <unset> 37d
  8. Scalare prima ocs-operator , poi rook-ceph-operator.
    1. Scale up ocs-operator.
      1. Andare alla pagina Carichi di lavoro > Distribuzioni.
      2. Fare clic su ocs-operator e controllare la scheda Deployment details.

        Ad esempio, la scheda Dettagli dell'installazione client mostra che ocs-operator ha 0 Pod.

      3. Scalare il numero di Pod a 1.
      4. Accedere alla pagina Workloads > Pods e verificare che ocs-operator sia nello stato Running nell'elenco Pods.
    2. Scale up rook-ceph-operator.
      1. Andare alla pagina Carichi di lavoro > Distribuzioni.
      2. Fare clic su rook-ceph-operator e controllare la scheda Deployment details.

        Ad esempio, la scheda Dettagli dell'installazione client mostra che rook-ceph-operator ha 0 Pod.

      3. Scalare il numero di Pod a 1.
      4. Accedere alla pagina Workloads > Pods e verificare che rook-ceph-operator sia nello stato Running nell'elenco Pods.
  9. Verificare che il nuovo Pod OSD sia in funzione.
    Esempio di comando:
    oc get -n openshift-storage pods -l app=rook-ceph-osd -o wide
    Output di esempio:
    NOME STATO PRONTO RIAVVII ETÀ IP NODO NOMINATO NODO PRONTEZZA CANCELLI
    rook-ceph-osd-0-85fcb5fd9-5cvws 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-1-5dd8bc8d9d-cbz7g 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-10-7cc49487b5-bdw6w 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-11-84cd6fb7d7-xpn22 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-12-7bb579498c-25tzh 2/2 Esecuzione 0 9d 9.42.107.150 compute-1-ru7.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-13-866dbc7f57-kqqpn 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-14-6f7f6dd89b-7skg8 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-15-697c5b8577-9plff 2/2 Esecuzione 0 8h 9.42.107.146 control-1-ru3.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-16-8d78df98c-khbh7 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-17-c8ffbb5bf-q4xqb 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-18-65f847c8d4-zpz2f 2/2 Esecuzione 0 37d 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-19-74cc9c8bc6-cc8p4 2/2 Esecuzione 0 111s 9.42.107.145 control-1-ru2.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-2-5fd5548c56-gclrv 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-20-b88868db5-h55h9 2/2 Esecuzione 0 37d 9.42.107.147 control-1-ru4.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    .
    .
    .
    rook-ceph-osd-8-75497d6999-wz296 2/2 Esecuzione 0 37d 9.42.107.148 compute-1-ru5.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
    rook-ceph-osd-9-56d5cc7c59-w29n2 2/2 Esecuzione 0 37d 9.42.107.149 compute-1-ru6.isf-racka. rtp.raleigh.ibm.com <nessuno> <nessuno>
  10. Verificare che il PV e il PVC siano stati creati correttamente.
    Esempio di comando per il PVC:
    oc get pvc -n openshift-storage |grep local-pv-4da6a449
    Esempio di comando per PV:
    oc get pv -n openshift-storage |grep local-pv-4da6a449
    Esempio di output per il PVC:
    ocs-deviceset-ibm-spectrum-fusion-local-0-data-35tw7jf Bound local-pv-4da6a449 7153Gi RWO ibm-spectrum-fusion-local <unset> 13h
    Esempio di uscita per PV:
    local-pv-4da6a449 7153Gi RWO Cancellare i limiti openshift-storage/ocs-deviceset-ibm-spectrum-fusion-local-0-data-35tw7jf ibm-spectrum-fusion-local <unset> 13h

Risultati

Il disco difettoso o l'OSD guasto sono stati sostituiti.

Operazioni successive

Attendere che il cluster di archiviazione riconcili il suo stato di salute. Se rimane nello stato Warning nonostante tutti i Pod di Fusion Data Foundation siano in esecuzione, verificare e risolvere eventuali arresti anomali precedenti.

Per verificare lo stato di salute, procedere come segue:
  • Accedere alla console web IBM Fusion e andare su Storage > Local storage per verificare lo stato dello storage locale.
  • Nella Red Hat OpenShift Container Platform nella console web, andare su Storage > Data Foundation e controllare lo stato di salute dello storage.