Global Data Platform을 사용하여 IBM Fusion HCI 랙 종료 및 재시작

글로벌 데이터 플랫폼 스토리지로 IBM 퓨전 랙을 정상적으로 재시작하는 절차.

시작하기 전에

설치 OpenShift® 명령줄 인터페이스(CLI):
  1. 로그인 OpenShift Container Platform 웹 콘솔에 로그인합니다.
  2. 클릭 ? 를 클릭하고 명령줄 도구를 클릭합니다.

    명령줄 도구 페이지가 표시됩니다.

  3. 명령줄 도구에서 <사용 중인 플랫폼>에 대한 oc 다운로드를 클릭합니다.
  4. 파일을 저장하십시오.
  5. 다운로드한 아카이브 파일의 압축을 풉니다.
  6. oc 바이너리를 경로의 디렉터리로 이동합니다.
  7. 파일을 실행하여 OpenShift CLI.

프로시저

  1. 랙을 내려놓기 전에 시스템 상태 확인을 캡처합니다. 전원을 켠 후 기존 문제가 있는지 확인하는 데 도움이 됩니다.
    1. 머신 구성 또는 업데이트가 진행 중이거나 준비되지 않은 노드가 없는지 확인합니다
    2. 확인하려면 다음 명령을 실행합니다:
      oc get co
      oc get clusterversion
    3. 다음 명령을 실행하여 파드, 클러스터 오퍼레이터 및 노드를 나열합니다.
      
      oc get po -A | grep -v Running | grep -v Completed
      oc get nodes
    4. ibm-spectrum-scale 네임스페이스로 변경합니다:
      oc project ibm-spectrum-scale   
    5. 실행 중인 포드에 로그인합니다. 예: compute-1-ru5 pod:
      oc rsh compute-1-ru5
    6. 다음 명령을 실행하여 하나 이상의 노드에서 GPFS 데몬의 상태를 확인합니다.
      mmgetstate -a
    7. 다음 명령을 실행하여 GPFS 클러스터의 현재 구성 정보를 표시합니다.
      mmlscluster
    참고: 상태 확인은 다른 시스템에 저장해야 합니다.
  2. 활성 백업 및 복원 작업이 있는지 확인합니다. 백업 및 복원 또는 애플리케이션 동기화가 진행 중이면 완료될 때까지 기다리세요. 진행 중인 워크로드 작업이 완료될 때까지 기다립니다. 스토리지 클러스터 종료를 진행하기 전에 작업 또는 애플리케이션에 대해 진행 중인 데이터가 없는지 확인하세요.
  3. 랙이 독립형인지 또는 재해 복구 설정( Metro-DR )에 있는지 여부에 따라 다음 단계를 실행하세요:
    독립형
    1. 다음 명령을 실행하여 종료합니다:
      mmshutdown -a
    2. 다음 명령을 실행하여 모든 노드가 다운되었는지 확인합니다:
      
      mmgetstate -a 
    3. 포드에서 나가기
      exit
    Metro-DR

    사이트를 종료할 계획이라면 애플리케이션을 다른 사이트로 장애 조치해야 합니다.

    1. 파드 터미널에서 직접 mmshutdown 을 사용하여 영향을 받는 사이트의 스케일 파드를 종료합니다.
    2. exit 실행하여 포드에서 나가기
  4. 다음 스토리지 명령을 실행하여 스토리지 클러스터를 종료합니다.
    1. 프로젝트를 ibm-spectrum-scale-operator 으로 전환합니다.
      oc project ibm-spectrum-scale-operator
    2. 배포 구성에서 복제본을 설정합니다:
      oc scale --replicas=0 deployment ibm-spectrum-scale-controller-manager
    3. 프로젝트를 ibm-spectrum-scale 으로 전환합니다.
      oc project ibm-spectrum-scale  
    4. 로그인 compute-1-ru<x>:
      oc rsh compute-1-ru<x> 
  5. IBM 데이터 카탈로그 작성을 사용 설정한 경우 서비스를 유휴 상태로 설정합니다 Red Hat® OpenShift 환경으로 설정합니다. 종료 절차에 대한 자세한 내용은 IBM 데이터 카탈로그에서 유예 종료하기를 참조하세요.
  6. Red Hat OpenShift Container Platform 클러스터를 종료합니다.
    1. 클러스터 전체 프록시가 활성화된 경우 oc 명령을 실행하려는 바스티온 노드에서 NO_PROXY, HTTP_PROXY 및 HTTPS_PROXY 환경 변수를 내보내야 합니다. 프록시가 활성화되어 있는지 확인하려면 아래 명령을 실행하세요:
      oc get proxy cluster -o yaml
    2. etcd 백업을 수행합니다.
      oc debug node/<node_name> (any one control node)
      sh-4.15# /usr/local/bin/cluster-backup.sh /home/core/assets/backup
    3. etcd 백업을 외부 시스템에 복사합니다.
      snapshot_.db and static_kuberesources_.tar.gz
      oc rsync 명령을 사용하여 파일을 외부 시스템으로 복사할 수 있습니다. 이 작업을 수행하려면 두 개의 터미널이 필요합니다.
      1. 1번 터미널을 엽니다.
      2. etcd 백업에 대해 다음 명령을 실행합니다:
        
        oc debug node/<node_name> 
        sh-4.15# /usr/local/bin/cluster-backup.sh /home/core/assets/backup
        oc debug node/<node_name> 명령에서 제어 노드를 하나만 사용합니다.
      3. 다음 명령을 실행하고 새 포드 이름을 기록합니다:

        소스 포드이며 백업 파일은 포드 내부에 있습니다.

        oc debug
        터미널 1을 닫지 마세요.
      4. 터미널 2를 열고 다음 명령을 실행하여 파일을 로컬 폴더에 복사합니다:
        oc -n <namespace_of_debug_pod> rsync <source_podname_in_above_step>:/home/core/assets/backup/snapshot_.db <local_folder_path> 

        필요한 경우 디버그 노드 파드 위치의 네임스페이스를 추가합니다.

      5. 2단계를 반복하여 다른 백업 파일을 외부 시스템에 복사합니다.
      6. 모든 파일이 복사된 후 터미널 창을 닫습니다.
      절차에 대한 자세한 내용은 로컬 파일을 원격 디렉터리로 또는 원격 디렉터리에서 복사하기를 참조하세요.
    4. 노드를 종료하기 전에 워크로드를 제거해야 합니다.
    5. 다음 명령을 실행하여 노드를 종료합니다:
      IBM 퓨전 운영자를 호스팅하는 제어 노드의 전원이 마지막으로 꺼져 있는지 확인합니다. 이 노드를 조기에 종료하면 IBM 퓨전 및 사용자 인터페이스에 대한 액세스 권한이 모두 손실됩니다 OpenShift Container Platform 사용자 인터페이스에 액세스할 수 없게 됩니다.
      마지막으로 OpenShift 컨트롤 플레인 노드를 종료합니다.
      
      for node in $(oc get nodes -o jsonpath='{.items[*].metadata.name}');
      do oc debug node/${node} -- chroot /host shutdown -h 1;
      done
      3~5분 후 Red Hat OpenShift Container Platform 에 액세스할 수 없게 됩니다.

      이 단계에서는 랙의 모든 소프트웨어를 다운시킵니다. 랙의 전원을 끌 준비가 되었습니다.

  7. 노드의 전원 끄기 버튼을 물리적으로 누릅니다.
    참고:
    • 이 물리적 전원 끄기는 BMC(베이스보드 관리 컨트롤러)에 노드의 전원을 계속 끄겠다는 의사를 표시하고 자동 재시작을 방지합니다.
    • 스위치에는 종료 옵션이 없으며 재부팅만 할 수 있습니다. 전체 랙의 전원을 끄면(플러그를 뽑으면) 스위치가 자동으로 종료됩니다. 마찬가지로 랙에 전원이 복구되면 스위치가 자동으로 켜집니다.
  8. 랙의 전원을 켭니다.
    1. 랙의 전원을 켭니다.
    2. 물리적 노드로 이동하여 전원 버튼을 클릭하여 모든 노드의 전원을 켭니다.
      모든 제어 노드의 전원을 켭니다. 모든 제어 노드가 가동되면 컴퓨팅 노드의 전원을 켭니다.
    3. 모든 노드가 가동되고 클러스터 운영자(이미지 레지스트리 제외)가 가동된 후 다음 명령을 실행하여 OpenShift 클러스터가 IBM Fusion 운영자와 함께 가동되는지 확인합니다.
      oc get po -A | grep -v Running | grep -v Completed
      oc get co  
      oc get nodes
    4. 글로벌 데이터 플랫폼의 경우 규모를 다시 가져옵니다.
      oc project ibm-spectrum-scale-operator
         oc scale --replicas=1 deployment ibm-spectrum-scale-controller-manager

      몇 분 정도 기다렸다가 클러스터 또는 스토리지 대시보드를 확인하세요.

    5. 다음 명령을 실행하여 스토리지 포드가 가동 중인지 확인합니다:
      글로벌 데이터 플랫폼
      1. 네임스페이스를 ibm-spectrum-scale 로 전환합니다:
        oc project ibm-spectrum-scale
        
      2. ibm-spectrum-scale 프로젝트에서 모든 파드가 실행 중 상태인지 확인합니다:
        oc get pods 
      3. 노드에서 명령을 실행하려면 다음 rsh 명령을 실행합니다:
        oc rsh compute-t-ru<x>
      4. 다음 명령을 실행하여 하나 이상의 노드에서 GPFS 데몬의 상태를 확인합니다.
        mmgetstate -a
      5. 프로젝트를 ibm-spectrum-scale-csi 으로 전환합니다:
        oc project ibm-spectrum-scale-csi
      6. ibm-spectrum-scale-csi 프로젝트에서 모든 파드가 실행 중 상태인지 확인합니다. 시간이 걸릴 수 있습니다.
        oc get pods
  9. IBM 데이터 카탈로그를 실행 상태로 되돌립니다.