글로벌 데이터 플랫폼 서비스 문제

이 섹션에는 IBM 퓨전 스토리지 사용 시 문제 해결 팁과 요령이 나와 있습니다.

경고: IBM Storage Scale 팟 (Pod) 을 삭제하지 마십시오. 많은 상황에서 스케일 팟 (Pod) 을 삭제하면 가용성 및 데이터 무결성에 영향을 미칩니다.

원격 파일 시스템의 파일 시스템 상태가 연결 중 상태로 멈췄습니다

원인
보안 부팅은 Scale 및 CNSA에서 지원되지 않습니다.
분석
  1. 노드가 보안 부팅으로 실행 중인지 확인합니다:
    mokutil --sb-state
    SecureBoot 활성화
  2. 루트 비밀번호로 다음 명령을 사용하여 보안 부팅을 비활성화할 수 있습니다:
    mokutil --disable-validation
    비밀번호 길이: 8~16
    비밀번호를 입력합니다: 
    비밀번호를 다시 입력합니다: 

Cloud Pak for IntegrationCP4I으로 업그레이드한 후 Scale 포드의 CPU 사용량 증가

문제점 설명
MQ 스트림 애플리케이션의 변경으로 인해 스케일 포드 CPU 사용량이 증가했습니다. 이는 IBM MQ 생동감과 준비성 프로브 덕분입니다.
분석
파일 핸들 예약은 환경 변수 ' AMQ_NO_RESERVE_FD=1'을 설정하여 해제할 수 있습니다. 높은 CPU 사용량을 수정합니다.

스케일 연산자가 쿼럼 레이블을 추가하는 데 실패했습니다.

문제점 설명
스토리지 구성 중에 복구 그룹 상태는 "Waiting on some daemons in the recovery group to be restarted" 일 수 있습니다.
분석
  1. 다음 명령을 실행하여 쿼럼 노드의 수를 확인하십시오.
    oc get nodes -l scale.spectrum.ibm.com/designation=quorum
  2. 쿼럼 노드의 수를 확인하십시오. 노드 수가 10미만일 때마다 3개의 쿼럼 노드가 있어야 합니다. 그렇지 않으면 누락된 노드에 대해 다음 쿼럼 레이블을 적용하십시오.
    scale.spectrum.ibm.com/designation=quorum

원격 파일 시스템 연결이 연결 끊김 상태로 설정됨

문제점 설명
노드 다시 시작 또는 기타 문제로 인해 하나의 스케일 코어 팟 (Pod) 이 준비되지 않은 경우 해당 노드의 파일 시스템 마운트에서 문제가 발생하고 파일 시스템 CR이 오류를 보고합니다. 그 결과 파일 시스템이 연결 끊김 상태로 바뀌고 IBM Fusion 사용자 인터페이스에도 동일한 내용이 표시됩니다.
분석
스케일 코어 팟 (Pod) 이 준비 상태가 될 때까지 기다리십시오. 그러면 파일 시스템이 자동으로 연결됨 상태로 변경됩니다.

PVC가 보류 상태에 머물러 있음

분석
PVC가 오랫동안 보류 상태에 있는 경우에는 Scale GUI팟 (Pod) 을 다시 시작하십시오.

스토리지에 대해 스케줄된 팟 (Pod) 이 있는 노드로 인해 crashloobackoff 또는 컨테이너 작성 오류가 발생함

문제점 설명
설치, 업그레이드 또는 크기 조정 조작이 진행 중이고 스토리지 구성이 아직 완료되지 않은 경우 스토리지에 대해 스케줄된 팟 (Pod) 이 있는 노드로 인해 crashloobackoff 또는 컨테이너가 오류를 작성합니다.
분석
이 문제를 해결하려면 이러한 조작을 시작하기 전에 이러한 노드에서 스케줄을 사용 안함으로 설정하고 스토리지에 대해 구성된 노드에서 팟 (Pod) 을 스케줄하십시오.

파일 시스템이 일부 노드에 마운트되지 않았습니다.

문제점 설명
IBM Storage Scale 업그레이드 후 파일 시스템이 일부 노드에 마운트되지 않습니다.
분석
다음 임시 해결책 단계를 수행하십시오.
  1. 파일 시스템이 마운트되지 않은 문제가 있는 팟 (Pod) 을 삭제하십시오. 한 번에 하나의 팟 (Pod) 을 삭제하십시오.
  2. 팟 (Pod) 이 표시될 때까지 팟 (Pod) 개요 페이지를 새로 고치십시오 watch oc get pods를 실행하십시오.
  3. 문제가 있는 팟 (Pod) 이 가동되면 ibm-spectrum-scale-operator 네임스페이스의 Spec 섹션에서 복제본을 0으로 설정하십시오. 운영자 배치를 즉시 중지해야 합니다. ibm-spectrum-scale-operator 네임스페이스에서 실행 중인 연산자 팟 (Pod) 이 없는지 확인하십시오. 연산자 복제본을 0으로 설정하는 명령:
    oc patch deploy ibm-spectrum-scale-controller-manager \
     --type='json' -n ibm-spectrum-scale-operator \
     -p='[{"op": "replace", "path": "/spec/replicas", "value": 0}]'
    
    oc get deployment -n ibm-spectrum-scale-operator
    샘플 출력:
    
    I0420 16:56:23.579340    4184 request.go:645] Throttling request took 1.192496025s, request: GET:https://api.isf-rackk.rtp.raleigh.ibm.com:6443/apis/nmstate.io/v1beta1?timeout=32s
    NAME                                    READY   UP-TO-DATE   AVAILABLE   AGE
    ibm-spectrum-scale-controller-manager   0/0     0            0           28h
  4. 문제가 있는 팟 (Pod) 이 init 컨테이너 상태가 될 때까지 대기하고 다음 명령을 실행하십시오.
    oc exec podname -- mmsdrrestore -p <any working core ip/name[Specify pod IP where FS is mounted]>
  5. 이전 단계가 성공한 후 ibm-spectrum-scale-operator 배치에서 복제본을 다시 1로 설정하십시오.

    운영자 팟 (Pod) 이 ibm-spectrum-scale-operator 네임스페이스에서 실행 중인지 확인하십시오.

    연산자 복제본을 0으로 설정하려면 다음 명령을 실행하십시오.
    oc patch deploy ibm-spectrum-scale-controller-manager \
     --type='json' -n ibm-spectrum-scale-operator \
     -p='[{"op": "replace", "path": "/spec/replicas", "value": 1}]'
    oc get deployment -n ibm-spectrum-scale-operator
    샘플 출력:
    I0420 16:56:23.579340    4184 request.go:645] Throttling request took 1.192496025s, request: GET:https://api.isf-rackk.rtp.raleigh.ibm.com:6443/apis/nmstate.io/v1beta1?timeout=32s
    NAME                                    READY   UP-TO-DATE   AVAILABLE   AGE
    ibm-spectrum-scale-controller-manager   1/1     0            0           28h
  6. 문제가 있는 팟 (Pod) 이 실행 중 상태가 되고 파일 시스템이 이 문제가 있는 노드에 마운트될 때까지 잠시 기다리십시오.

IBM Storage Scale 사용자 인터페이스가 제대로 로드되지 않거나 IBM Storage Scale CSI팟 (Pod) 이 CrashLoopBack 상태입니다.

문제점 설명
IBM Storage Scale 사용자 인터페이스가 제대로 로드되지 않거나 IBM Storage Scale CSI팟 (Pod) 이 CrashLoopBack 상태에 있는 경우가 있습니다.
분석
임시 해결책으로 다음 단계를 수행하십시오.
  1. GUI팟 (Pod) 을 다시 시작하고 제대로 작동하는지 확인하십시오.
  2. GUI팟 (Pod) 다시 시작이 IBM Storage Scale 콘솔을 열지 않으면 ibm-spectrum-scale-controller-manager 팟 (Pod) 을 다시 시작한 후 GUI팟 (Pod) 을 다시 시작하십시오.

IBM Storage Scale 사용자 인터페이스에 로그인할 수 없음

원인
GUI팟 (Pod) /etc/gui-oauth/oauth.properties 파일에 마운트된 시크릿과 ibm-spectrum-scale-gui-oauthclient 에 있는 시크릿은 서로 다릅니다.
gui-1
sh-4.4$ cd /etc/gui-oauth/
sh-4.4$ cat oauth.properties
secret=tjCK6kE0pmCe2d8b7azw
oauthServer=https://oauth-openshift.apps.isf-racka.rtp.raleigh.ibm.com
redirectURI=https://ibm-spectrum-scale-gui-ibm-spectrum-scale.apps.isf-racka.rtp.raleigh.ibm.com/auth/redirect
clientID=ibm-spectrum-scale-gui-oauthclient
k8sAPIServer=https://172.30.0.1:443
sh-4.4$
gui_0
secret=tjCK6kE0pmCe2d8b7azw
oauthServer=https://oauth-openshift.apps.isf-racka.rtp.raleigh.ibm.com
redirectURI=https://ibm-spectrum-scale-gui-ibm-spectrum-scale.apps.isf-racka.rtp.raleigh.ibm.com/auth/redirect
clientID=ibm-spectrum-scale-gui-oauthclient
k8sAPIServer=https://172.30.0.1:443
Oauth client config (API Explorer -> OAuthClient -> ibm-spectrum-scale-gui-oauthclient)
kind: OAuthClient
apiVersion: oauth.openshift.io/v1
metadata:
  name: ibm-spectrum-scale-gui-oauthclient
  uid: a9eb9d85-33b9-4cd7-99c8-ae0213032380
  resourceVersion: ‘314932’
  creationTimestamp: ‘2022-03-29T17:09:38Z’
  labels:
    app.kubernetes.io/instance: ibm-spectrum-scale
    app.kubernetes.io/name: gui
  ownerReferences:
apiVersion: scale.spectrum.ibm.com/v1beta1
      kind: Gui
      name: ibm-spectrum-scale-gui
      uid: da23c696-5c71-405b-b9ac-c7d0ccb4dd43
      controller: true
      blockOwnerDeletion: true
  managedFields:
manager: ibm-spectrum-scale/ibm-spectrum-scale-gui
      operation: Apply
      apiVersion: oauth.openshift.io/v1
      time: ‘2022-03-29T17:09:38Z’
      fieldsType: FieldsV1
      fieldsV1:
        ‘f:grantMethod’: {}
        ‘f:metadata’:
          ‘f:labels’:
            ‘f:app.kubernetes.io/instance’: {}
            ‘f:app.kubernetes.io/name’: {}
          ‘f:ownerReferences’:
            ‘k:{“uid”:“da23c696-5c71-405b-b9ac-c7d0ccb4dd43"}’:
              .: {}
              ‘f:apiVersion’: {}
              ‘f:blockOwnerDeletion’: {}
              ‘f:controller’: {}
              ‘f:kind’: {}
              ‘f:name’: {}
              ‘f:uid’: {}
        ‘f:redirectURIs’:
          ‘v:“https://ibm-spectrum-scale-gui-ibm-spectrum-scale.apps.isf-racka.rtp.raleigh.ibm.com/auth/redirect”’: {}
        ‘f:secret’: {}
*secret: bk2_q1FqwhVhoNqOl7ob*
redirectURIs:
>-
    https://ibm-spectrum-scale-gui-ibm-spectrum-scale.apps.isf-racka.rtp.raleigh.ibm.com/auth/redirect
grantMethod: auto

분석
해결책으로 다음 단계를 수행하십시오.
  1. 해결책으로 GUI팟 (Pod) 을 다시 시작하십시오.
  2. 이전 단계 (1단계) 에서 문제가 해결되지 않으면 IBM Storage Scale Operator팟 (Pod) 을 다시 시작한 후 GUI팟 (Pod) 을 다시 시작하십시오.

모든 배치의 로그 파일 다운로드

모든 배치의 로그 파일을 다운로드할 수 없는 경우 로그 파일을 개별적으로 다운로드하십시오.

노드 드레인 및 노드 재시작의 문제

분석
이러한 노드 관련 문제를 해결하려면 IBM Fusion HCI 노드 드레인과 관련된 문제를 참조하세요.

IBM Storage Scale 클러스터가 계산 노드의 전원을 끄고 켠 후 복구하는 데 실패함

진단
클러스터를 결합하는 노드가 허용 한계를 초과하는 상황에 있는지 식별하십시오.
  1. mmhealth 가 일부 노드에서 UNKNOWN RG 상태를 보고했습니다.
  2. mmrepquota 명령이 GUI에 의해 반복적으로 생성되었으며, 이로 인해 많은 긴 대기가 발생했습니다.
  3. 많은 수의 긴 대기로 인해 클러스터 관리자 노드가 tsctl nqStatus이외의 ts cmd 에 응답하지 않습니다.

    해결 방법으로, 계획되지 않은 멀티노드 재시작 또는 장애로부터 스토리지 클러스터 복구에 정의된 단계를 따르세요.

MCO 롤아웃이 스케일 업그레이드 중에 5시간이상 진행되지 않습니다.

원인
노드가 초과 커미트되고 팟 (Pod) 한계를 사용할 수 없을 때마다 정책 롤아웃, ICSP, 가져오기 시크릿 및 MCO 롤아웃 변경사항에서 지연이 표시될 수 있습니다.
분석
해결책으로 다음 단계를 수행하십시오.
  • IBM Fusion HCI 노드는 기본적으로 정의된 대로 노드에서 최대 파드 수를 허용합니다 OpenShift® Container Platform 에 정의된 최대 포드 수를 허용하며, 그 수를 한도 내에서 유지해야 합니다. 그렇지 않으면 이 문제가 표시될 수 있습니다.

IBM Storage Scale 클러스터 상태가 위험 상태임

원인
filesystem CR에 unmounted_fs_check 가 있으므로 IBM Storage Scale 클러스터 상태가 위험 상태입니다.
분석
해결책으로 이 filesystem CR 상태가 지워질 때까지 기다리십시오. 그런 다음 IBM Storage Scale 클러스터 상태가 자동으로 정상 상태로 돌아갑니다. 문제가 오랫동안 지속되면 IBM 지원팀에 문의하세요.

디스크 크기 조정 문제

  • /dev 마운트를 테스트하기 위한 수동 단계:

    새 NVMe 디스크를 서버에 추가한 후에는 IBM Storage Scale 팟 (Pod) 에서 새 디스크를 발견할 수 없습니다. 디스크가 POD에 /dev/nvme* 디바이스 이름과 함께 표시되지 않습니다. IBM Storage Scale 에서는 디스크에 액세스하기 위해 디바이스 이름 /dev/nvme* 이 필요합니다. /dev/nvme* 디바이스 이름이 없으면 새 디스크를 복구 그룹에 추가할 수 없습니다.

    분석
    팟 (Pod) 의 /dev 에 디스크를 마운트하려면 다음 수동 단계를 수행하십시오.
    1. IBM Storage Scale 스토리지 팟 (Pod) 에 로그인하십시오.
      oc exec -it <pod name> -c <container> /bin/sh
    2. 하나 이상의 노드에서 GPFS 디먼을 중지하십시오.
      mmshutdown
    3. 다음 명령을 실행하여 호스트에서 /dev 를 마운트하십시오.
      mount -t devtmpfs none /dev
    4. /dev 의 컨텐츠가 호스트에서 온 것인지 유효성 검증하고 블록, 버스, 문자와 같은 서브디렉토리를 볼 수 있습니다.
      mmstartup