글로벌 데이터 플랫폼 서비스 문제
이 섹션에는 IBM 퓨전 스토리지 사용 시 문제 해결 팁과 요령이 나와 있습니다.
경고: IBM Storage Scale 팟 (Pod) 을 삭제하지 마십시오. 많은 상황에서 스케일 팟 (Pod) 을 삭제하면 가용성 및 데이터 무결성에 영향을 미칩니다.
원격 파일 시스템의 파일 시스템 상태가 연결 중 상태로 멈췄습니다
- 원인
- 보안 부팅은 Scale 및 CNSA에서 지원되지 않습니다.
- 분석
- 노드가 보안 부팅으로 실행 중인지 확인합니다:
mokutil --sb-stateSecureBoot 활성화
- 루트 비밀번호로 다음 명령을 사용하여 보안 부팅을 비활성화할 수 있습니다:
mokutil --disable-validation비밀번호 길이: 8~16 비밀번호를 입력합니다: 비밀번호를 다시 입력합니다:
- 노드가 보안 부팅으로 실행 중인지 확인합니다:
Cloud Pak for IntegrationCP4I으로 업그레이드한 후 Scale 포드의 CPU 사용량 증가
- 문제점 설명
- MQ 스트림 애플리케이션의 변경으로 인해 스케일 포드 CPU 사용량이 증가했습니다. 이는 IBM MQ 생동감과 준비성 프로브 덕분입니다.
- 분석
- 파일 핸들 예약은 환경 변수 '
AMQ_NO_RESERVE_FD=1'을 설정하여 해제할 수 있습니다. 높은 CPU 사용량을 수정합니다.
스케일 연산자가 쿼럼 레이블을 추가하는 데 실패했습니다.
- 문제점 설명
- 스토리지 구성 중에 복구 그룹 상태는 "
Waiting on some daemons in the recovery group to be restarted" 일 수 있습니다.
- 분석
- 다음 명령을 실행하여 쿼럼 노드의 수를 확인하십시오.
oc get nodes -l scale.spectrum.ibm.com/designation=quorum - 쿼럼 노드의 수를 확인하십시오. 노드 수가 10미만일 때마다 3개의 쿼럼 노드가 있어야 합니다. 그렇지 않으면 누락된 노드에 대해 다음 쿼럼 레이블을 적용하십시오.
scale.spectrum.ibm.com/designation=quorum
- 다음 명령을 실행하여 쿼럼 노드의 수를 확인하십시오.
원격 파일 시스템 연결이 연결 끊김 상태로 설정됨
- 문제점 설명
- 노드 다시 시작 또는 기타 문제로 인해 하나의 스케일 코어 팟 (Pod) 이 준비되지 않은 경우 해당 노드의 파일 시스템 마운트에서 문제가 발생하고 파일 시스템 CR이 오류를 보고합니다. 그 결과 파일 시스템이 연결 끊김 상태로 바뀌고 IBM Fusion 사용자 인터페이스에도 동일한 내용이 표시됩니다.
- 분석
- 스케일 코어 팟 (Pod) 이 준비 상태가 될 때까지 기다리십시오. 그러면 파일 시스템이 자동으로 연결됨 상태로 변경됩니다.
PVC가 보류 상태에 머물러 있음
- 분석
- PVC가 오랫동안 보류 상태에 있는 경우에는 Scale GUI팟 (Pod) 을 다시 시작하십시오.
스토리지에 대해 스케줄된 팟 (Pod) 이 있는 노드로 인해 crashloobackoff 또는 컨테이너 작성 오류가 발생함
- 문제점 설명
- 설치, 업그레이드 또는 크기 조정 조작이 진행 중이고 스토리지 구성이 아직 완료되지 않은 경우 스토리지에 대해 스케줄된 팟 (Pod) 이 있는 노드로 인해
crashloobackoff또는 컨테이너가 오류를 작성합니다.
- 분석
- 이 문제를 해결하려면 이러한 조작을 시작하기 전에 이러한 노드에서 스케줄을 사용 안함으로 설정하고 스토리지에 대해 구성된 노드에서 팟 (Pod) 을 스케줄하십시오.
파일 시스템이 일부 노드에 마운트되지 않았습니다.
- 문제점 설명
- IBM Storage Scale 업그레이드 후 파일 시스템이 일부 노드에 마운트되지 않습니다.
- 분석
- 다음 임시 해결책 단계를 수행하십시오.
- 파일 시스템이 마운트되지 않은 문제가 있는 팟 (Pod) 을 삭제하십시오. 한 번에 하나의 팟 (Pod) 을 삭제하십시오.
- 팟 (Pod) 이 표시될 때까지 팟 (Pod) 개요 페이지를 새로 고치십시오
watch oc get pods를 실행하십시오. - 문제가 있는 팟 (Pod) 이 가동되면
ibm-spectrum-scale-operator네임스페이스의Spec섹션에서 복제본을 0으로 설정하십시오. 운영자 배치를 즉시 중지해야 합니다.ibm-spectrum-scale-operator네임스페이스에서 실행 중인 연산자 팟 (Pod) 이 없는지 확인하십시오. 연산자 복제본을 0으로 설정하는 명령:oc patch deploy ibm-spectrum-scale-controller-manager \ --type='json' -n ibm-spectrum-scale-operator \ -p='[{"op": "replace", "path": "/spec/replicas", "value": 0}]'
샘플 출력:oc get deployment -n ibm-spectrum-scale-operatorI0420 16:56:23.579340 4184 request.go:645] Throttling request took 1.192496025s, request: GET:https://api.isf-rackk.rtp.raleigh.ibm.com:6443/apis/nmstate.io/v1beta1?timeout=32s NAME READY UP-TO-DATE AVAILABLE AGE ibm-spectrum-scale-controller-manager 0/0 0 0 28h - 문제가 있는 팟 (Pod) 이
init컨테이너 상태가 될 때까지 대기하고 다음 명령을 실행하십시오.oc exec podname -- mmsdrrestore -p <any working core ip/name[Specify pod IP where FS is mounted]> - 이전 단계가 성공한 후
ibm-spectrum-scale-operator배치에서 복제본을 다시 1로 설정하십시오.운영자 팟 (Pod) 이
ibm-spectrum-scale-operator네임스페이스에서 실행 중인지 확인하십시오.연산자 복제본을 0으로 설정하려면 다음 명령을 실행하십시오.oc patch deploy ibm-spectrum-scale-controller-manager \ --type='json' -n ibm-spectrum-scale-operator \ -p='[{"op": "replace", "path": "/spec/replicas", "value": 1}]'oc get deployment -n ibm-spectrum-scale-operator샘플 출력:I0420 16:56:23.579340 4184 request.go:645] Throttling request took 1.192496025s, request: GET:https://api.isf-rackk.rtp.raleigh.ibm.com:6443/apis/nmstate.io/v1beta1?timeout=32s NAME READY UP-TO-DATE AVAILABLE AGE ibm-spectrum-scale-controller-manager 1/1 0 0 28h - 문제가 있는 팟 (Pod) 이 실행 중 상태가 되고 파일 시스템이 이 문제가 있는 노드에 마운트될 때까지 잠시 기다리십시오.
IBM Storage Scale 사용자 인터페이스가 제대로 로드되지 않거나 IBM Storage Scale CSI팟 (Pod) 이 CrashLoopBack 상태입니다.
- 문제점 설명
- IBM Storage Scale 사용자 인터페이스가 제대로 로드되지 않거나 IBM Storage Scale CSI팟 (Pod) 이
CrashLoopBack상태에 있는 경우가 있습니다.
- 분석
- 임시 해결책으로 다음 단계를 수행하십시오.
- GUI팟 (Pod) 을 다시 시작하고 제대로 작동하는지 확인하십시오.
- GUI팟 (Pod) 다시 시작이 IBM Storage Scale 콘솔을 열지 않으면
ibm-spectrum-scale-controller-manager팟 (Pod) 을 다시 시작한 후 GUI팟 (Pod) 을 다시 시작하십시오.
IBM Storage Scale 사용자 인터페이스에 로그인할 수 없음
- 원인
- GUI팟 (Pod) /etc/gui-oauth/oauth.properties 파일에 마운트된 시크릿과
ibm-spectrum-scale-gui-oauthclient에 있는 시크릿은 서로 다릅니다.gui-1 sh-4.4$ cd /etc/gui-oauth/ sh-4.4$ cat oauth.properties secret=tjCK6kE0pmCe2d8b7azw oauthServer=https://oauth-openshift.apps.isf-racka.rtp.raleigh.ibm.com redirectURI=https://ibm-spectrum-scale-gui-ibm-spectrum-scale.apps.isf-racka.rtp.raleigh.ibm.com/auth/redirect clientID=ibm-spectrum-scale-gui-oauthclient k8sAPIServer=https://172.30.0.1:443 sh-4.4$ gui_0 secret=tjCK6kE0pmCe2d8b7azw oauthServer=https://oauth-openshift.apps.isf-racka.rtp.raleigh.ibm.com redirectURI=https://ibm-spectrum-scale-gui-ibm-spectrum-scale.apps.isf-racka.rtp.raleigh.ibm.com/auth/redirect clientID=ibm-spectrum-scale-gui-oauthclient k8sAPIServer=https://172.30.0.1:443 Oauth client config (API Explorer -> OAuthClient -> ibm-spectrum-scale-gui-oauthclient) kind: OAuthClient apiVersion: oauth.openshift.io/v1 metadata: name: ibm-spectrum-scale-gui-oauthclient uid: a9eb9d85-33b9-4cd7-99c8-ae0213032380 resourceVersion: ‘314932’ creationTimestamp: ‘2022-03-29T17:09:38Z’ labels: app.kubernetes.io/instance: ibm-spectrum-scale app.kubernetes.io/name: gui ownerReferences: apiVersion: scale.spectrum.ibm.com/v1beta1 kind: Gui name: ibm-spectrum-scale-gui uid: da23c696-5c71-405b-b9ac-c7d0ccb4dd43 controller: true blockOwnerDeletion: true managedFields: manager: ibm-spectrum-scale/ibm-spectrum-scale-gui operation: Apply apiVersion: oauth.openshift.io/v1 time: ‘2022-03-29T17:09:38Z’ fieldsType: FieldsV1 fieldsV1: ‘f:grantMethod’: {} ‘f:metadata’: ‘f:labels’: ‘f:app.kubernetes.io/instance’: {} ‘f:app.kubernetes.io/name’: {} ‘f:ownerReferences’: ‘k:{“uid”:“da23c696-5c71-405b-b9ac-c7d0ccb4dd43"}’: .: {} ‘f:apiVersion’: {} ‘f:blockOwnerDeletion’: {} ‘f:controller’: {} ‘f:kind’: {} ‘f:name’: {} ‘f:uid’: {} ‘f:redirectURIs’: ‘v:“https://ibm-spectrum-scale-gui-ibm-spectrum-scale.apps.isf-racka.rtp.raleigh.ibm.com/auth/redirect”’: {} ‘f:secret’: {} *secret: bk2_q1FqwhVhoNqOl7ob* redirectURIs: >- https://ibm-spectrum-scale-gui-ibm-spectrum-scale.apps.isf-racka.rtp.raleigh.ibm.com/auth/redirect grantMethod: auto
- 분석
- 해결책으로 다음 단계를 수행하십시오.
- 해결책으로 GUI팟 (Pod) 을 다시 시작하십시오.
- 이전 단계 (1단계) 에서 문제가 해결되지 않으면 IBM Storage Scale Operator팟 (Pod) 을 다시 시작한 후 GUI팟 (Pod) 을 다시 시작하십시오.
모든 배치의 로그 파일 다운로드
모든 배치의 로그 파일을 다운로드할 수 없는 경우 로그 파일을 개별적으로 다운로드하십시오.
노드 드레인 및 노드 재시작의 문제
- 분석
- 이러한 노드 관련 문제를 해결하려면 IBM Fusion HCI 노드 드레인과 관련된 문제를 참조하세요.
IBM Storage Scale 클러스터가 계산 노드의 전원을 끄고 켠 후 복구하는 데 실패함
- 진단
- 클러스터를 결합하는 노드가 허용 한계를 초과하는 상황에 있는지 식별하십시오.
- mmhealth 가 일부 노드에서 UNKNOWN RG 상태를 보고했습니다.
- mmrepquota 명령이 GUI에 의해 반복적으로 생성되었으며, 이로 인해 많은 긴 대기가 발생했습니다.
- 많은 수의 긴 대기로 인해 클러스터 관리자 노드가 tsctl nqStatus이외의 ts cmd 에 응답하지 않습니다.
해결 방법으로, 계획되지 않은 멀티노드 재시작 또는 장애로부터 스토리지 클러스터 복구에 정의된 단계를 따르세요.
MCO 롤아웃이 스케일 업그레이드 중에 5시간이상 진행되지 않습니다.
- 원인
- 노드가 초과 커미트되고 팟 (Pod) 한계를 사용할 수 없을 때마다 정책 롤아웃, ICSP, 가져오기 시크릿 및 MCO 롤아웃 변경사항에서 지연이 표시될 수 있습니다.
- 분석
- 해결책으로 다음 단계를 수행하십시오.
- IBM Fusion HCI 노드는 기본적으로 정의된 대로 노드에서 최대 파드 수를 허용합니다 OpenShift® Container Platform 에 정의된 최대 포드 수를 허용하며, 그 수를 한도 내에서 유지해야 합니다. 그렇지 않으면 이 문제가 표시될 수 있습니다.
IBM Storage Scale 클러스터 상태가 위험 상태임
- 원인
filesystemCR에unmounted_fs_check가 있으므로 IBM Storage Scale 클러스터 상태가 위험 상태입니다.
- 분석
- 해결책으로 이
filesystemCR 상태가 지워질 때까지 기다리십시오. 그런 다음 IBM Storage Scale 클러스터 상태가 자동으로 정상 상태로 돌아갑니다. 문제가 오랫동안 지속되면 IBM 지원팀에 문의하세요.
디스크 크기 조정 문제
/dev마운트를 테스트하기 위한 수동 단계:새 NVMe 디스크를 서버에 추가한 후에는 IBM Storage Scale 팟 (Pod) 에서 새 디스크를 발견할 수 없습니다. 디스크가 POD에 /dev/nvme* 디바이스 이름과 함께 표시되지 않습니다. IBM Storage Scale 에서는 디스크에 액세스하기 위해 디바이스 이름 /dev/nvme* 이 필요합니다. /dev/nvme* 디바이스 이름이 없으면 새 디스크를 복구 그룹에 추가할 수 없습니다.
- 분석
- 팟 (Pod) 의 /dev 에 디스크를 마운트하려면 다음 수동 단계를 수행하십시오.
- 각 IBM Storage Scale 스토리지 팟 (Pod) 에 로그인하십시오.
oc exec -it <pod name> -c <container> /bin/sh - 하나 이상의 노드에서 GPFS 디먼을 중지하십시오.
mmshutdown - 다음 명령을 실행하여 호스트에서
/dev를 마운트하십시오.mount -t devtmpfs none /dev - /dev 의 컨텐츠가 호스트에서 온 것인지 유효성 검증하고 블록, 버스, 문자와 같은 서브디렉토리를 볼 수 있습니다.
mmstartup
- 각 IBM Storage Scale 스토리지 팟 (Pod) 에 로그인하십시오.