Aggiunta di un nodo di lavoro GPU a un cluster Red Hat OpenShift su AWS
Prima di iniziare
Assicurarsi di avere i requisiti seguenti:
- Al clusterRed Hat® OpenShift® viene aggiunto un nodo worker GPU. . Le attuali offerte BYOL di AWS Maximo® Application Suite non includono nodi con GPU.
Una shell di controllo.
La shell di controllo può essere il nodo di boot. Individua la shell di controllo nel dashboard EC2 dopo l'elenco di tutte le istanze. Se il nodo di avvio è in uno stato di arresto, riavviare l'istanza. Collegarsi a questa istanza come EC2-user.Suggerimento: è possibile utilizzare Visual Studio Code per connettersi in remoto al nodo di avvio, ma non è necessario.ocjqL'istanza GPU EC2 appropriata è selezionata e ha una disponibilità sufficiente nella regione in cui è installata l'istanza Maximo Application Suite .
Ottieni tali informazioni dalla pagina del tipo di istanza ubicata dopo il servizio EC2 nella console AWS .
Ad esempio, se è stata distribuita l'istanza Maximo Application Suite nella region
us-east-1, andare alla pagina del tipo di istanza EC2 per tale region passando al sito web AWS . La pagina del tipo di istanza descrive in dettaglio le informazioni su calcolo, rete, archiviazione, acceleratori e prezzi. La sezione di rete descrive in dettaglio le zone di disponibilità.
Informazioni su questa attività
Per ulteriori informazioni sui processi in questa attività, consultare:
- AWS Istanze GPU consigliate
- Nota: AWS offre le istanze EC2 che vengono con le GPU. Utilizzare
p3.2xlargecome tipo di istanza EC2 per MVI. - Installa & utilizza GPU su AWS
- Creazione di una serie di macchine su AWS
Procedura
Operazioni successive
Per verificare che il processo sia stato completato correttamente o nelle istanze in cui si verificano degli errori, assicurati di eseguire i comandi nello spazio dei nomi openshift-machine-api .
Quindi, eseguire il comando oc create -f <machine set custom resource> (Passo 12). L'output indica sempre che la macchina è stata creata. Tuttavia, se si verifica un malfunzionamento nella creazione della macchina, la serie di macchine non è pronta e disponibile. L'esecuzione oc get machine può indicare immediatamente il guasto:
Eseguire il comando oc get machine. L'output indica che è stato eseguito il provisioning della macchina:
NOME FASE TIPO REGIONE ZONA ETÀ masocp-qxkeml-wh7px-master-0 Esecuzione di m5.2xlarge us-east-1 us-east-1a 18h masocp-qxkeml-wh7px-master-1 Esecuzione di m5.2xlarge us-east-1 us-east-1b 18h masocp-qxkeml-wh7px-master-2 Esecuzione di m5.2xlarge us-east-1 us-east-1c 18h masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd Non riuscito 4s masocp-qxkeml-wh7px-worker-gpu-us-east-1a-nhldx Non riuscito 20s masocp-qxkeml-wh7px-worker-us-east-1a-h2c8g Esecuzione di m5.4xlarge us-east-1 us-east-1a 18h masocp-qxkeml-wh7px-worker-us-east-1a-p7mt9 Esecuzione di m5.4xlarge us-east-1 us-east-1a 18h masocp-qxkeml-wh7px-worker-us-east-1b-4rlrq Esecuzione di m5.4xlarge us-east-1 us-east-1b 18h masocp-qxkeml-wh7px-worker-us-east-1b-dhv6g Esecuzione di m5.4xlarge us-east-1 us-east-1b 18h masocp-qxkeml-wh7px-worker-us-east-1c-ks85p Esecuzione m5.4xlarge us-east-1 us-east-1c 18h masocp-qxkeml-wh7px-workerocs-us-east-1a-9r6pj Esecuzione di m5.4xlarge us-east-1 us-east-1a 17h masocp-qxkeml-wh7px-workerocs-us-east-1b-p9psl Esecuzione di m5.4xlarge us-east-1 us-east-1b 17h masocp-qxkeml-wh7px-workerocs-us-east-1c-94d7q Esecuzione di m5.4xlarge us-east-1 us-east-1c 17h |
oc describe machine <machine name> o oc describe machineset <machineset name> e controllare il messaggio di errore elencato dopo Stato o Eventi:Stato:
Condizioni:
Ora ultima transizione: 2022-05-26T15:20:25Z
Messaggio: l'istanza non è stata creata
Motivo: InstanceNotCreated
Severità: Avvertenza
Stato: False
Tipo: InstanceExists
Messaggio di errore: errore durante l'avvio dell'istanza: il tipo di istanza richiesta (p3.2xlarge) non è supportata nella zona di disponibilità richiesta (us-east-1a). Ritentare la richiesta non specificando una zona di disponibilità o scegliendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.
Motivo dell'errore InvalidConfiguration
Ultimo aggiornamento: 2022-05-26T15:20:26Z
Fase: non riuscita
Stato provider:
Condizioni:
Ora ultima analisi: 2022-05-26T15:20:26Z
Ora ultima transizione: 2022-05-26T15:20:26Z
Messaggio: errore durante l'avvio dell'istanza: il tuo tipo di istanza richiesta (p3.2xlarge) non è supportato nella tua zona di disponibilità richiesta (us-east-1a). Ritentare la richiesta non specificando una zona di disponibilità o scegliendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.
Motivo: MachineCreationFailed
Stato: False
Tipo: MachineCreation
Eventi:
Durata motivo tipo da messaggio
---- ------ ---- ---- -------
Avvertenza FailedCreate 52s (x2 over 53s) awscontroller masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd: il riconciliatore non è riuscito a creare la macchina: impossibile avviare l'istanza: errore di avvio istanza: il tuo tipo di istanza richiesto (p3.2xlarge) non è supportato nella tua zona di disponibilità richiesta (us-east-1a). Ritentare la richiesta non specificando una zona di disponibilità o scegliendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.
|
oc delete machineset <machineset name>
Modificare il valore availabilityZone nella risorsa personalizzata e rieseguire oc
create -f <customresource.json>. Monitorare la creazione della serie di macchine e delle macchine utilizzando i comandi elencati al passo 13. Per eventuali altri tipi di errori, eliminare la serie di macchine, modificare la risorsa personalizzata e ricreare la serie di macchine utilizzando il file JSON della risorsa personalizzata modificato.