Maximo Application Suite Gestionado por el cliente

Adición de un nodo trabajador de GPU a un clúster de Red Hat OpenShift en AWS

Antes de empezar

Asegúrese de que tiene los siguientes requisitos:

Se añade un nodo trabajador GPU al clústerRed Hat® OpenShift®. . Las ofertas BYOL actuales de AWS Maximo® Application Suite no incluyen nodos con GPU.
Un shell de control.

El shell de control puede ser el nodo de arranque. Localice el shell de control en el panel de control EC2 después de la lista de todas las instancias. Si el nodo de arranque está en un estado detenido, reinicie la instancia. Conéctese a esta instancia como EC2-user.
Sugerencia: Puede utilizar Visual Studio Code para conectarse de forma remota al nodo de arranque, pero no es necesario.

oc jq
La instancia de GPU EC2 adecuada está seleccionada y tiene suficiente disponibilidad en la región donde está instalada la instancia de Maximo Application Suite .

Obtenga esta información de la página de tipo de instancia que se encuentra después del servicio EC2 en la consola AWS .

Por ejemplo, si ha desplegado la instancia de Maximo Application Suite en la región us-east-1 , vaya a la página de tipo de instancia EC2 para dicha región navegando al sitio web AWS . La página de tipo de instancia detalla la información de cálculo, red, almacenamiento, aceleradores y precios. La sección de red detalla las zonas de disponibilidad.

Acerca de esta tarea

Para obtener más información sobre los procesos de esta tarea, consulte:

Instancias de GPU recomendadas deAWS
Nota: AWS ofrece EC2 instancias que vienen con GPU. Utilice p3.2xlarge como el tipo de instancia EC2 para MVI.
Instalar y utilizar GPU en AWS
Creación de un conjunto de máquinas en AWS

Procedimiento

En el shell de control, inicie sesión como masocpuser (o kubeadmin).
Cambie al espacio de nombres openshift-machine-api .
```
oc project openshift-machine-api
```
Nota:
Si el espacio de nombres no está conmutado, utilice el distintivo -n y proporcione openshift-machine-api como argumento en los pasos siguientes.
Listar las máquinas disponibles en el clúster.
```
oc get machineset -o name
```
Seleccione un conjunto de máquinas adecuado como plantilla para el recurso personalizado YAML del nuevo nodo trabajador de GPU. Elija un conjunto de máquinas que se encuentre en la misma zona de disponibilidad que el tipo de instancia EC2 de GPU que se utilizará para crear el nuevo nodo.
Por ejemplo, si p3.2xlarge está disponible en us-east-1b, elija un conjunto de máquinas que tenga us-east-1b como parte de su nombre.

Asigne una variable para el nombre de conjunto de máquinas de plantilla.

Por ejemplo:


SOURCE_MACHINESET=machine set.machine.openshift.io/masocp-4kyowr-mm5b5-worker-us-east-1b

Copie el recurso personalizado del conjunto de máquinas de origen en un archivo nuevo.
```
oc get -o json  $SOURCE_MACHINESET  | jq -r > source-machineset.json
```
Nota: El archivo source-machineset.json se crea en la carpeta actual.

Defina las variables que se van a utilizar para más adelante.


OLD_MACHINESET_NAME=$(jq '.metadata.name' -r source-machineset.json)


NEW_MACHINESET_NAME=${OLD_MACHINESET_NAME/worker/worker-gpu}

Cambie el instanceType y, si es necesario, cambie el número de réplicas. Suprima algunos metadatos y copie el código resultante en un archivo nuevo gpu-machineset.json. Este archivo se utiliza para crear el nuevo conjunto de máquinas con la GPU.


jq -r '.spec.template.spec.providerSpec.value.instanceType = "p3.2xlarge"
  | .spec.replicas = 1
  | del(.metadata.selfLink)
  | del(.metadata.uid)
  | del(.metadata.creationTimestamp)
  | del(.metadata.resourceVersion)
  ' source-machineset.json > gpu-machineset.json

Cambie el nombre del conjunto de máquinas en gpu-machineset.json.


sed -i "s/$OLD_MACHINESET_NAME/$NEW_MACHINESET_NAME/g" gpu-machineset.json

Ejecute el mandato diff para comprobar los cambios.
```
diff -Nuar source-machineset.json gpu-machineset.json
```
Para obtener más información, consulte Instalar y utilizar GPU en AWS.
Compruebe el valor de availabilityZone (que se encuentra en spec.template.spec.providerSpec.value.placement). Asegúrese de que el nuevo tipo de instancia (p3.2xlarge) tiene la misma zona de disponibilidad, o puede omitir el par de clave-valor availability del archivo JSON. Si no es así, se muestra un error después de crear el conjunto de máquinas. Para obtener más información, consulte la sección de resolución de problemas al final de esta tarea.

Crear un conjunto de máquinas:


oc create -f gpu-machineset.json

Salida de ejemplo

machineset.machine.openshift.io/masocp-4kyowr-mm5b5-worker-gpu-us-east-1b creado

Verifique que se haya creado el conjunto de máquinas.


oc get machineset

Salida de ejemplo

NOMBRE DESEADO ACTUAL LISTO DISPONIBLE ANTIGÜEDAD DISPONIBLE
masocp-4kyowr-mm5b5-worker-gpu-us-east-1b 1 1 10s
masocp-4kyowr-mm5b5-worker-us-east-1a 3 3 3 3 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1b 2 2 2 2 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1c 2 2 2 2 7d8h
masocp-4kyowr-mm5b5-workerocs-us-east-1a 1 1 1 1 7d7h
masocp-4kyowr-mm5b5-workerocs-us-east-1b 1 1 1 1 7d7h
masocp-4kyowr-mm5b5-workerocs-us-east-1c 1 1 1 1 7d7h

Nota: La salida muestra que el nuevo nodo GPU se ha creado pero aún no está preparado y disponible.

Obtenga la lista de máquinas para mostrar el estado:


oc get machine

Salida de ejemplo

NOMBRE FASE TIPO REGIÓN ZONA ANTIGÜEDAD                                             
masocp-4kyowr-mm5b5-master-0 En ejecución m5.2xlarge us-east-1 us-east-1a 7d8h
masocp-4kyowr-mm5b5-master-1 En ejecución m5.2xlarge us-east-1 us-east-1b 7d8h
masocp-4kyowr-mm5b5-master-2 En ejecución m5.2xlarge us-east-1 us-east-1c 7d8h
masocp-4kyowr-mm5b5-master-3 En ejecución m5.2xlarge us-east-1 us-east-1a 7d8h
masocp-4kyowr-mm5b5-master-4 En ejecución m5.2xlarge us-east-1 us-east-1b 7d8h
masocp-4kyowr-mm5b5-worker-gpu-us-east-1b-nrr4n Suministro p3.2xlarge us-east-1 us-east-1b 22s
masocp-4kyowr-mm5b5-worker-us-east-1a-kx449 En ejecución m5.4xlarge us-east-1 us-east-1a 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1a-nn72q En ejecución m5.4xlarge us-east-1 us-east-1a 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1a-p5nqf Running m5.4xlarge us-east-1 us-east-1a 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1b-7r5wz Running m5.4xlarge us-east-1 us-east-1b 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1b-94khr En ejecución m5.4xlarge us-east-1 us-east-1b 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1c-fvv52 En ejecución m5.4xlarge us-east-1 us-east-1c 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1c-rsnwf En ejecución m5.4xlarge us-east-1 us-east-1c 7d8h
masocp-4kyowr-mm5b5-workerocs-us-east-1a-hwb4m En ejecución m5.4xlarge us-east-1 us-east-1a 7d7h
masocp-4kyowr-mm5b5-workerocs-us-east-1b-979w8 En ejecución m5.4xlarge us-east-1 us-east-1b 7d7h
masocp-4kyowr-mm5b5-workerocs-us-east-1c-85ktb En ejecución m5.4xlarge us-east-1 us-east-1c 7d7h

Cuando se realiza el suministro del conjunto de máquinas, la salida para oc get machineset es similar al ejemplo siguiente:

Salida de ejemplo

NOMBRE DESEADO ACTUAL LISTO DISPONIBLE ANTIGÜEDAD DISPONIBLE
masocp-4kyowr-mm5b5-worker-gpu-us-east-1b 1 1 1 1 3m38s
masocp-4kyowr-mm5b5-worker-us-east-1a 3 3 3 3 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1b 2 2 2 2 7d8h
masocp-4kyowr-mm5b5-worker-us-east-1c 2 2 2 2 7d8h
masocp-4kyowr-mm5b5-workerocs-us-east-1a 1 1 1 1 7d7h
masocp-4kyowr-mm5b5-workerocs-us-east-1b 1 1 1 1 7d7h
masocp-4kyowr-mm5b5-workerocs-us-east-1c 1 1 1 1 7d7h

Ejecute el mandato oc get machine . La salida indica que la máquina se ha suministrado:

Salida de ejemplo

NOMBRE FASE TIPO REGIÓN ZONA ANTIGÜEDAD
...
masocp-4kyowr-mm5b5-master-3 En ejecución m5.2xlarge us-east-1 us-east-1a 7d8h
masocp-4kyowr-mm5b5-master-4 En ejecución m5.2xlarge us-east-1 us-east-1b 7d8h
masocp-4kyowr-mm5b5-worker-gpu-us-east-1b-nrr4n Suministrado p3.2xlarge us-east-1 us-east-1b 107s
masocp-4kyowr-mm5b5-worker-us-east-1a-kx449 En ejecución m5.4xlarge us-east-1 us-east-1a 7d8h
...

Nota: También puede comprobar la consola de Red Hat OpenShift , pulsando Calcular > Nodos o pulse Calcular > Conjuntos de máquinas.

Qué hacer a continuación

Para verificar que el proceso se ha completado correctamente, o en instancias en las que se producen errores, asegúrese de ejecutar los mandatos en el espacio de nombres openshift-machine-api .

A continuación, ejecute el mandato oc create -f <machine set custom resource> (Paso 12). La salida siempre indica que se ha creado la máquina. Sin embargo, si hay un error en la creación de la máquina, el conjunto de máquinas no está preparado y disponible. La ejecución de oc get machine puede indicar inmediatamente la anomalía:

Ejecute el mandato oc get machine. La salida indica que la máquina se ha suministrado:

Salida de ejemplo

NOMBRE FASE TIPO REGIÓN ZONA ANTIGÜEDAD
masocp-qxkeml-wh7px-master-0 En ejecución m5.2xlarge us-east-1 us-east-1a 18h
masocp-qxkeml-wh7px-master-1 En ejecución m5.2xlarge us-east-1 us-east-1b 18h
masocp-qxkeml-wh7px-master-2 En ejecución m5.2xlarge us-east-1 us-east-1c 18h
masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd Anómalo 4s
masocp-qxkeml-wh7px-worker-gpu-us-east-1a-nhldx Anómalo 20s
masocp-qxkeml-wh7px-worker-us-east-1a-h2c8g En ejecución m5.4xlarge us-east-1 us-east-1a 18h
masocp-qxkeml-wh7px-worker-us-east-1a-p7mt9 En ejecución m5.4xlarge us-east-1 us-east-1a 18h
masocp-qxkeml-wh7px-worker-us-east-1b-4rlrq En ejecución m5.4xlarge us-east-1 us-east-1b 18h
masocp-qxkeml-wh7px-worker-us-east-1b-dhv6g En ejecución m5.4xlarge us-east-1 us-east-1b 18h
masocp-qxkeml-wh7px-worker-us-east-1c-ks85p En ejecución m5.4xlarge us-east-1 us-east-1c 18h
masocp-qxkeml-wh7px-workerocs-us-east-1a-9r6pj Running m5.4xlarge us-east-1 us-east-1a 17h
masocp-qxkeml-wh7px-workerocs-us-east-1b-p9psl Running m5.4xlarge us-east-1 us-east-1b 17h
masocp-qxkeml-wh7px-workerocs-us-east-1c-94d7q En ejecución m5.4xlarge us-east-1 us-east-1c 17h

Para ver la razón de la anomalía, ejecute oc describe machine <machine name> o oc describe machineset <machineset name> y compruebe el mensaje de error que aparece después de Estado o Sucesos:

Estado:
  Condiciones:
    Última hora de transición: 2022-05-26T15:20:25Z
    Mensaje: No se ha creado la instancia
    Motivo: InstanceNotCreated
    Gravedad: Aviso
    Estado: False
    Tipo: InstanceExists
  Mensaje de error: error al iniciar la instancia: el tipo de instancia solicitado (p3.2xlarge) no está soportado en la zona de disponibilidad solicitada (us-east-1a). Vuelva a intentar la solicitud no especificando una zona de disponibilidad o eligiendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.
  Razón del error: InvalidConfiguration
  Última actualización: 2022-05-26T15:20:26Z
  Fase: Fallido
  Estado de proveedor:
    Condiciones:
      Hora del último sondeo: 2022-05-26T15:20:26Z
      Última hora de transición: 2022-05-26T15:20:26Z
      Mensaje: error al iniciar la instancia: el tipo de instancia solicitado (p3.2xlarge) no está soportado en la zona de disponibilidad solicitada (us-east-1a). Vuelva a intentar la solicitud no especificando una zona de disponibilidad o eligiendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.
      Razón:               MachineCreationFailed
      Estado: False
      Tipo: MachineCreation
Sucesos:
  Type     Reason        Age   From            Message
  ----     ------        ----               ----           -------
  Aviso FailedCreate 52s (x2 sobre 53s) awscontroller masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd: reconciler no ha podido crear la máquina: no ha podido iniciar la instancia: error al iniciar la instancia: El tipo de instancia solicitado (p3.2xlarge) no está soportado en la zona de disponibilidad solicitada (us-east-1a). Vuelva a intentar la solicitud no especificando una zona de disponibilidad o eligiendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.

En este caso, puede suprimir el conjunto de máquinas:

 oc delete machineset <machineset name>

Edite el valor availabilityZone en el recurso personalizado y vuelva a ejecutar oc create -f <customresource.json>. Supervise la creación del conjunto de máquinas y de las máquinas utilizando los mandatos que se listan en el paso 13. Para cualquier otro tipo de error, suprima el conjunto de máquinas, edite el recurso personalizado y vuelva a crear el conjunto de máquinas utilizando el archivo JSON de recursos personalizados editado.