Adición de un nodo trabajador de GPU a un clúster de Red Hat OpenShift en AWS
Antes de empezar
Asegúrese de que tiene los siguientes requisitos:
- Se añade un nodo trabajador GPU al clústerRed Hat® OpenShift®. . Las ofertas BYOL actuales de AWS Maximo® Application Suite no incluyen nodos con GPU.
Un shell de control.
El shell de control puede ser el nodo de arranque. Localice el shell de control en el panel de control EC2 después de la lista de todas las instancias. Si el nodo de arranque está en un estado detenido, reinicie la instancia. Conéctese a esta instancia como EC2-user.Sugerencia: Puede utilizar Visual Studio Code para conectarse de forma remota al nodo de arranque, pero no es necesario.ocjqLa instancia de GPU EC2 adecuada está seleccionada y tiene suficiente disponibilidad en la región donde está instalada la instancia de Maximo Application Suite .
Obtenga esta información de la página de tipo de instancia que se encuentra después del servicio EC2 en la consola AWS .
Por ejemplo, si ha desplegado la instancia de Maximo Application Suite en la región
us-east-1, vaya a la página de tipo de instancia EC2 para dicha región navegando al sitio web AWS . La página de tipo de instancia detalla la información de cálculo, red, almacenamiento, aceleradores y precios. La sección de red detalla las zonas de disponibilidad.
Acerca de esta tarea
Para obtener más información sobre los procesos de esta tarea, consulte:
- Instancias de GPU recomendadas deAWS
- Nota: AWS ofrece EC2 instancias que vienen con GPU. Utilice
p3.2xlargecomo el tipo de instancia EC2 para MVI. - Instalar y utilizar GPU en AWS
- Creación de un conjunto de máquinas en AWS
Procedimiento
Qué hacer a continuación
Para verificar que el proceso se ha completado correctamente, o en instancias en las que se producen errores, asegúrese de ejecutar los mandatos en el espacio de nombres openshift-machine-api .
A continuación, ejecute el mandato oc create -f <machine set custom resource> (Paso 12). La salida siempre indica que se ha creado la máquina. Sin embargo, si hay un error en la creación de la máquina, el conjunto de máquinas no está preparado y disponible. La ejecución de oc get machine puede indicar inmediatamente la anomalía:
Ejecute el mandato oc get machine. La salida indica que la máquina se ha suministrado:
NOMBRE FASE TIPO REGIÓN ZONA ANTIGÜEDAD masocp-qxkeml-wh7px-master-0 En ejecución m5.2xlarge us-east-1 us-east-1a 18h masocp-qxkeml-wh7px-master-1 En ejecución m5.2xlarge us-east-1 us-east-1b 18h masocp-qxkeml-wh7px-master-2 En ejecución m5.2xlarge us-east-1 us-east-1c 18h masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd Anómalo 4s masocp-qxkeml-wh7px-worker-gpu-us-east-1a-nhldx Anómalo 20s masocp-qxkeml-wh7px-worker-us-east-1a-h2c8g En ejecución m5.4xlarge us-east-1 us-east-1a 18h masocp-qxkeml-wh7px-worker-us-east-1a-p7mt9 En ejecución m5.4xlarge us-east-1 us-east-1a 18h masocp-qxkeml-wh7px-worker-us-east-1b-4rlrq En ejecución m5.4xlarge us-east-1 us-east-1b 18h masocp-qxkeml-wh7px-worker-us-east-1b-dhv6g En ejecución m5.4xlarge us-east-1 us-east-1b 18h masocp-qxkeml-wh7px-worker-us-east-1c-ks85p En ejecución m5.4xlarge us-east-1 us-east-1c 18h masocp-qxkeml-wh7px-workerocs-us-east-1a-9r6pj Running m5.4xlarge us-east-1 us-east-1a 17h masocp-qxkeml-wh7px-workerocs-us-east-1b-p9psl Running m5.4xlarge us-east-1 us-east-1b 17h masocp-qxkeml-wh7px-workerocs-us-east-1c-94d7q En ejecución m5.4xlarge us-east-1 us-east-1c 17h |
oc describe machine <machine name> o oc describe machineset <machineset name> y compruebe el mensaje de error que aparece después de Estado o Sucesos:Estado:
Condiciones:
Última hora de transición: 2022-05-26T15:20:25Z
Mensaje: No se ha creado la instancia
Motivo: InstanceNotCreated
Gravedad: Aviso
Estado: False
Tipo: InstanceExists
Mensaje de error: error al iniciar la instancia: el tipo de instancia solicitado (p3.2xlarge) no está soportado en la zona de disponibilidad solicitada (us-east-1a). Vuelva a intentar la solicitud no especificando una zona de disponibilidad o eligiendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.
Razón del error: InvalidConfiguration
Última actualización: 2022-05-26T15:20:26Z
Fase: Fallido
Estado de proveedor:
Condiciones:
Hora del último sondeo: 2022-05-26T15:20:26Z
Última hora de transición: 2022-05-26T15:20:26Z
Mensaje: error al iniciar la instancia: el tipo de instancia solicitado (p3.2xlarge) no está soportado en la zona de disponibilidad solicitada (us-east-1a). Vuelva a intentar la solicitud no especificando una zona de disponibilidad o eligiendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.
Razón: MachineCreationFailed
Estado: False
Tipo: MachineCreation
Sucesos:
Type Reason Age From Message
---- ------ ---- ---- -------
Aviso FailedCreate 52s (x2 sobre 53s) awscontroller masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd: reconciler no ha podido crear la máquina: no ha podido iniciar la instancia: error al iniciar la instancia: El tipo de instancia solicitado (p3.2xlarge) no está soportado en la zona de disponibilidad solicitada (us-east-1a). Vuelva a intentar la solicitud no especificando una zona de disponibilidad o eligiendo us-east-1b, us-east-1c, us-east-1d, us-east-1f.
|
oc delete machineset <machineset name>
Edite el valor availabilityZone en el recurso personalizado y vuelva a ejecutar oc
create -f <customresource.json>. Supervise la creación del conjunto de máquinas y de las máquinas utilizando los mandatos que se listan en el paso 13. Para cualquier otro tipo de error, suprima el conjunto de máquinas, edite el recurso personalizado y vuelva a crear el conjunto de máquinas utilizando el archivo JSON de recursos personalizados editado.