Maximo Application Suite Müşteri tarafından yönetilen

GPU çalışanı düğümü AWS'ta bir Red Hat OpenShift kümesi ' e ekleniyor

Before you install IBM® Maximo® Visual Inspection in Maximo Application Suite on AWS, a GPU worker node needs to be added to the Red Hat® OpenShift® kümesi. Geçerli AWS Maximo Application Suite BYOL olanakları, GPU içeren düğümleri içermez. AWS , GPU ' larla birlikte gönderilen EC2 eşgörünümlerini sunar. p3.2xlarge , MVI için kullanılmak üzere önerilen EC2 yönetim ortamı tipidir.

AWS tarafından önerilen GPU örnekleri hakkında daha fazla bilgi için bkz. Önerilen GPU Eşgörünümleri.

Kullanılacak uygun EC2 GPU örneğini seçin ve daha sonra, Maximo Application Suite örneğinizin kurulu olduğu bölgede yönetim ortamının kullanılabilirliğini denetleyin. Bu bilgiler, AWS konsolundaki EC2 hizmeti altında bulunan eşgörünüm tipi sayfasından edinilebilir. Örneğin, Maximo Application Suite yönetim ortamınızı us-east-1 bölgesinde konuşlandırdıysanız, o bölge için EC2 yönetim ortamı tipinin sayfasına gidin ( https://us-east-1.console.aws.amazon.com/ec2/v2/home?region=us-east-1#InstanceTypes:) ve eşgörünüm tipine göre süzgeç uygulayın. Eşgörünüm tipini, eşgörünüm tipinin ayrıntılarını, hesaplamanın, ağ oluşturma, depolama, hızlandırıcılar ve fiyatlandırma bilgilerini görüntüleyen sayfayı tıklatın. Ağ oluşturma altında, yönetim ortamı tipinin kullanılabilirlik bölgeleri verilir.

Başlamadan önce

Aşağıdaki gereksinimleri karşıladığınızdan emin olun:
  • Denetim kabuğu
    Bu, bootnode olabilir. Bu makineyi EC2 gösterge panosunda bulun. Sık sık durdurulur ve tüm eşgörünümler listesinin altında yer alıyor. Durdurulmuş durumdaysa, yönetim ortamını yeniden başlatın. Bu yönetim ortamına EC2-userolarak bağlanın.
    İpucu: Önyükleme düğümüne uzaktan bağlı Visual Studio Code ' u kullanabilirsiniz. Bu uygun bir şey, ama gerekli değil.
  • oc
  • jq

Yordam

Resmi Red Hat documentation , AWSüzerinde bir makinenin nasıl oluşturulacağı hakkında bilgi alır. Bunun nasıl yapacagına ilişkin bir örnek de buradaele alınmıştır. Bu yordam, var olan bir Worker düğümünün YAML özel kaynağının bir kopyasını oluşturmayı içerir. The copy is then updated for instanceType (updated to p3.2xlarge), the metadata name, selector labels, and appropriate metadata are removed. It is also good to check the values under the placement key (update the availabilityZone and region, if needed). Daha sonra bu özel kaynak YAML kullanılarak yeni bir makine kümesi yaratılır.

  1. Denetim kabuğunda, masocpuser (ya da kubeadmin) olarak oturum açın.
  2. openshift-machine-api ad alanına geçin.
    
    oc project openshift-machine-api
    

    If this is not done, you must use the -n flag and provide openshift-machine-api as argument in the succeeding steps.

  3. Kümede kullanılabilir makinistleri listele.
    
    oc get machineset -o name
    
  4. Yeni GPU işçi düğümü YAML özel kaynağı için şablon olarak uygun bir makine kümesi seçin. Yeni düğümü yaratmak için kullanılacak GPU EC2 yönetim ortamı tipiyle aynı kullanılabilir bölgede bulunan bir makine takımı seçmek en iyidir. For example, if p3.2xlarge is available in us-east-1b, pick a machineset that has us-east-1b as part of its name.
  5. Şablon makine kümesi adı için bir değişken atayın.
    Örneğin,
    
    SOURCE_MACHINESET=machine set.machine.openshift.io/masocp-4kyowr-mm5b5-worker-us-east-1b
    
  6. Kaynak makine kümesinin özel kaynağını yeni bir dosyaya kopyalayın.
    
    oc get -o json  $SOURCE_MACHINESET  | jq -r > source-machineset.json
    
    Not: source-machineset.json dosyası yürürlükteki klasörde yaratılır.
  7. Daha sonra kullanmak üzere değişkenleri tanımlayın.
    
    OLD_MACHINESET_NAME=$(jq '.metadata.name' -r source-machineset.json)
    
    
    NEW_MACHINESET_NAME=${OLD_MACHINESET_NAME/worker/worker-gpu}
    
  8. Change the instanceType, the number of replicas (optional), delete some metadata and copy this into a new file, gpu-machineset.json. Bu dosya, GPU ile yeni bir makine kümesi oluşturmak için kullanılır.
    
    jq -r '.spec.template.spec.providerSpec.value.instanceType = "p3.2xlarge"
      | .spec.replicas = 1
      | del(.metadata.selfLink)
      | del(.metadata.uid)
      | del(.metadata.creationTimestamp)
      | del(.metadata.resourceVersion)
      ' source-machineset.json > gpu-machineset.json
    
  9. Makine kümesi adını gpu-machineset.json' ta değiştirin.
    
    sed -i "s/$OLD_MACHINESET_NAME/$NEW_MACHINESET_NAME/g" gpu-machineset.json
    
  10. Değişiklikleri denetlemek için diff komutunu çalıştırın.
    
    diff -Nuar source-machineset.json gpu-machineset.json
    

    Daha fazla bilgi için bkz. AWSüzerinde GPU kullan ve kullan.

  11. availabilityZone değerini denetleyin ( spec.template.spec.providerSpec.value.placementaltında bulunur). Ensure that the new instance type (p3.2xlarge) has the same availability zone, or you can omit the availability key-value pair from the JSON file. Yoksa, makine kümesini yarattıktan sonra bir hata görüntülenir. Daha fazla bilgi için bu görevin sonundaki troubleshooting (Sorun giderme) bölümüne bakın.
  12. Makine kümesi yarat:
    
    oc create -f gpu-machineset.json
    
    Örnek çıktı
  13. Makine setinin yaratıldığını doğrulayın.
    
    oc get machineset
    
    Örnek çıktı

    Bu, yeni GPU düğümünün oluşturulduğunu, ancak henüz hazır ve kullanılabilir durumda olmadıklarını gösterir.

    Makinelerin listesini alma durumu şu şekilde gösterilir:
    
    oc get machine
    
    Örnek çıktı:

    NAME                                              PHASE          TYPE         REGION      ZONE         AGE
    masocp-4kyowr-mm5b5-master-0                      Running        m5.2xlarge   us-east-1   us-east-1a   7d8h
    masocp-4kyowr-mm5b5-master-1                      Running        m5.2xlarge   us-east-1   us-east-1b   7d8h
    masocp-4kyowr-mm5b5-master-2                      Running        m5.2xlarge   us-east-1   us-east-1c   7d8h
    masocp-4kyowr-mm5b5-master-3                      Running        m5.2xlarge   us-east-1   us-east-1a   7d8h
    masocp-4kyowr-mm5b5-master-4                      Running        m5.2xlarge   us-east-1   us-east-1b   7d8h
    masocp-4kyowr-mm5b5-worker-gpu-us-east-1b-nrr4n   Provisioning   p3.2xlarge   us-east-1   us-east-1b   22s
    masocp-4kyowr-mm5b5-worker-us-east-1a-kx449       Running        m5.4xlarge   us-east-1   us-east-1a   7d8h
    masocp-4kyowr-mm5b5-worker-us-east-1a-nn72q       Running        m5.4xlarge   us-east-1   us-east-1a   7d8h
    masocp-4kyowr-mm5b5-worker-us-east-1a-p5nqf       Running        m5.4xlarge   us-east-1   us-east-1a   7d8h
    masocp-4kyowr-mm5b5-worker-us-east-1b-7r5wz       Running        m5.4xlarge   us-east-1   us-east-1b   7d8h
    masocp-4kyowr-mm5b5-worker-us-east-1b-94khr       Running        m5.4xlarge   us-east-1   us-east-1b   7d8h
    masocp-4kyowr-mm5b5-worker-us-east-1c-fvv52       Running        m5.4xlarge   us-east-1   us-east-1c   7d8h
    masocp-4kyowr-mm5b5-worker-us-east-1c-rsnwf       Running        m5.4xlarge   us-east-1   us-east-1c   7d8h
    masocp-4kyowr-mm5b5-workerocs-us-east-1a-hwb4m    Running        m5.4xlarge   us-east-1   us-east-1a   7d7h
    masocp-4kyowr-mm5b5-workerocs-us-east-1b-979w8    Running        m5.4xlarge   us-east-1   us-east-1b   7d7h
    masocp-4kyowr-mm5b5-workerocs-us-east-1c-85ktb    Running        m5.4xlarge   us-east-1   us-east-1c   7d7h

    Makine kümesi yetkilendirildiğinde, oc get machineset için çıkışa bir örnek:


    NAME ISTENEN MEVCUT HAZıR YAYıN
    masocp-4kyowr-mm5b5-worker-gpu-us-east-1b   1 1 1 1           3m38s
    masocp-4kyowr-mm5b5-worker-us-east-1a       3 3 3 3 3           7d8h
    masocp-4kyowr-mm5b5-worker-us-east-1b       2 2 2 2           7d8h
    masocp-4kyowr-mm5b5-worker-us-east-1c       2 2 2 2           7d8h
    masocp-4kyowr-mm5b5-workerocs-us-east-1a    1 1 1 1 1           7d7h
    masocp-4kyowr-mm5b5-workerocs-us-east-1b    1 1 1 1 1           7d7h
    masocp-4kyowr-mm5b5-workerocs-us-east-1c    1 1 1 1 1           7d7h

    oc get machine komutunu çalıştırın. Çıkış, makinenin yetkilendirileceğini gösterir:


    AD FAZ TIPI BöLGESI BöLGESI

    masocp-4kyowr-mm5b5-master-3                      Running       m5.2xlarge   us-east-1   us-east-1a   7d8h
    masocp-4kyowr-mm5b5-master-4                      Running       m5.2xlarge   us-east-1   us-east-1b   7d8h
    masocp-4kyowr-mm5b5-worker-gpu-us-east-1b-nrr4n   Provisitted   p3.2xlarge   us-east-1   us-east-1b   107s
    masocp-4kyowr-mm5b5-worker-us-east-1a-kx449       Running       m5.4xlarge   us-east-1   us-east-1a   7d8h
    ...

    Ayrıca, OpenShift konsolunu, Compute > Nodes ya da Compute > Machinesetsaltında da denetleyebilirsiniz.

Ensure that you run the commands in the openshift-machine-api namespace.

oc create -f <machine set custom resource> komutunu çalıştırdıktan sonra (Adım 12), çıkış her zaman makinenin yaratıldığını gösterir. Ancak, bir hata varsa, makine kümesi hazır değil ve kullanılabilir durumda değildir. oc get machine ' un çalıştırılması anında hatayı belirtebilir:


NAME                                              PHASE     TYPE         REGION      ZONE         AGE
masocp-qxkeml-wh7px-master-0                      Running   m5.2xlarge   us-east-1   us-east-1a   18h
masocp-qxkeml-wh7px-master-1                      Running   m5.2xlarge   us-east-1   us-east-1b   18h
masocp-qxkeml-wh7px-master-2                      Running   m5.2xlarge   us-east-1   us-east-1c   18h
masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd   Failed                                          4s
masocp-qxkeml-wh7px-worker-gpu-us-east-1a-nhldx   Failed                                          20s
masocp-qxkeml-wh7px-worker-us-east-1a-h2c8g       Running   m5.4xlarge   us-east-1   us-east-1a   18h
masocp-qxkeml-wh7px-worker-us-east-1a-p7mt9       Running   m5.4xlarge   us-east-1   us-east-1a   18h
masocp-qxkeml-wh7px-worker-us-east-1b-4rlrq       Running   m5.4xlarge   us-east-1   us-east-1b   18h
masocp-qxkeml-wh7px-worker-us-east-1b-dhv6g       Running   m5.4xlarge   us-east-1   us-east-1b   18h
masocp-qxkeml-wh7px-worker-us-east-1c-ks85p       Running   m5.4xlarge   us-east-1   us-east-1c   18h
masocp-qxkeml-wh7px-workerocs-us-east-1a-9r6pj    Running   m5.4xlarge   us-east-1   us-east-1a   17h
masocp-qxkeml-wh7px-workerocs-us-east-1b-p9psl    Running   m5.4xlarge   us-east-1   us-east-1b   17h
masocp-qxkeml-wh7px-workerocs-us-east-1c-94d7q    Running   m5.4xlarge   us-east-1   us-east-1c   17h

Run oc describe machine <machine name> or oc describe machineset <machineset name> to see the reason for the failure and check the error message under Durum or Takvim Etkinlikleri:


Durum:
  Koşullar:
    Son Geçiş Saati:  2022-05-26T15:20:25Z
    İleti: Eşgörünüm
    Nedeni:                InstanceNotYaratıldı
    Önem Düzeyi: Uyarı
    Durum: Yanlış
    Tip:                  InstanceExists
  Hata İletisi: Hata başlatma örneği: İstenen örnek tipiniz (p3.2xlarge), istenen Kullanılabilirlik Bölmesinde (us-east-1a) desteklenmiyor. Lütfen bir Kullanılabilirlik Bölgesi belirtmeyerek ya da us-east-1b, us-east-1c, us-east-1d, us-east-1fseçeneklerini belirleyerek isteğinizi yeniden deneyin.
  Hata Nedeni:            InvalidConfiguration
  Son Güncelleme:            2022-05-26T15:20:26Z
  Aşama: Başarısız
  Sağlayıcı Durumu:
    Koşullar:
      Son Algılayıcı Saati:       2022-05-26T15:20:26Z
      Son Geçiş Saati:  2022-05-26T15:20:26Z
      İleti: Yönetim ortamı başlatılırken hata: İstenen örnek tipiniz (p3.2xlarge), istenen Kullanılabilirlik Bölgesinizde (us-east-1a) desteklenmiyor. Lütfen bir Kullanılabilirlik Bölgesi belirtmeyerek ya da us-east-1b, us-east-1c, us-east-1d, us-east-1fseçeneklerini belirleyerek isteğinizi yeniden deneyin.
      Neden:                MachineCreationFailed
      Status: False
      Type:                  MachineCreation
Events:
  Type Reason Age from Message
  ---- ------ ---- ---- -------
  Warning  FailedCreate  52s (x2 over 53s) awscontroller  masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd: reconciler makine yaratılamadı: hata başlatma örneği: hata başlatma örneği: İstenen örnek tipiniz (p3.2xlarge), istenen Kullanılabilirlik Bölgesinizde (us-east-1a) desteklenmiyor. Lütfen bir Kullanılabilirlik Bölgesi belirtmeyerek ya da us-east-1b, us-east-1c, us-east-1d, us-east-1fseçeneklerini belirleyerek isteğinizi yeniden deneyin.

Bu durumda, makine kümesini silebilirsiniz:

oc delete machineset <machineset name>

Özel kaynakta availabilityZone değerini düzenleyin ve oc create -f <customresource.json>öğesini yeniden çalıştırın. Monitor the creation of the machine set and machines by using the commands that are listed in step 13. Diğer hata tipleri için, makine kümesini silin, özel kaynağı düzenleyin ve düzenlenen özel kaynak JSON dosyasını kullanarak makine kümesini yeniden yaratın.