Dodawanie węzła roboczego GPU do klastra Red Hat OpenShift w systemie AWS
Przed zainstalowaniem produktu IBM® Maximo® Visual Inspection w programie Maximo Application Suite na platformie AWS, należy dodać węzeł roboczy GPU do klastra Red Hat® OpenShift®. Bieżące oferty BYOL AWS Maximo Application Suite nie zawierają węzłów z układem GPU. Program AWS oferuje instancje EC2 , które pochodzą z grupy GPUs. p3.2xlarge jest zalecanym typem instancji EC2 , który ma być używany dla MVI.
Więcej informacji na temat zalecanych instancji GPU AWS można znaleźć w sekcji Zalecane instancje GPU.
Wybierz odpowiednią instancję GPU EC2 , która ma być używana, a następnie sprawdź dostępność instancji w regionie, w którym zainstalowana jest instancja Maximo Application Suite . Te informacje można uzyskać na stronie typu instancji, która znajduje się w usłudze EC2 w konsoli AWS . Jeśli na przykład wdrożono instancję Maximo Application Suite w regionie us-east-1 , przejdź do strony typu instancji EC2 dla tego regionu, https://us-east-1.console.aws.amazon.com/ec2/v2/home?region=us-east-1#InstanceTypes:, a następnie odfiltrowuj według typu instancji. Kliknięcie typu instancji powoduje wyświetlenie strony zawierającej szczegóły typu instancji, obliczenia, sieć, pamięć masową, akceleratory i informacje o cenach. W sieci udostępniane są strefy dostępności typu instancji.
Zanim rozpoczniesz
- Powłoka sterowaniaMoże to być węzeł bootnode. Znajdź ten komputer w panelu kontrolnym EC2 . Jest on często zatrzymany, znajdź go pod listą wszystkich instancji. W przypadku zatrzymania w stanie zatrzymania należy zrestartować instancję. Połącz się z tą instancją jako użytkownik EC2-user.Wskazówka: Można użyć Visual Studio Code zdalnie połączonego z węzłem bootnode. Jest to wygodne, ale nie jest to konieczne.
ocjq
Procedura
W oficjalnej dokumentacji Red Hat omówiono sposób tworzenia zestawu maszyn na serwerze AWS. Poniżej przedstawiono również omówione tutajomówione informacje. Ta procedura obejmuje utworzenie kopii istniejącego zasobu niestandardowego YAML węzła procesu roboczego. Kopia jest następnie aktualizowana w przypadku produktu instanceType (zaktualizowanego do wersji p3.2xlarge), nazwa metadanych, etykiety selektora i odpowiednie metadane są usuwane. Dobrze jest również sprawdzić wartości pod kluczem placement (w razie potrzeby zaktualizuj opcje availabilityZone i region). Nowy zestaw maszyn jest następnie tworzony przy użyciu tego zasobu niestandardowego YAML.
Upewnij się, że komendy zostały uruchomione w przestrzeni nazw openshift-machine-api .
Po uruchomieniu komendy oc create -f <machine set custom resource> (krok 12) dane wyjściowe zawsze wskazują, że komputer jest tworzony. Jeśli jednak wystąpi awaria, zestaw maszyn nie jest gotowy i jest dostępny. Uruchomienie programu oc get machine może natychmiast wskazywać na niepowodzenie:
NAME PHASE TYPE REGION ZONE AGE
masocp-qxkeml-wh7px-master-0 Running m5.2xlarge us-east-1 us-east-1a 18h
masocp-qxkeml-wh7px-master-1 Running m5.2xlarge us-east-1 us-east-1b 18h
masocp-qxkeml-wh7px-master-2 Running m5.2xlarge us-east-1 us-east-1c 18h
masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd Failed 4s
masocp-qxkeml-wh7px-worker-gpu-us-east-1a-nhldx Failed 20s
masocp-qxkeml-wh7px-worker-us-east-1a-h2c8g Running m5.4xlarge us-east-1 us-east-1a 18h
masocp-qxkeml-wh7px-worker-us-east-1a-p7mt9 Running m5.4xlarge us-east-1 us-east-1a 18h
masocp-qxkeml-wh7px-worker-us-east-1b-4rlrq Running m5.4xlarge us-east-1 us-east-1b 18h
masocp-qxkeml-wh7px-worker-us-east-1b-dhv6g Running m5.4xlarge us-east-1 us-east-1b 18h
masocp-qxkeml-wh7px-worker-us-east-1c-ks85p Running m5.4xlarge us-east-1 us-east-1c 18h
masocp-qxkeml-wh7px-workerocs-us-east-1a-9r6pj Running m5.4xlarge us-east-1 us-east-1a 17h
masocp-qxkeml-wh7px-workerocs-us-east-1b-p9psl Running m5.4xlarge us-east-1 us-east-1b 17h
masocp-qxkeml-wh7px-workerocs-us-east-1c-94d7q Running m5.4xlarge us-east-1 us-east-1c 17h
Uruchom program oc describe machine <machine name> lub oc describe machineset
<machineset name> , aby wyświetlić przyczynę niepowodzenia, a następnie sprawdź komunikat o błędzie w obszarze Status lub Zdarzenia:
Status:
Warunki:
Czas ostatniego przejścia: 2022-05-26T15:20:25Z
Komunikat: Instancja nie została utworzona
Przyczyna: InstanceNotUtworzono
Istotność: Ostrzeżenie
Status: Fałsz
Typ: InstanceExists
Komunikat o błędzie: Błąd podczas uruchamiania instancji: Żądany typ instancji (p3.2xlarge) nie jest obsługiwany w żądanej strefie dostępności (us-east-1a). Ponów żądanie, jeśli nie podano strefy dostępności lub wybierz us-east-1b, us-east-1c, us-east-1d, us-east-1f.
Przyczyna błędu: InvalidConfiguration
Ostatnia aktualizacja: 2022-05-26T15:20:26Z
Faza: Niepowodzenie
Status dostawcy:
Warunki:
Czas ostatniej inwentaryzacji: 2022-05-26T15:20:26Z
Czas ostatniego przejścia: 2022-05-26T15:20:26Z
Komunikat: błąd uruchamiania instancji: Żądany typ instancji (p3.2xlarge) nie jest obsługiwany w żądanej strefie dostępności (us-east-1a). Ponów żądanie, jeśli nie podano strefy dostępności lub wybierz us-east-1b, us-east-1c, us-east-1d, us-east-1f.
Przyczyna: MachineCreationFailed
Status: False
Type: MachineCreation
Events:
Typ przyczyny: Wiek z komunikatu
---- ------ ---- ---- -------
Ostrzeżenie FailedCreate 52s (x2 ponad 53s) awscontroller masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd: uzgadnianie nie powiodło się: Nie powiodło się uruchomienie instancji: błąd uruchamiania instancji: błąd podczas uruchamiania instancji: Żądany typ instancji (p3.2xlarge) nie jest obsługiwany w żądanej strefie dostępności (us-east-1a). Ponów żądanie, jeśli nie podano strefy dostępności lub wybierz us-east-1b, us-east-1c, us-east-1d, us-east-1f.
oc delete machineset <machineset name>
Zmodyfikuj wartość availabilityZone w zasobie niestandardowym i ponownie uruchom program oc
create -f <customresource.json>. Monitoruj tworzenie zestawu maszyn i maszyn za pomocą komend wymienionych w kroku 13. W przypadku wszystkich innych typów błędów usuń zestaw maszyn, edytuj zasób niestandardowy i utwórz ponownie zestaw maszyn przy użyciu edytowanego pliku JSON zasobu niestandardowego.