Skonfiguruj profil aplikacji, aby włączyć funkcję czuwania, a następnie określ serwer powiadomień LSF Application Center , aby otrzymywać powiadomienia.
Zanim zaczniesz
Aby upewnić się, że skrypty watchdog mogą wysyłać powiadomienia do serwera powiadomień LSF Application Center , należy zdefiniować parametr LSF_AC_PNC_URL w pliku lsf.conf .
Procedura
- Utwórz skrypt czuwający w celu monitorowania aplikacji (poprzez sprawdzanie danych aplikacji, dzienników i innych informacji) oraz wysyłanie komunikatów powiadomień.
W skrypcie należy użyć opcji komendy bpost -N w celu wysłania powiadomienia (z komunikatem w opcji -d i określonym poziomem błędu) na serwer powiadomień LSF Application Center :
bpost -d "komunikat" -N WARNING | ERROR | CRITICAL | INFO
Wszystkie zmienne środowiskowe zadania są dostępne dla skryptów watchdog. Ponadto następujące zmienne środowiskowe wykorzystania zasobów na poziomie zadania produktu LSF są dostępne dla skryptów watchdog:
- LSB_GPU_ALLOC_INFO
- LSB_JOB_AVG_MEM
- LSB_JOB_CPU_TIME
- LSB_JOB_MAX_MEM
- LSB_JOB_MEM
- LSB_JOB_NTHREAD
- LSB_JOB_PGIDS
- LSB_JOB_PIDS
- LSB_JOB_RUN_TIME
- LSB_JOB_SWAP
Skrypt watchdog może mieć następujący format:
#!/bin/sh
source <lsf_conf_dir>/profile.lsf
<application_checking_commands>
if <okay> then
exit 0
else
if <warning_level> then
bpost -N WARNING -d "WARNING: <warning_message>"
exit 0
else
bpost -N CRITICAL -d "FATAL: <critical_message>"
exit 1
end if
end if
Uwaga: Należy dodać komendę do źródła środowiska LSF na początku skryptu watchdog.
- Ustaw odpowiednie uprawnienia dla skryptu, aby upewnić się, że użytkownik zgłaszający zadania jest w stanie wykonać skrypt.