Limite de délai d'attente à distance
La limite de délai d'attente à distance est définie dans le cluster de soumission et détermine la durée pendant laquelle un travail MultiCluster reste en attente dans le cluster d'exécution. Après le délai imparti, le travail revient au cluster de soumission pour être replanifié.
La limite de délai d'attente à distance en secondes est la suivante:
MAX_RSCHED_TIME(lsb.queues) * MBD_SLEEP_TIME(lsb.params)
Dans une installation par défaut, MBD_SLEEP_TIME est de 20 secondes et le facteur de multiplication pour MultiCluster est de 20, de sorte que la limite de délai d'attente est normalement de 400 secondes.
Problème avec les files d'attente éloignées uniquement
Par défaut, les files d'attente LSF répartisont les travaux de répartition dans l'ordre FCFS. Cependant, dans un cas, le comportement par défaut peut être problématique. C'est le cas lorsqu'une file d'attente d'envoi de travaux est envoyée à une seule file d'attente éloignée et qu'elle n'utilise jamais d'hôtes locaux.
Dans ce cas, les travaux qui ont un délai d'attente dans le cluster de travaux de réception ne peuvent être redistribués que dans la même file d'attente de travaux de réception. Lorsque cela se produit, la file d'attente de travaux de réception prend le travail rédistribué en tant que nouvelle soumission, lui attribue un nouvel ID de travail et lui accorde la priorité la plus faible dans la commande FCFS. De cette manière, le travail MultiCluster de priorité la plus élevée arrive à expiration, puis devient le travail de priorité la plus basse. De plus, comme les travaux locaux n'ont pas de délai d'attente, les travaux MultiCluster ont une priorité plus faible que les travaux locaux en attente depuis moins de temps.
Pour vous assurer que les travaux sont toujours répartis dans l'ordre d'origine, vous pouvez désactiver le délai d'attente à distance pour la file d'attente des travaux d'envoi.
Désactiver le délai d'attente
Pour désactiver le délai d'attente à distance, éditez MAX_RSCHED_TIME dans lsb.queues dans le cluster de soumission et spécifiez le mot clé INFINIT. Cela augmente la limite du délai d'attente à distance à l'infini.
Même si la limite est définie à l'infini, le délai d'attente des travaux est écoulé si un cluster d'exécution distant est reconfiguré. Cependant, tous les travaux en attente ont un délai d'attente immédiat, de sorte que lorsque la file d'attente tente de les envoyer à nouveau, la priorité d'origine est conservée.