预留处理器
关于处理器预留
当并行作业必须与作业槽的顺序作业竞争时,变为可用的槽很可能被顺序作业立即占用。 并行作业需要有多个作业插槽可用,然后才能分派这些作业。 如果集群始终处于繁忙状态,那么大型并行作业可能无限期处于暂挂状态。 并行作业需要的处理器越多,问题就越严重。
处理器保留通过在作业插槽变为可用时保留这些作业插槽来解决此问题,直到有足够的保留作业插槽来运行并行作业为止。
如果集群有大量顺序作业与具有并行作业的作业槽竞争,那么您可能想要配置处理器预留。
处理器预留的工作方式
缺省情况下,处理器预留处于禁用状态。
如果启用了处理器预留,并且由于没有足够的作业插槽来满足其最低处理器需求,因此无法分派并行作业,那么当前可用的作业插槽将保留并累积。
保留的作业槽不可用于任何其他作业。 为了避免系统为多个并行作业保留作业槽,并且这些作业槽都无法获取足够的资源来启动的死锁情况,如果并行作业未累积到足以在指定时间内启动,那么该作业将放弃其所有保留作业槽。 预留时间从保留第一个槽的时间开始。 当预留时间到期时,作业无法为一个调度周期预留任何槽,但是可以重新开始预留过程。
如果在作业或队列级别指定第一个执行主机候选者,那么 LSF 会尝试在第一个执行主机上保留作业插槽。 如果 LSF 无法保留第一个执行主机作业插槽,那么它不会保留任何其他主机上的插槽。