处理资源组获取失败
PowerHA® SystemMirror® 使用事件脚本在 PowerHA SystemMirror 集群中移动资源。 PowerHA SystemMirror 区分事件脚本中的某些类型的故障。 仍存在致命类型错误,其中脚本逻辑或环境中的错误导致脚本失败,但现在 PowerHA SystemMirror 会捕获与资源处理相关的可恢复错误。 这允许 PowerHA SystemMirror 继续事件处理,并尝试在下一个可用节点上使组联机。
PowerHA SystemMirror 尝试启动或移动资源组可能会由于各种原因 (例如,忙碌或不可用的设备) 或缺少磁盘空间而失败。 PowerHA SystemMirror 可能会通过尝试将资源组移动到另一个节点来对此类故障作出反应。
如果特定节点上的资源组获取失败:
- 并非所有资源组获取失败都要求立即进行手动干预。 在某些情况下,资源组将在其他节点上成功联机。 但是,发生资源组获取失败这一事实表明出现了需要引起注意的系统问题。
- 当节点无法获取资源组时,集群管理器将记录错误消息并且继续处理事件,以便集群资源仍可用。
PowerHA SystemMirror 自动 尝试在 node_up 事件期间在节点上激活处于 ERROR 状态的资源组。 您无法禁用此功能。 如果尝试了恢复连接节点上处于 ERROR 状态的资源组,但是该节点上的资源组获取失败,那么非并发资源组将失败转移到节点列表中的下一个节点(如果有节点可用)。 如果并发资源组获取失败,那么资源组仍处于 ERROR 状态。
- PowerHA SystemMirror 日志在 hacmp.out中报告了资源组获取失败 (由命令返回的非零退出代码指示的失败)。 这些信息显示在每个主要事件的详细信息后面的事件摘要中。
事件摘要能使您更方便的检查 hacmp.out 文件的错误。 检查此日志变得更加重要,因为 config_too_long 控制台消息并非在存在问题的每种情况下都很明显。
只要集群事件花费过长时间才完成,config_too_long 事件便会运行。 当 config_too_long 事件运行时,这表明发生了错误或者某个恢复操作可能已停止。 通过为 config_too_long 事件配置通知,将提醒操作员执行相应操作。