处理资源组获取失败

在线编辑

PowerHA® SystemMirror® 使用事件脚本在 PowerHA SystemMirror 集群中移动资源。 PowerHA SystemMirror 区分事件脚本中的某些类型的故障。仍存在致命类型错误，其中脚本逻辑或环境中的错误导致脚本失败，但现在 PowerHA SystemMirror 会捕获与资源处理相关的可恢复错误。这允许 PowerHA SystemMirror 继续事件处理，并尝试在下一个可用节点上使组联机。

PowerHA SystemMirror 尝试启动或移动资源组可能会由于各种原因 (例如，忙碌或不可用的设备) 或缺少磁盘空间而失败。 PowerHA SystemMirror 可能会通过尝试将资源组移动到另一个节点来对此类故障作出反应。

如果特定节点上的资源组获取失败：

并非所有资源组获取失败都要求立即进行手动干预。在某些情况下，资源组将在其他节点上成功联机。但是，发生资源组获取失败这一事实表明出现了需要引起注意的系统问题。
当节点无法获取资源组时，集群管理器将记录错误消息并且继续处理事件，以便集群资源仍可用。
PowerHA SystemMirror 自动尝试在 node_up 事件期间在节点上激活处于 ERROR 状态的资源组。您无法禁用此功能。如果尝试了恢复连接节点上处于 ERROR 状态的资源组，但是该节点上的资源组获取失败，那么非并发资源组将失败转移到节点列表中的下一个节点（如果有节点可用）。如果并发资源组获取失败，那么资源组仍处于 ERROR 状态。
PowerHA SystemMirror 日志在 hacmp.out中报告了资源组获取失败 (由命令返回的非零退出代码指示的失败)。这些信息显示在每个主要事件的详细信息后面的事件摘要中。
事件摘要能使您更方便的检查 hacmp.out 文件的错误。检查此日志变得更加重要，因为 config_too_long 控制台消息并非在存在问题的每种情况下都很明显。
只要集群事件花费过长时间才完成，config_too_long 事件便会运行。当 config_too_long 事件运行时，这表明发生了错误或者某个恢复操作可能已停止。通过为 config_too_long 事件配置通知，将提醒操作员执行相应操作。