DNS 故障转移是一种自动路由技术,能将流量从故障或不可达服务器重定向至正常运行的可用服务器。
故障转移服务通常由云权威 DNS 提供商提供,通过运行状况检查与监控节点来评估 DNS 服务器状态。当服务器在运行状况检查期间能正常响应监控节点时,用户查询将被路由至该服务器并完成解析。但若服务器不可用(因主机无响应或服务中断),故障转移服务会撤回其 IP 地址,将网络流量重定向至拥有正常服务器的新 IP 地址。
故障转移通过域名系统 (DNS) 实现,该系统将人类可读的域名转换为设备间网络通信所需的计算机可读 IP 地址。
在传统 DNS 基础设施中,域名会将流量引导至存储着正确响应资源的 IP 地址。当用户输入域名时,其计算机首先与 DNS 解析器通信。解析器遍历 DNS 系统抵达权威域名服务器(通常为主 DNS 服务器),该服务器存有所请求网站对应的 IP 地址。随后服务器将域名转换为对应 IP 地址,并将查询信息返回给用户。
传统基础设施中,故障转移 DNS 服务器对网络运行并非必需——仅凭主服务器 DNS 系统也能完成查询解析任务。但备份服务器会同步维护 DNS 记录的副本,以防主服务器故障,这使其成为 DNS 故障转移不可或缺的组成部分。倘若没有故障转移服务器,当主服务器宕机或不可达时,整个 DNS 系统将陷入瘫痪。
因此,DNS 故障转移服务对于维持弹性、冗余且高可用的计算网络至关重要。
DNS 采用分层式分布式数据库结构设计,这种结构为域名解析提供了更动态化的处理方式,使其能够跟上计算机网络快速扩张的步伐。它常被通俗地称为“互联网电话簿”,但更贴切的类比是:DNS 管理域名的方式与智能手机管理联系人十分相似。
智能手机通过将号码存储在易搜索的联系人列表中,使用户无需记忆单个电话号码。同样地,DNS 让用户能够通过互联网域名而非 IP 地址来访问网站。用户无需记忆“93.184.216.34”这样的网页服务器地址,只需输入“www.example.com”即可访问相应网页。
当域名完成注册时,其名称服务器记录会被创建并存储在主 DNS 服务器上。主 DNS 服务器持有区域文件的原始读写版本及各类资源记录(包括 A 记录、AAAA 记录、MX 记录、CNAME 记录等),这些记录负责将正确数据映射并路由回用户。
备份 DNS 服务器(即故障转移服务器)则持有区域文件的只读副本。它们作为辅助 DNS 服务器运行,仅在主服务器停机或过载时处理请求。
虽然主 DNS 服务器是 DNS 运行的核心,但它们也代表着单点故障风险。若主服务器发生故障且没有指定备份服务器接管工作,整个 DNS 解析过程就会受到影响。反之,备份服务器离不开主 DNS 服务器而独立存在;但若主服务器出现中断,备份服务器会管理故障转移协议,确保在主服务器恢复前持续处理用户查询。
如今,主流托管 DNS 提供商大多提供可用的名称服务器IP地址,每个IP地址背后都设有采用任播路由的地理分布式 DNS 服务器池。与传统 DNS 的一对一通信模式不同,任播 DNS 将用户请求路由至解析器网络(而非单一解析器),并引导至最近的可用服务器进行解析,从而优化负载均衡功能并增强整体网络韧性。
不同网络的 DNS 故障转移协议可能存在显著差异,但通常都包含几个关键流程。
DNS 系统必须持续执行运行状况检查,以确定互联网服务提供商、所有网络 API 端点及主 IP 服务器的状态与性能。运行状况检查可涵盖网络层的互联网控制消息协议 (ICMP) Ping 检测、应用层的 HTTP/HTTPS Web 服务器评估、端口层的传输控制协议 (TCP) 和用户数据报协议 (UDP) 检查,以及企业需要运行的任何自定义脚本。
管理员通常根据应用程序需求与服务的关键性来自定义故障判定标准。无论采用何种标准,当监控节点检测到故障(主服务器无响应或返回错误)时,便会触发故障转移事件并发送故障通知。
随后监控节点动态撤回不可用 IP 地址,将主机名迁移至备份 IP(或 CNAME),使路由器将 DNS 查询导向辅助 IP 地址,直至主服务器恢复。故障转移 DNS 还会调整存活时间 (TTL) 值与 DNS 缓存时间,确保变更快速传播至全网 DNS 解析器,使用户体验的停机时间最小化(若发生)。
当主服务器恢复并通过运行状况检查后,系统准备执行回切——将 DNS 设置与解析过程恢复至主 IP 地址。监控节点全程监管此过程,避免频繁切换现象发生,并持续执行运行状况检查以维持网络最优运行。
许多企业还实施高级故障转移策略,例如多区域故障转移(通过跨区域路由策略将用户引导至最近或性能最佳的服务器)和任播 DNS(从多个位置广播相同 IP 地址,根据网络拓扑将请求路由至最优服务器)。
此外,DNS 故障转移服务可支持轮询 DNS,将流量均匀分配至各服务器,有助于防范分布式拒绝服务 (DDoS) 攻击。而混合故障转移解决方案(例如将故障转移 DNS 与全局服务器负载均衡 (GSLB) 和内容分发网络 (CDN) 等高可用网络方案结合)能优化流量管理、降低延迟,并适应更复杂的故障转移场景。
IBM NS1 Connect 是一项完全托管的云服务,用于企业 DNS、DHCP、IP 地址管理和应用程序流量导向。
IBM 的云网络解决方案可实现高性能连接,为应用程序和业务提供支持。
使用 IBM Technology Lifecycle Services 整合数据中心支持,以实现云网络等。